Czy wyszukiwarka Google indeksuje dokumenty PDF?
19 wrzesień 2011 19:50 |
Wyszukiwarka Google
| Autor: Bartłomiej Damek
Często spotykamy się z wynikami wyszukiwań, w których to widnieje link bezpośredni do dokumentu PDF.
Z informacji, które Google umieściło na swoim
Blogu
kilka dni temu wynika, że proces indeksacji dokumentów PDF rozpoczął się od 2001 roku i w swojej
bazie ma zaindeksowanych setki milionów dokumentów typu PDF, czyli krótko mówiąc, indeksuje w pełni dokumenty PDF.
Co ciekawe, w większości przypadków pliki PDF osiągają zbliżone pozycje do witryn o podobnej tematyce w wynikach wyszukiwania, jednak należy
pamiętać o optymalizacji takiego dokumentu, gdyż same dokumenty posiadają zwykle bardziej rozbudowaną strukturę tekstową niżeli same witryny HTML,
a jak wiadomo, Google w głównej mierze indeksuje treść pisaną.
Przykładowe wyniki wyszukiwania dokumentu PDF w wyszukiwarce Google.pl
Odnośnie dokumentów PDF i ich indeksacji nasuwają się pytania:
Czy Google indeksuje każdy rodzaj plików PDF?
Otóż sama wyszukiwarka może indeksować treść takiego dokumentu, które jak wiadomo używają różnych rodzajów kodowań znaków jednak pod
warunkiem, że takie dokumenty nie są zablokowane hasłem bądź szyfrowane w inny sposób.
Ogólnie, jeśli sami użytkownicy przeglądając dokument, są w stanie skopiować treść z dokumentu PDF to i samej wyszukiwarce Google nie powinno to
sprawić żadnego problemu i takie treści powinna zaindeksować.
W pewnym stopniu dokumenty PDF możemy poddać procesowi optymalizacji tak, aby były jak najbardziej wartościowe w dziedzinie pozycjonowania.
Jak można optymalizować dokument PDF?
W zależności w jakim edytorze tworzymy dokument np. MS Word, Open Office .org, w właściwościach dokumentu można umieścić informacje
optymalizacyjne, które jak w przypadku HT ML gdzie uzupełniamy meta informacje typu T itle, Description, Keywords, można je umieścić w właściwościach
dokumentu w polach takich jak Autor, T ytuł, słowa kluczowe i opis dokumentu.
Przykład ustawień dokumentu w przypadku OpenOffice.org:
Tw oja ba za w iedzy o pozy cjon ow a n iu i opty m a liza cji str on in ter n etow y ch
Warto również zwrócić uwagę, aby dokument w głównej mierze stworzony był z tekstów, a nie obrazków, bądź co gorsza z tekstów umieszczonych na
obrazkach. Jak pisałem na początku artykułu, Google indeksuje tekst, także na to trzeba zwrócić szczególną uwagę.
A co zrobić z linkami, jeśli chce je umieścić w dokumencie PDF?
W przypadku linków zawartych w dokumentach PDF, również są one indeksowane przez wyszukiwarkę i pracują na podobnej zasadzie jak linki, prowadzące
ze stron typu HT ML (przenoszą również PageRank, więcej informacji w dalszej części artykułu).
Można np. w linkach prowadzących do stron zawartych w dokumencie PDF wpisywać tak samo słowo kluczowe jak np. w przypadku umieszczania
artykułów w precelkach.
W przypadku jeśli chcemy, aby w wynikach wyszukiwania wyświetlała się nazwa dokumentu taka, jaka nam będzie odpowiadała, należy wypełnić taką samą
treścią element w PDF w tytule z metadanymi (właściwości dokumentu w edytorze tekstu) pliku oraz w Anchor tekstach prowadzących do dokumentów
PDF z T wojej witryny internetowej.
A co z obrazkami w dokumencie PDF? Czy Google je indeksuje?
Co tyczy się natomiast obrazków, jeśli są zawarte w pliku PDF to nie są one same w sobie indeksowane, jednak można optymalizować ALT obrazków
(alternatywne treści obrazków) tak samo jak w przypadku HT ML'a.
Jak zatem tworzyć sam tekst, czy można go optymalizować tak samo jak treść w HTMLu?
Oczywiście, należy zwracać uwagę na nagłówki, w których w głównej mierze należy umieszczać słowa kluczowe najważniejsze dla nas, a i w samym tekście
dokumentu warto główne słowa kluczowe pogrubiać, gdyż Google tak jak w przypadku HTML tak i w PDF zwraca większą uwagę na treść pogrubioną i treści
zawarte w nagłówkach.
W skrócie, na co należy zwrócić uwagę przy optymalizacji dokumentu PDF?
na optymalizacji tytułu pod pozycjonowanie,
na opis dokumentu, aby zawierał słowa kluczowe odpowiednie dla dokumentu,
na uzupełnieniu informacji w nazwie firmy bądź autorze,
na użyciu słów kluczowych w polu Keywords w właściwościach dokumentu,
na dodawaniu tagów w dokumencie i odpowiednim ich skonfigurowaniu,
na alternatywne treści obrazków,
na linkach prowadzących do innych stron w dokumencie PDF i odpowiednim ich zoptymalizowaniu pod słowa kluczowe,
na nie szyfrowaniu dokumentu (włączenie blokady zapisu w dokumencie może być wykonane),
na oferowaniu dokumentu PDF w formie HTML'a bądź umieszczeniu go w Google Docs, tak by można było otworzyć dokument bezpośrednio z
przeglądarki internetowej.
Co, jeśli nie chcemy, aby wyszukiwarka Google indeksowała moje PDFy?
W przypadku, jeśli nie chcemy, aby wyszukiwarka Google zaindeksowała pliki typu PDF, wystarczy, aby w nagłówku pliku HTML takiego pliku dodać
informację X-Robots-Tag z wartością noindex. W przypadku, jeśli Google już zdążyło zaindeksować dokumenty PDF, można zastosować tą samą technikę.
Z czasem Google wyrzuci zaindeksowane dokumenty PDF z wyników wyszukiwania.
A co z duplikowaniem treści w przypadku PDFów?
Nieraz można się spotkać z treściami PDF, które w identycznej formie, bądź zbliżonej, istnieją również w formacie HT ML. Samo Google zaleca, aby nie
tworzyć duplikatów treści, tylko pozostawić jedną z form jej wyświetlania (czy to w formacie HTML, czy też PDF).
W przypadku, jeśli nie da się w żadnym wypadku wykluczyć formatu HTML i PDF z tą samą treścią, bądź bardzo zbliżoną, zalecane jest wskazać
preferowany URL przez wpis w sitemapie, a sitemapę umieścić w koncie WebMaster Tools.
Czy można wykonać przekierowanie 301 z PDF'a?
W przypadku, jeśli mamy zaindeksowany w wynikach wyszukiwania dokument, który z przyczyn niezależnych od nas musimy wstawić w innym miejscu,
aby uniknąć duplikowania się treści, można zastosować przekierowanie 301 z takiego dokumentu do nowego adresu (na podobnej zasadzie jak w przypadku
301 do innych podstron w HT ML
). Wystarczy mieć tylko dostęp do pliku .htaccess i odpowiednio go skonfigurować, tak aby po wejściu na link prowadzący
do PDF'a, automatycznie przekierowało nas na inny adres z tym dokumentem lub z jego aktualną wersją.
Czy kompresja dokumentu wpływa na jego indeksację?
Odpowiedź nie jest jednoznaczna, jednak należy z kompresją zachować umiar i w przypadku prostych dokumentów (kilku stronicowych), zawierających
tylko kilka zdjęć i niewiele tekstu, nie musimy stosować dużej kompresji (można ją nawet pominąć), jednak w przypadku większych dokumentów, warto
eksperymentować z kompresją, tak by zachować kompromis między wielkością a jakością treści w PDF. W przypadku, jeśli T wój dokument przekracza
wszelkie granice i jest bardzo duży, warto zastanowić się nad podziałem go na kilka mniejszych dokumentów odpowiednio je potem optymalizując.
Czy dokument PDF dostępny na stronie może przenosić PageRank?
Z doświadczenia mogę napisać, że jeśli sam dokument PDF posiada Page Rank (można to sprawdzić np. za pomocą dodatku do przeglądarke internetowych
SeoQ uake
, więcej o sprawdzaniu Page Rank możesz przeczytać w artykule
Co to jest Google Page Rank i jak go sprawdzić
), linkowanie z dokumentów
PDF do innych stron pozwala na przekazanie PageRanku stronie linkowanej z dokumentu.
Podsumowanie
Same dokumenty PDF są w pełni indeksowane przez wyszukiwarki internetowe oraz treści zawarte w dokumencie PDF w każdym języku (o ile są możliwe do
skopiowania), nie stanowią żadnego problemu dla samej wyszukiwarki Google. Warto wspomóc ten proces odpowiednio optymalizując dokument PDF pod
pozycjonowanie.
Również arkusze kalkulacyjne, jak i prezentacje są indeksowane przez wyszukiwarkę internetową Google, jednak to już pozostawiam na inny artykuł.
Pom oce wykorzystane w tworzeniu artykuły:
GoogleWebMasterCentral.BlogSpot.com
SeoMoz.org
Seoconsultants.com
Komentarze
Komentarze
dede, 2011-09-19 21:10
faktycznie, dobra optymalizacja PDF pomaga w indeksacji plików i pojawianie się ich w google
EmetB, 2011-10-02 20:10
Ciekawy art. Dzięki, zwłaszcza za to, że nie wiedziałem nawet, że można też optymalizować PDFy :D Czekam na więcej artów na tematy związane z excelmi,
docami itp
Zobacz także
Czy wy szukiwarka Google indeksuje
dokumenty PDF?
1.
Czy Google czy ta pliki pdf i doc?
2.
Wy razy ignorowane przez wy szukiwarki
3.
Staty sty ki? Co to jest Google Analy tics i jak
zainstalować staty sty ki na stronie?
4.
Co to są wy niki dla innego słowa w Google?
5.
Co to są grupy dy skusy jne w Google?
6.
Co to jest Google Wideo?
7.
Korzystanie z serwisu oznacza akceptację
polityki prywatności.
copyright: KsiegaPozycjonera.pl. Wszelkie prawa zastrzeżone.
KsiegaPozycjonera.pl
E-mail:
bartek.damek@ksiegapozycjonera.pl
www:
www.ksiegapozycjonera.pl