Hoe zien zoekmachines een PDF bestand?


2 July 2007 22:02 - André
Categorie: SEO

pdf.gifEr zijn genoeg sites die er ooit voor gekozen hebben om bepaalde informatie als PDF op de site te plaatsen. Vooral product sheets, gebruiksaanwijzingen, affiches en folders worden op deze manier online geplaatst omdat deze makkelijk te lezen en te printen zijn in het PDF formaat. Maar wat nou als het grootste gedeelte van je site uit PDF bestanden bestaat? Is het genoeg om er naar te linken? Wat zien zoekmachines als inhoud? Worden de links erin gelezen? Is de inhoudsopgave geïndexeerd? Allemaal vragen waar ik een antwoord op ga geven.

Als we kijken naar de algemene cijfers die Google ons geeft over de diverse types geïndexeerde bestanden zijn dit de aantallen van hoog naar laag:

  • HTML: 3.610.000.000
  • HTM: 2.920.000.000
  • PHP: 879.000.000
  • ASP: 698.000.000
  • ASPX: 424.000.000
  • JSP: 211.000.000
  • PDF: 179.000.000
  • SWF: 40.000.000
  • DOC: 37.000.000
  • TXT: 26.100.000
  • XLS: 15.300.000

Na de normale web-formaten volgt PDF als meest geïndexeerde document type. 179 miljoen doorzoekbare PDF bestanden is nog best veel, geen sporadisch gebruikt type dus.

Ik heb twee PDF documenten tegen het licht gehouden om te zien wat Google er van zou maken. Het eerste bestand is een kaal document met een grote titel, een stukje tekst en daaronder een link. Het tweede bestand is een digitale versie van een papieren reclamefolder zoals deze:

pdf-folder.jpg

De resultaten zijn als volgt:

Plaatjes: Worden door Google genegeerd en niet meegenomen in de indexering, dat heeft te maken met het feit dat er in het PDF formaat geen zogenaamde alt attributen worden toegekend aan plaatjes.
Links: Zelfs kale en simpele links die nog aanklikbaar waren in het PDF document zijn omgezet naar onklikbare en kale tekst.
Tekst: Vrijwel alle tekst wordt geïndexeerd, en dat is ook de reden dat enkele PDF documenten in zoekresultaten verschijnen.
Meta's: Er wordt enkele meta data opgeslagen die uit de PDF gehaald kan worden: datum van creatie, wijzigingsdatum, producer, auteur en ontwerper. Ongetwijfeld zullen er meer zijn, maar aangezien Google ze niet kent zullen ze als gewone content behandeld worden.

Andere niet rankende factoren:

Lettertype: De grootte en de kleur van het lettertype uit het originele document wordt zoveel mogelijk nagebootst, maar de font-family zelf wordt overal Times.
Positionering: Ook wordt zoveel mogelijk de positie van elementen uit de PDF nagebootst. Dit gebeurd wel op een ranzige manier door alles absoluut te positioneren in de HTML.

Conclusie:

Google is heel beperkt in het lezen en indexeren van PDF bestanden. Ze zijn niet onderdeel van een linkstructuur (hooguit het einde), kunnen slecht in een context geplaatst worden en zijn niet semantisch opgebouwd. Het enige punt waar ze op kunnen scoren is de kale content.

Wanneer je in een bepaald zoekresultaat (binnen je eigen site bijvoorbeeld) dus een PDF document naar boven ziet komen is er toch iets mis met je echte content en moet je snel hulp inschakelen.

Gerelateerde posts
Zoekmachines toevoegen in Google Analytics...
Waarom submitten bij zoekmachines niet werkt...
Frames toegankelijk maken voor zoekmachines...
Breng snelheid in je site voor gebruikers en zoekmachines...


11 Reacties op “Hoe zien zoekmachines een PDF bestand?”



  1. mitchel

    Ik had juist ergens gelezen (SEOking) dat het heel handig was om bv een e-book online te zetten met daarin een aantal links naar je eigen pagina toe. In de hoop dat het e-book zich verspreid en je zo overal bruikbare links vandaan krijgt.

    Dit is dus niet waar... geen linklove via pdf e-books.

  2. Roger

    Is er geen verschil in een pdf die toegankelijk is gemaakt en een 'gewone' pdf?

  3. BARTdG

    Je moet rekening houden met de tekstopmaak van je pdf. Ik heb eens een pdf gemaakt van een doc, waarin in de letter-spacing van de titels vergroot had. Google zag niet dat het om hele woorden ging. De titelwoorden werden in stukjes van een of meerdere letters gehakt: twee m-men naast elkaar werden bijvoorbeeld bij elkaar gehouden, maar zodra de ruimte tussen twee letters (percentsgewijs, neem ik aan) te groot werd, interpreteerde Google dat als een spatie.

  4. André

    @mitchel: als ik in Google zoek op "link:wikipedia.com filetype:pdf" krijg ik geen resultaat, en dat geldt voor meer grote sites. Dat tezamen met de gewone tekst die Google van de links maakt doet mij concluderen dat je er weinig aan hebt.

    @Roger: hoe zou je een PDF toegankelijk maken?

  5. Roger

    Ik doelde op de accessibilty-features van Acrobat Pro... Daar zit een optie 'enable accessiblity features and reflow with Tagged PDF'. Dat is waarschijnlijk een functie waar Joe Clark impliciet op doelt in het ALA-artikel Facts and opinions about PDF accessiblity, waar hij het heeft over:

    There really was no such thing as a structure to PDF until tags were introduced in PDF 1.4. [...] PDF tags are XML-like and will be immediately understandable to anyone with HTML knowledge. Many tags are functionally equivalent to analogues in HTML, such as P, headings (including a generic, unnumbered Heading element), and Figure (image). But some of those tags have more features than their analogues in HTML. For images, you’ve got three levels of replacement text – “actual text,” useful for text rendered as an image, a drop capital, or an illuminated manuscript; “alternate text,” exactly as in HTML; and “title,” also as in HTML.

    Ik denk dus dat er een derde categorie PDF's is en de vraag is of zoekmachines beter omgaan met zulke verrijkte PDF's...

  6. Peter van der Graaf

    Links in een PDF worden wel gevolgd. Bewijs is dat pagina's die alleen via een PDF gelinkt werden, toch geïndexeerd zijn. De HTML variant zegt eigenlijk niet zo heel veel over ranking factoren en hetgene dat Google naast de gewone content wel of niet ziet.

    Bij een PDF is er vaak verschil tussen visuele volgorde en volgorde in de source code. Daarom worden PDF bestanden soms op rare woordvolgorden gevonden en zien de snippets er niet altijd logisch uit.

    De belangrijkste factoren om een PDF te laten scoren liggen offpage (dus niet binnen de tekst of code van de PDF zelf). Een PDF wordt zelfs pas geïndexeerd wanneer er een minimum aan autoritaire linkpunten naar toe wijst.

  7. André

    @Peter + Roger: dan zou er inderdaad een variant kunnen zijn die beter indexeerbaar is. Ik meende ooit over die test gelezen te hebben dat een document alleen via een PDF gelinked was, maar die kon ik niet terugvinden.

    Het lijkt er dus op dat Google er iets beter mee omgaat dan ik dacht, maar toch blijft het half werk :)

  8. Bas

    Ik probeer al een tijdje mijn pdf's inleesbaar te maken voor google. Dat wil zeggen dat ik graag wil dat als iemand op google zoekt naar een woord dat voorkomt in de pdf hij/zij via google naar deze pdf verwezen kan worden. Ik heb hiertoe het gebruikte lettertype al omgezet van frutiger naar arial vanuit de gedachte dat iedereen wel arial op zijn computer heeft. Het feit wil alleen dat wanneer ik op internet de tekst in het pdf document kopier en bijvoorbeeld plak in word hij er allemaal rechthoekjes van maakt en dus geen letters. Hierdoor is de pdf denk ik ook door google niet in te lezen op inhoud [van de tekst]. Een pdf waar het bijvoorbeel om gaat is deze: http://www.kuhneco.nl/pdf/zichzelf_buro.pdf

    Kan iemand me vertelllen hoe ik dit probleem kan verhelpen? Moet ik 'm anders wegschrijven en hoe dan?

    Dank voor de aandacht in ieder geval

    Gegroet Bas

  9. André

    Als ik bij de fonts kijk die je gebruikt hebt zie ik ArialMT staan, dat is wat anders dan Arial. Dat kan heel goed de reden zijn dat het copy-pasten niet werkt. Wel kun je de letters in de PDF goed zien omdat de fonts bij het document ingesloten zijn.

  10. Bas

    Beste Andre,

    Dank voor je reactie. Ik heb de pdf's inmiddels aangepast en volgens mij kan de tekst nu gewoon zo leesbaar gekopieerd worden naar Word. Bij mij werkt het in ieder geval. Nu nog maar hopen dat google ze indexeert.

    Gegroet Bas

  11. TTFA Hypotheek

    Wij gebruiken er veel PDF's op verschillende sites. Op één site hebben we zelfs 300 PDF bestanden met daarin veel data. Deze data wordt ook niet tot nauwelijks geïndexeerd door Google. Dus inmiddels gebruiken we nog maar zo min mogelijk of in onderdelen die voor Google niet belangrijk zijn.

Trackbacks

  1. Geen

Laat gerust een reactie achter

Je kunt deze elementen gebruiken: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>