Hoe zien zoekmachines een PDF bestand?

pdf.gifEr zijn genoeg sites die er ooit voor gekozen hebben om bepaalde informatie als PDF op de site te plaatsen. Vooral product sheets, gebruiksaanwijzingen, affiches en folders worden op deze manier online geplaatst omdat deze makkelijk te lezen en te printen zijn in het PDF formaat. Maar wat nou als het grootste gedeelte van je site uit PDF bestanden bestaat? Is het genoeg om er naar te linken? Wat zien zoekmachines als inhoud? Worden de links erin gelezen? Is de inhoudsopgave geïndexeerd? Allemaal vragen waar ik een antwoord op ga geven.

Als we kijken naar de algemene cijfers die Google ons geeft over de diverse types geïndexeerde bestanden zijn dit de aantallen van hoog naar laag:

  • HTML: 3.610.000.000
  • HTM: 2.920.000.000
  • PHP: 879.000.000
  • ASP: 698.000.000
  • ASPX: 424.000.000
  • JSP: 211.000.000
  • PDF: 179.000.000
  • SWF: 40.000.000
  • DOC: 37.000.000
  • TXT: 26.100.000
  • XLS: 15.300.000

Na de normale web-formaten volgt PDF als meest geïndexeerde document type. 179 miljoen doorzoekbare PDF bestanden is nog best veel, geen sporadisch gebruikt type dus.

Ik heb twee PDF documenten tegen het licht gehouden om te zien wat Google er van zou maken. Het eerste bestand is een kaal document met een grote titel, een stukje tekst en daaronder een link. Het tweede bestand is een digitale versie van een papieren reclamefolder zoals deze:

pdf-folder.jpg

De resultaten zijn als volgt:

Plaatjes: Worden door Google genegeerd en niet meegenomen in de indexering, dat heeft te maken met het feit dat er in het PDF formaat geen zogenaamde alt attributen worden toegekend aan plaatjes.
Links: Zelfs kale en simpele links die nog aanklikbaar waren in het PDF document zijn omgezet naar onklikbare en kale tekst.
Tekst: Vrijwel alle tekst wordt geïndexeerd, en dat is ook de reden dat enkele PDF documenten in zoekresultaten verschijnen.
Meta's: Er wordt enkele meta data opgeslagen die uit de PDF gehaald kan worden: datum van creatie, wijzigingsdatum, producer, auteur en ontwerper. Ongetwijfeld zullen er meer zijn, maar aangezien Google ze niet kent zullen ze als gewone content behandeld worden.

Andere niet rankende factoren:

Lettertype: De grootte en de kleur van het lettertype uit het originele document wordt zoveel mogelijk nagebootst, maar de font-family zelf wordt overal Times.
Positionering: Ook wordt zoveel mogelijk de positie van elementen uit de PDF nagebootst. Dit gebeurd wel op een ranzige manier door alles absoluut te positioneren in de HTML.

Conclusie:

Google is heel beperkt in het lezen en indexeren van PDF bestanden. Ze zijn niet onderdeel van een linkstructuur (hooguit het einde), kunnen slecht in een context geplaatst worden en zijn niet semantisch opgebouwd. Het enige punt waar ze op kunnen scoren is de kale content.

Wanneer je in een bepaald zoekresultaat (binnen je eigen site bijvoorbeeld) dus een PDF document naar boven ziet komen is er toch iets mis met je echte content en moet je snel hulp inschakelen.

Click to activate social bookmarks