Hoe zien zoekmachines een PDF bestand?
Categorie: SEO
Er zijn genoeg sites die er ooit voor gekozen hebben om bepaalde informatie als PDF op de site te plaatsen. Vooral product sheets, gebruiksaanwijzingen, affiches en folders worden op deze manier online geplaatst omdat deze makkelijk te lezen en te printen zijn in het PDF formaat. Maar wat nou als het grootste gedeelte van je site uit PDF bestanden bestaat? Is het genoeg om er naar te linken? Wat zien zoekmachines als inhoud? Worden de links erin gelezen? Is de inhoudsopgave geïndexeerd? Allemaal vragen waar ik een antwoord op ga geven.
Als we kijken naar de algemene cijfers die Google ons geeft over de diverse types geïndexeerde bestanden zijn dit de aantallen van hoog naar laag:
- HTML: 3.610.000.000
- HTM: 2.920.000.000
- PHP: 879.000.000
- ASP: 698.000.000
- ASPX: 424.000.000
- JSP: 211.000.000
- PDF: 179.000.000
- SWF: 40.000.000
- DOC: 37.000.000
- TXT: 26.100.000
- XLS: 15.300.000
Na de normale web-formaten volgt PDF als meest geïndexeerde document type. 179 miljoen doorzoekbare PDF bestanden is nog best veel, geen sporadisch gebruikt type dus.
Ik heb twee PDF documenten tegen het licht gehouden om te zien wat Google er van zou maken. Het eerste bestand is een kaal document met een grote titel, een stukje tekst en daaronder een link. Het tweede bestand is een digitale versie van een papieren reclamefolder zoals deze:

De resultaten zijn als volgt:
Plaatjes: Worden door Google genegeerd en niet meegenomen in de indexering, dat heeft te maken met het feit dat er in het PDF formaat geen zogenaamde alt attributen worden toegekend aan plaatjes.
Links: Zelfs kale en simpele links die nog aanklikbaar waren in het PDF document zijn omgezet naar onklikbare en kale tekst.
Tekst: Vrijwel alle tekst wordt geïndexeerd, en dat is ook de reden dat enkele PDF documenten in zoekresultaten verschijnen.
Meta's: Er wordt enkele meta data opgeslagen die uit de PDF gehaald kan worden: datum van creatie, wijzigingsdatum, producer, auteur en ontwerper. Ongetwijfeld zullen er meer zijn, maar aangezien Google ze niet kent zullen ze als gewone content behandeld worden.
Andere niet rankende factoren:
Lettertype: De grootte en de kleur van het lettertype uit het originele document wordt zoveel mogelijk nagebootst, maar de font-family zelf wordt overal Times.
Positionering: Ook wordt zoveel mogelijk de positie van elementen uit de PDF nagebootst. Dit gebeurd wel op een ranzige manier door alles absoluut te positioneren in de HTML.
Conclusie:
Google is heel beperkt in het lezen en indexeren van PDF bestanden. Ze zijn niet onderdeel van een linkstructuur (hooguit het einde), kunnen slecht in een context geplaatst worden en zijn niet semantisch opgebouwd. Het enige punt waar ze op kunnen scoren is de kale content.
Wanneer je in een bepaald zoekresultaat (binnen je eigen site bijvoorbeeld) dus een PDF document naar boven ziet komen is er toch iets mis met je echte content en moet je snel hulp inschakelen.
Gerelateerde posts
Zoekmachines toevoegen in Google Analytics...
Waarom submitten bij zoekmachines niet werkt...
Frames toegankelijk maken voor zoekmachines...
Breng snelheid in je site voor gebruikers en zoekmachines...

3 July 2007 22:52
Ik had juist ergens gelezen (SEOking) dat het heel handig was om bv een e-book online te zetten met daarin een aantal links naar je eigen pagina toe. In de hoop dat het e-book zich verspreid en je zo overal bruikbare links vandaan krijgt.
Dit is dus niet waar... geen linklove via pdf e-books.
4 July 2007 0:20
Is er geen verschil in een pdf die toegankelijk is gemaakt en een 'gewone' pdf?
4 July 2007 12:08
Je moet rekening houden met de tekstopmaak van je pdf. Ik heb eens een pdf gemaakt van een doc, waarin in de letter-spacing van de titels vergroot had. Google zag niet dat het om hele woorden ging. De titelwoorden werden in stukjes van een of meerdere letters gehakt: twee m-men naast elkaar werden bijvoorbeeld bij elkaar gehouden, maar zodra de ruimte tussen twee letters (percentsgewijs, neem ik aan) te groot werd, interpreteerde Google dat als een spatie.
4 July 2007 16:06
@mitchel: als ik in Google zoek op "link:wikipedia.com filetype:pdf" krijg ik geen resultaat, en dat geldt voor meer grote sites. Dat tezamen met de gewone tekst die Google van de links maakt doet mij concluderen dat je er weinig aan hebt.
@Roger: hoe zou je een PDF toegankelijk maken?
4 July 2007 17:58
Ik doelde op de accessibilty-features van Acrobat Pro... Daar zit een optie 'enable accessiblity features and reflow with Tagged PDF'. Dat is waarschijnlijk een functie waar Joe Clark impliciet op doelt in het ALA-artikel Facts and opinions about PDF accessiblity, waar hij het heeft over:
Ik denk dus dat er een derde categorie PDF's is en de vraag is of zoekmachines beter omgaan met zulke verrijkte PDF's...
5 July 2007 21:47
Links in een PDF worden wel gevolgd. Bewijs is dat pagina's die alleen via een PDF gelinkt werden, toch geïndexeerd zijn. De HTML variant zegt eigenlijk niet zo heel veel over ranking factoren en hetgene dat Google naast de gewone content wel of niet ziet.
Bij een PDF is er vaak verschil tussen visuele volgorde en volgorde in de source code. Daarom worden PDF bestanden soms op rare woordvolgorden gevonden en zien de snippets er niet altijd logisch uit.
De belangrijkste factoren om een PDF te laten scoren liggen offpage (dus niet binnen de tekst of code van de PDF zelf). Een PDF wordt zelfs pas geïndexeerd wanneer er een minimum aan autoritaire linkpunten naar toe wijst.
6 July 2007 9:13
@Peter + Roger: dan zou er inderdaad een variant kunnen zijn die beter indexeerbaar is. Ik meende ooit over die test gelezen te hebben dat een document alleen via een PDF gelinked was, maar die kon ik niet terugvinden.
Het lijkt er dus op dat Google er iets beter mee omgaat dan ik dacht, maar toch blijft het half werk
11 September 2007 13:27
Ik probeer al een tijdje mijn pdf's inleesbaar te maken voor google. Dat wil zeggen dat ik graag wil dat als iemand op google zoekt naar een woord dat voorkomt in de pdf hij/zij via google naar deze pdf verwezen kan worden. Ik heb hiertoe het gebruikte lettertype al omgezet van frutiger naar arial vanuit de gedachte dat iedereen wel arial op zijn computer heeft. Het feit wil alleen dat wanneer ik op internet de tekst in het pdf document kopier en bijvoorbeeld plak in word hij er allemaal rechthoekjes van maakt en dus geen letters. Hierdoor is de pdf denk ik ook door google niet in te lezen op inhoud [van de tekst]. Een pdf waar het bijvoorbeel om gaat is deze: http://www.kuhneco.nl/pdf/zichzelf_buro.pdf
Kan iemand me vertelllen hoe ik dit probleem kan verhelpen? Moet ik 'm anders wegschrijven en hoe dan?
Dank voor de aandacht in ieder geval
Gegroet Bas
11 September 2007 19:32
Als ik bij de fonts kijk die je gebruikt hebt zie ik ArialMT staan, dat is wat anders dan Arial. Dat kan heel goed de reden zijn dat het copy-pasten niet werkt. Wel kun je de letters in de PDF goed zien omdat de fonts bij het document ingesloten zijn.
12 September 2007 13:05
Beste Andre,
Dank voor je reactie. Ik heb de pdf's inmiddels aangepast en volgens mij kan de tekst nu gewoon zo leesbaar gekopieerd worden naar Word. Bij mij werkt het in ieder geval. Nu nog maar hopen dat google ze indexeert.
Gegroet Bas
19 November 2007 14:43
Wij gebruiken er veel PDF's op verschillende sites. Op één site hebben we zelfs 300 PDF bestanden met daarin veel data. Deze data wordt ook niet tot nauwelijks geïndexeerd door Google. Dus inmiddels gebruiken we nog maar zo min mogelijk of in onderdelen die voor Google niet belangrijk zijn.