Google’s nieuwe spiderbot leest javascript

De laatste paar weken heeft Google medewerker Matt Cutts weer een beetje meer openheid gegeven over de diverse spider methodes die Google gebruikt. Zo werd ondermeer bekend dat de spider die een site scanned waar AdSense advertenties op getoond worden ook meewerkt aan het algemene spiderwerk van de Googlebot.

Dat betekent dat het dus een voordeel kan zijn om op slecht geindexeerde gedeeltes van je site een AdSense campagne te plaatsen. De bot die bij elke bezoek de pagina scanned zal deze informatie in de grote zoekdatabase van Google plaatsen. En alhoewel er beweert wordt dat je hier geen voordelen mee haalt ten opzichte van sites zonder AdSense campagnes kun je nu wel een bot op bepaalde delen van je site halen die bijvoorbeeld voorheen slecht gespiderd werden. Kleine voetnoot: als je dit soort noodgrepen nodig hebt is er natuurlijk wel iets aan de hand met de structuur van je site.

Ander leuk en interessant nieuwtje is de uitrol van de nieuwe infrastructuur genaamde BigDaddy die nu op alle datacenters is uitgerold. Hiermee heeft Google meer mogelijkheden om vernieuwingen door te voeren zoals een nieuwe bot die sites inclusief javascript kan lezen.

Deze nieuwe bot identificeert zicht met useragent "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)", wat dus wil zeggen dat hij eerst de pagina's rendert met de Mozilla renderengine Gecko. Hier zitten zowel voor- als nadelen aan, voorheen kon je emailadressen op je site met javascript onleesbaar maken voor emailharvesters. Maar nu halen die harvesters het email adres gewoon uit de Google cache. Het kan zijn dat Google de normale broncode en niet de gerenderde code in de cache laat zien, maar daar kan ik nu nog niets over zeggen. Een voordeel is dat een flink aantal cloakende partijen nu ontmaskert worden, ze konden tot voor kort nog een iframe of normale frameset over een spam-pagina heen plaatsten maar dat kan nu simpel gedetecteerd worden.
Al met al een interessante ontwikkeling waarmee veel rotzooi uit de resultaten zal verdwijnen en waarmee slecht opgezette site met javascript toch gespiderd kunnen worden.

Click to activate social bookmarks

 
  • Op zich een goede zaak, dat de GoogleBot nu ook Javascript kan parsen. Maar dat van die emailadressen vind ik toch wel een beetje tricky. Ik denk dat ik het maar even uit ga zetten op m'n eigen site, tot daar wat meer opheldering over komt.