Google’s crawl caching proxy

Om een aantal webbeheerders en voornamelijk webservers uit de stress te helpen heeft Google een crawl caching proxy opgezet waarmee flink wat bandbreedte bespaard gaat worden.

Het idee is eigenlijk heel simpel, Google heeft meerdere bots voor diverse services die allemaal individueel sites spideren op verschillende punten. Hierbij kun je denken aan de gewone Googlebot die spidert voor de search, maar ook aan de AdSense bot. Tot voor kort deden ze allemaal hun eigen bezoekje aan je website wat bij grote websites voor enorme stromen dataverkeer kon leiden.

Met deze nieuwe proxy behoort dat tot het verleden, de eerste bot die een pagina opvraagt zorgt er voor dat deze op de proxy gecached wordt zodat de volgende bot hem vanuit die cache kan lezen. Het spideren zal hierdoor sneller verlopen doordat de pagina al intern bij Google op een server staat en het dataverkeer blijft bij het eenmalig opvragen van elke pagina.

Matt noemt geen tijd dat de pagina's vastgehouden worden in de cache maar persoonlijk denk ik dat Google een redelijk idee heeft welke pagina's veel en welke weinig geupdate worden. Aan de hand daarvan zal de retentietijd bepaald worden.

Click to activate social bookmarks