De bots van Google op een rijtje

Mag ik u even voorstellen aan de volgende bots:

  • Googlebot
  • Mozillabot
  • Adsensebot / Mediabot
  • Adsbot
  • Imagebot
  • Freshbot

Dit is het spiderleger van Google waarmee ze proberen het hele internet in kaart te brengen en te indexeren. Wat doen deze bots nou en waarom doen ze dat? Er is redelijk veel over ze bekend en er wordt ook nog steeds veel onderzoek gedaan.

De wegen welke deze bots volgen om bij de sites te komen zijn divers. Er zijn een aantal ingangen waarvan de Googe Directory als hoofdingang gezien wordt. Vanuit deze gigantische verzameling links gaan de bots hun weg om via hyperlinks zich verder te banen door de wegen van het web. Tegenwoordig worden ook bekende en grote verzamelsites zoals Startpagina hiervoor gebruikt. Verder zullen de sites met Adsense er op bekeken en toegevoegd worden aan de index alsmede de sites waar Adwords campagnes naar toe linken. (Dit laatste doet Google sinds kort om te bekijken of een pagina wel relevant genoeg is om op uit te komen vanaf een Adwords advertentie).

Googlebot

Dit is eigenlijk de verzamelnaam voor alle bots oftewel spiders van Google, het zijn de uitzonderingen die uiteindelijk een iets andere naam gekregen hebben. De Googlebot is de spider die het zware werk doet, dag in dag uit gaat hij langs alle sites die in de wachtrij staan om geïndexeerd te worden. De werking van deze bot is in vele studies en onderzoeken geprobeerd vast te leggen, alleen blijkt dit vaak zinloos werk aangezien deze bot veel aan verandering onderhevig is. Wat we wel weten is dat hij alleen kale tekst leest, Flash en Javascript zijn grote obstakels die niet of nauwelijks doorgrond kunnen worden. Het is daarom ook zaak om je website te voorzien van de juiste elementen als een goede linkstructuur en goed gebruik van de juiste elementen. Deze bot heeft als useragent vaak gewoon "Googlebot" en komt vanaf een groot aantal diverse IP's. Hoe deze spider door een site gaat is moeilijk te bekijken aangezien een site vaak door meerdere spiders tegelijk bekeken wordt en het niet altijd zo is dat ze de links direct volgen maar gewoon de gevonden pagina's eerst in een wachtrij plaatsen.

Mozillabot

De Mozillabot is onlangs geïntroduceerd met de afronding van de BigDaddy update op de Google Datacenters. Met deze update is de gehele infrastructuur voorzien van een gigantische update en is het hele spider proces aanzienlijk vernieuwd. Zo is er onder meer een Crawl Caching Proxy in gebruik genomen en is de spider voorzien van nieuwe technieken. De nieuwe bot maakt gebruik van de Gecko renderengine om pagina's eerst te renderen zodat hij kan zien wat het uiteindelijke resultaat is. Je kunt je voorstellen dat deze bot een veel beter beeld krijgt van een website dan de oude bot omdat hij gedeeltelijk javascript kan lezen en beter is in het bekijken van de structuur van een pagina. Deze bot is de opvolger van de oude Googlebot die hierboven genoemd is, hij identificeert zich vaak met deze useragent: "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)".

Adsensebot / Mediabot

Webbeheerders die Adsense op hun site draaien hebben hem vast al eens langs zien komen: de Adsensebot. Deze bot komt even kijken wat de inhoud is van de betreffende pagina zodat hij - waar mogelijk - relevante advertenties kan plaatsen. Over het algemeen bekijkt deze bot niet zo heel veel pagina's omdat zijn doel toch voornamelijk maar op 1 pagina ligt. Deze bot identificeert zich als "Mediapartners-Google/2.1".

Adsbot

Sinds een paar dagen is er een nieuwe telg in de familie: de Adsbot. Google zet deze bot in om pagina's te bekijken waar naar toe gelinked wordt vanaf een Adwords advertentie. Hiermee wordt bepaald of de pagina wel de content biedt die min of meer beloofd wordt in de advertentie. Het is nog niet zeker hoeveel waarde Google hier aan gaat hangen, maar Google kennende telt relevantie zwaar en zullen ze dus na een goede fine-tuning van deze bot het gewicht hiervan verzwaren. Deze bot kan je prima blokkeren alleen geef je daar mee aan dat je niet wilt laten zien hoe je pagina's er uit zien, en dat kan nooit positief zijn. Deze bot maakt zich bekend met useragent "AdsBot-Google".

Imagebot

Voor de Google Imagesearch draait een aparte bot die alleen maar op zoek is naar bruikbare plaatjes die voorzien zijn van de juiste naamgeving, relevante alt tags en waardevolle inhoud er omheen. Aan de hand van deze gegevens probeert hij vast te leggen wat het plaatje precies moet voorstellen. Voor sommige webbeheerders is het een ramp omdat deze bot aardig wat bandbreedte op kan slurpen, in sommige gevallen meer dan de gewone bot. Dit kan uiteraard wel geblokkeerd worden in de robots.txt maar dat is volgens mij niet heel erg bekend bij de meeste beheerders. Omdat deze bot zich bekend maakt met useragent "Googlebot-Image" is hij redelijk simpel te blokkeren.

Freshbot

Deze bot komt vrijwel geheel overeen met de eerste 2 genoemde bots met het verschil dat deze een net iets andere functie heeft gekregen. Er zijn nieuwssites en/of weblogs die regelmatig nieuwe content op hun site hebben maar niet vaak van structuur veranderen. Speciaal voor deze sites bestaat de Freshbot, hij kijkt snel of er nieuwe content is en spidert deze maar laat de rest van de site met rust. Een soort lichtgewicht verkennertje die kleine veranderingen spidert. Deze bot identificeert zich met dezelfde naam als de gewone Googlebot dus daarmee is hij niet te onderscheiden, alleen met geavanceerde webanalytics software zou hij aan de hand van het spidergedrag te herkennen kunnen zijn. De laatste tijd zijn er enkele discussies over het bestaan van deze bot omdat hij langzamerhand uitgefaseerd lijkt te zijn door de Mozillabot.

Click to activate social bookmarks

 
  • Taxi 023

    Hoe meer links op je naar je website hoe vaker google langs komt

  • Klusbedrijf

    Thanks, wist alleen af van de googlebot.

  • dank u

  • Ja wist inderdaad van enkelen wel af, toch interessant om weer even door te lezen.