Vagabondo is zijn naam: de zwerver. Hij werd geschapen door het Eindhovense bedrijf Wiseguys om informatie op het Nederlandstalige deel van het Internet te verzamelen en is sinds augustus vorig jaar actief. De informatie vormt het bronmateriaal voor zoekmachines als Ilse, Track en Kobala.
Spiders (spinnen) of crawlers (kruipers) struinen voor een belangrijk deel automatisch het Internet af op zoek naar informatie. "Een spider haalt de volledige HTML-code op van een pagina", zo verklaart Arend-Jan Wijtzes, ontwikkelaar bij Wiseguys. "Die teksten, links en andere gegevens gaan in een enorme database. In ons geval staan daar zo'n twintig miljoen, voornamelijk nederlandstalige webpagina's in, ongeveer 200 Gigabyte aan informatie in gecomprimeerde vorm". Om de spider op weg te helpen worden eerst zo'n 700.000 Internetadressen met de hand ingevoerd. "Het zijn pagina's waarvan we weten dat ze een bepaalde kwaliteit hebben. De spider bezoekt vanuit die pagina's links naar andere websites, die ook weer links bevatten. Zo zoekt hij verder zelfstandig zijn weg".
Vagabondo bezoekt zo'n twintig pagina's per seconde, genoeg om in enkele dagen het hele Nederlandstalige deel van het Internet af te gaan. "Omdat het Internet continu in beweging is, wordt het hele proces om de paar weken herhaald. Pagina's waarvan de inhoud voortdurend verandert, worden nog vaker bezocht. We volgen ondertussen continu wat de spider aan het doen is. Komen we een probleem tegen, dan grijpen we in en proberen we de software aan te passen zodat eenzelfde probleem in de toekomst voorkomen wordt. Helemaal klaar zijn de we dus nooit", constateert Wijtzes. "Zo vond Vagabondo onlangs een website waarop je zelf pizza's kon samenstellen en bestellen. De vijftig ingrediënten waren allemaal gepresenteerd als link, waardoor het aantal mogelijke pizza's onnoemelijk groot was: onze spider probeerde alle smaken uit. Dat kostte natuurlijk te veel tijd voor weinig interessante informatie".
Wiseguys bouwt al jaren spiders, aldus directeur Frank Scheelen, een van de oprichters van het bedrijf dat sinds 1999 zelfstandig opereert na enkele jaren onderdeel te zijn geweest van het Wegener-concern, eigenaar van de zoekmachine Track. Scheelen helpt graag een misverstand uit de wereld. "Een zoekmachine is niet hetzelfde als een spider. In feite filtert en interpreteert een zoekmachine de informatie die door de spider is verzameld. Op basis van informatie verzameld door één spider kun je dus heel goed twee volledig verschillende zoekmachines bouwen. Vergelijk onze eigen zoekmachine Kobala maar eens met die van zoekmachine Ilse".
Bron: Eindhovens Dagblad