Terug


Zoekmachines: selecteren, tellen en combineren.BRON: "Wachttijd is geld" door Alof J. Wolt, 1999

Het Internet biedt een schat aan informatie.

Hoewel velen beweren dat het ze nog nooit is gelukt de gezochte informatie op het Internet te vinden heb ik toch andere ervaringen. Ik geef toe dat het wel een beetje routine, doorzettingsvermogen en geluk kost om de weg te leren kennen. Toch lukt het meestal wel. Of het nu gaat om de beste manier en de beste tijd om de passiebloem te snoeien of om varianten van het captainsdiner te kunnen bereiden, een vliegende kraai vangt altijd wel wat. Ik maak meestal gebruik van zoekmachines zoals AltaVista, Metacrawler, HotBot en Dogpile of archieven van kranten, tijdschriften en bibliotheken.

Waarom op deze plaats aandacht voor zoekmachines? Welnu, een zoekmachine zoekt niet alleen, maar vindt ook vaak. Zoeken is een bezigheid die doorgaans veel tijd kost en frustraties oplevert. En hetgeen de zoekmachine vindt biedt hij geordend en gekwantificeerd (geteld) aan. Het lijkt me een belangwekkende constatering dat de zoekmachine (i.c. full text) zoekt in een onvoorstelbare hoeveelheid ongestructureerde gegevens en deze gegevens vervolgens naar wens telt en gestructureerd aanbiedt. Bijvoorbeeld: ik toets in het zoekprogramma het woord "ideeëncentrum" in. Uit de gigantische (vandaar giga?) brei HTML-pagina's worden in dit geval en op dit moment 12 webpagina's tevoorschijn getoverd waarin het woord "ideeëncentrum" voorkomt. Het Ideeëncentrum staat uiteraard bovenaan. Op dergelijke wijze kunnen binnen luttele seconden tientallen miljoenen pagina's worden geteld en geordend. Als een zoekmachine dermate krachtig is betekent dit naar mijn mening dat we veel minder energie hoeven te stoppen in het ordenen van gegevens. Immers, een van de hoofdredenen om te ordenen is het vergemakkelijken van het zoeken! Dus: voor Justitie zou dit kunnen betekenen dat alle strafbladen, processen verbaal, bekeuringen e.d. in een groot elektronisch tekstbestand kunnen worden gedumpt en dat vervolgens de zoekmachine daaruit in enkele seconden de gewenste namenlijst produceert. Met het doorklikken op het gevonden item verschijnt het desbetreffende document waaruit detailinformatie kan worden geput. Bijvoorbeeld: zoekopdracht "Wolt". Binnen enkele seconden worden alle bekeuringen, veroordelingen enz. gepresenteerd waarin de naam Wolt getypt is. Plus - want zij heten ook Wolt de eventuele bekeuringen die mijn vrouw en dochters hebben gescoord. En mijn opa, ooms, neven, nichten enz. De zoekopdracht zal in zo'n geval moeten worden verfijnd. Bijvoorbeeld door de toevoeging van de voorletters, het geslacht en/of de postcode.

Het aantal en de soort van overtredingen en misdrijven kan met deze methode binnen luttele seconden in beeld gebracht worden. Gesorteerd naar regio, datum enz. enz. En gekoppeld aan de dader die dus bij recidive genadeloos door de mand valt.

Het zoek/vind systeem is ook aardig als het gaat om het in kaart brengen van netwerken. Door het aan elkaar linken van namen, (codes van) fingerprints, DNA-patronen, gedigitaliseerde stemmen of portretten kunnen netwerken, lees leden van bendes, geautomatiseerd met elkaar in verband gebracht worden, ook al kwamen tot dusverre de benodigde gegevens slechts ongestructureerd voor!!

A propos, ik heb me laten vertellen dat de Internetzoekmachine van AltaVista driehonderdmiljoen geïndexeerde HTML-pagina's full text doorzoekt, selecteert, telt en ordent in 0,8 seconden. Daar kan zelfs de snelste uitzendkracht nog iets van leren. In het bovenstaande voorbeeld heb ik me gericht op ongestructureerde gegevensbestanden bij Justitie, maar het principe geldt natuurlijk overal waar behoefte bestaat aan het zoeken van spelden in hooibergen of aan het snel genereren van informatie.

Ander voorbeeld.

Stel, artsen zijn verplicht de doodsoorzaak van een patiënt te melden aan het Centraal Bureau voor de Statistiek. Op een papieren formulier moeten ingevuld worden:

De artsen zenden jaarlijks duizenden formulieren in die alle moeten worden geordend en verwerkt. Er bestaan bij het verwerkingbureau (uiteraard) grote verwerkingsachterstanden. We hollen daardoor al jaren achter de feiten aan. Stel echter dat de artsen een digitaal formulier zouden invullen en dit per E-mail of per floppy inzenden, dan kan een zoekmachine van dag tot dag, binnen een seconde, nauwkeurig uitsluitsel geven over de laatste stand van zaken: leeftijd, aantallen overlijdens, de overlijdensoorzaken, de bijzondere omstandigheden enz. En, wat belangrijk is, combinaties van die factoren! Zoals aantallen overlijdensgevallen van jeugdigen door verkeersongevallen na drankgebruik in de nachtelijke uren in bepaalde regio's. Dit is binnen een paar seconden boven tafel te halen.

Het systeem leent zich zelfs voor het opsporen van plagiaat! Bijvoorbeeld: type een tekstpassage en laat de machine full text zoeken in een massaal tekstbestand. Een treffer (hit) betekent een toestand van verhoogde paraatheid. Een tip voor de Buma dus. Voor geïnteresseerden: een zoekprogramma van AltaVista, geheten "Discovery", kan gratis van het Internet gedownload worden (http://discovery.-altavista.com). Het is een bestand van zo'n 11 Megabyte.

Terug