Computers hebben na tientallen jaren onderzoek nog steeds moeite met het lezen én begrijpen van een tekst. Onderzoekers van de Universiteit Twente ontwikkelden een algoritme waarmee een computer op basis van de context van een tekst beter kan bepalen wat er met bepaalde dubbelzinnige woorden wordt bedoeld. Het wordt nu voor het eerst ingezet om hulpverleners te helpen sneller op calamiteiten te reageren.
Natuurlijk, computers kunnen al best wel wat als het gaat om tekstanalyse. Zo verscheen er vorig jaar een algoritme dat de leeftijd en het geslacht van een twitteraar op basis van zijn tweets beter voorspelt dan mensen. En in 2011 versloeg supercomputer Watson de beste spelers van de Amerikaanse spelshow Jeopardy!, iets waarvoor hij eerst miljoenen documenten en boeken ‘bestudeerde’.
Toch heeft een computer doorgaans veel moeite met woorden die meerdere betekenissen hebben. “Neem bijvoorbeeld het woord rijksmuseum”, zegt Maurice van Keulen, Universitair Hoofddocent van de afdeling Informatica van de Universiteit Twente. “Als ik dat gebruik dan is het eigenlijk niet meteen duidelijk wat ik daarmee bedoel. Het kan het Rijksmuseum in Amsterdam zijn, maar bijvoorbeeld ook het Rijksmuseum in Enschede.”
Mena Habib, een promovendus die door Van Keulen werd begeleid, ging daarom op zoek naar een efficiënt algoritme om deze zogenoemde named entities in teksten te detecteren en er een correcte betekenis aan te geven. Van Keulen legt uit: “Doorgaans wordt er in vergelijkbare algoritmes veel energie gestopt in het zo goed mogelijk doen van de eerste stap, het vinden van deze woorden. Pas als de computer met grote zekerheid weet dat het om een named entity gaat begint de volgende stap, het achterhalen wat er met het woord wordt bedoeld.”
Habib ontdekte verrassend genoeg dat de computer beter wordt in het begrijpen van ambigue woorden als de eerste stap, het herkennen van de woorden, sneller en minder nauwkeurig wordt gedaan. “Je krijgt daardoor meerdere (mogelijke) named entities in je zoekresultaten, waarvan de computer bovendien minder zeker weet of het wel echt zo’n woord is”, zegt Van Keulen. “Maar door nu alle mogelijke betekenissen van deze zoekresultaten in één keer te beschouwen vallen de valse positieven uit de eerste stap automatisch door de mand.”
Het algoritme van Habib voorkomt dat de computer named entities ‘mist’ en scoort beter dan veel vergelijkbare computerprogramma’s. Het won vorig jaar de challenge Making Sense of Microposts, dit jaar werd het tweede.
Calamiteiten herkennen
Hulpdiensten proberen dergelijke algoritmes van de Universiteit Twente nu al in te zetten om bijvoorbeeld tijdens grote evenementen naar calamiteiten te speuren in de Twitter-tijdlijnen van de duizenden bezoekers. “99 procent van die massa aan tweets zijn niet interessant voor hulpdiensten, maar het gaat juist om het detecteren van die enkele tweets die wel waardevolle aanwijzingen bevatten”, zegt Van Keulen.
Dat kan met de computer binnen enkele seconden en het is daarbij waardevol als de computer niet alleen kernwoorden als ‘vuur’, ‘rook’ of ‘opstootje’ herkent maar bijvoorbeeld ook named entities die naar bepaalde locaties verwijzen.
Van Keulen laat weten dat de meldkamer van de hulpdiensten in de regio Twente hier al mee experimenteert, maar dat er ook een pilot loopt bij de Milieudienst Rijnmond. “De vraag is daar of mensen tweeten over vreemde geuren die ze ruiken”, zegt Van Keulen, “dat kan namelijk duiden op een incident in de chemische industrie.”
Maar er is meer. Ook bedrijven gebruiken tekstherkenning om sentimenten rond een bepaald product of bedrijf te toetsen. Men kijkt bijvoorbeeld naar tweets van consumenten over een bepaald product. “Die methodes zijn vaak oppervlakkig, omdat er bijvoorbeeld wordt gescand op bepaalde woorden en niet naar wat ze betekenen. Maar als iemand positief tweet over Ajax, bedoelt hij of zij dan de voetbalclub, het schoonmaakmiddel, het motorfietsmerk of iets anders? Ook hier kan dit onderzoek iets betekenen”, besluit Van Keulen.