Piek Vossen (1960) is één van de winnaars van de Spinozapremie 2013. Vossen is hoogleraar Computationele Lexicologie aan de Vrije Universiteit Amsterdam. Hij combineert taalwetenschap en informatica om taalkundige verschijnselen te analyseren met computermodellen.
“Fascinatie voor het verschijnsel taal en hoe het kan functioneren tussen mensen.” Dat is de drijfveer van Piek Vossen, zoals hij stelt in een filmpje in 2012 gemaakt door de Vrije Universiteit, waar hij sinds 2006 werkzaam is. “Taal bestaat eigenlijk alleen maar tussen mensen en niemand weet zeker wat de interpretatie van iemand anders is. Dat vind ik een fascinerend probleem waar ik al sinds mijn jeugd mee bezig ben.”
De interpretatie van taal is niet alleen afhankelijk van de context, stelt Vossen, maar ook van de cultuur. Daarom is het ook zo moeilijk om een computer taal te leren. Voor Vossen is dat laatste een van de grootste uitdagingen: “Ik hou ervan om dat soort moeilijke vragen op te lossen en daarbij gebruik te maken van methoden en technieken die bijvoorbeeld in bètadisciplines ontwikkeld worden.”
Netwerken van woorden
Het onderzoek van Piek Vossen legt de basis voor veel grote en kleine projecten waarbij taal en techniek worden gecombineerd, zo valt te lezen in het Spinozarapport. Zo maakte Vossen voor de Europese Unie zogenaamde wordnets voor 8 talen: netwerken van woorden, met elkaar verbonden op basis van betekenis. Vossen legt uit wat dat betekent: “De positie in het netwerk bepaalt de betekenis van het woord. Zo is het woord man verbonden met woorden als vrouw, jongen en meisje. De betekenis wordt voor een belangrijk deel bepaald op basis van tegenstellingen.” Wordnets worden inmiddels gebruikt in veel toepassingen. Zo worden ze bijvoorbeeld gebruikt in programma’s voor spellingcorrectie, in zoekmachines en om computers teksten te laten interpreteren.
Geschiedenisrecorder
De ambiguïteit van taal maakt het moeilijk voor computers om te begrijpen. Taal bestaat immers uit woorden en woorden krijgen pas betekenis in een context, legt Vossen uit. Daarom leert hij de computer die context te herkennen en mee te nemen in de interpretatie. Dit principe wordt bijvoorbeeld toegepast in zijn recente project de Geschiedenisrecorder. Het is een computersysteem dat dagelijks miljoenen nieuwsberichten verzamelt, en die van vandaag aan die van gisteren koppelt, en verder terug in de tijd.
Het systeem legt de complete geschiedenis vast, zoals bijvoorbeeld van Project X Haren. In de media wordt het verhaal over Haren als versnipperde stukjes informatie verteld. Vossen: “Door alle nieuwsfeitjes uit alle verschillende bronnen te vergaren, kun je achteraf een complete geschiedenis construeren. Op basis daarvan kun je allerlei vragen beantwoorden als wat is er volgens wie gebeurd, waarover is men het eens, waar vult men elkaar aan en waar verschillen beschrijvingen van mening.”
Fundamenteel onderzoek
De 2,5 miljoen euro van de Spinozapremie wil Vossen vooral besteden aan fundamenteel onderzoek. Vossen ligt toe: “Wordnets worden inmiddels gebruikt in allerlei toepassingen. Maar het materiaal dat we in de loop der tijd verzameld hebben – inmiddels hebben we wordnets voor ruim 100 talen – leent zich ook heel goed voor fundamentele vragen over taal. Je kunt kijken naar verschillen tussen talen en culturen, maar ook naar algemene patronen. Je kunt de vraag stellen wat de definitie is van een woord. Reken je woordcombinaties bijvoorbeeld ook tot de woordenschat? Dat soort vragen.”
“Verder lijkt het me spannend om woorden niet alleen te koppelen aan elkaar, maar ook een koppeling te maken met de werkelijkheid. Klanknabootsende woorden zoals ritselen, ruisen, kloppen zijn bijvoorbeeld per taal verschillend. Door het geluid bij deze woorden in kaart te brengen, kun je woorden uit verschillende talen makkelijker met elkaar in verband brengen. Behalve aan geluiden, kun je woorden koppelen aan afbeelden. En daarmee wordt het weer makkelijker om een robot taal te leren.”