Naar de content

‘Méér data werkt niet altijd beter’

Taaltalent Marianne: taalmodellen toetsen

Freepik

Anderhalf jaar geleden waren taalmodellen nog iets voor een niche, inmiddels kan iedereen erover meepraten. Marianne de Heer Kloots onderzoekt of deze modellen taal anders verwerken dan ons brein.

21 maart 2024

Toen TaalTalent Marianne de Heer Kloots ruim een jaar geleden geïnterviewd werd over haar promotie-onderzoek, twijfelde ze nog of lezers het woord ‘taalmodel’ wel zouden herkennen. Inmiddels kan ze met haar kapper over kunstmatige intelligentie kletsen. De wereld heeft het afgelopen jaar veel geleerd over taalmodellen, maar wat heeft De Heer Kloots zelf allemaal ontdekt?

Krachten bundelen

“De grote vraag van mijn promotieonderzoek is eigenlijk of taalmodellen soortgelijke kennis over taal ontwikkelen als mensen. Ik ben begonnen met onderzoek waarin ik de hersenactiviteit van mensen die een tekst lezen vergeleek met interne toestanden van een taalmodel. Dat zijn dus gebeurtenissen die zich binnenin een mensenhoofd en binnenin het taalmodel afspelen – je kunt ze niet zien aan de buitenkant. Afgelopen tijd ben ik bezig geweest met een project waarin we juist kijken naar de uitkomst van die innerlijke gebeurtenissen: wat wéten mensen en modellen nu eigenlijk over taal?”

Kennis is natuurlijk ook onzichtbaar, maar die kun je wel zichtbaar maken. Bijvoorbeeld door te vragen naar grammaticaliteitsoordelen: opvattingen over de grammaticale juistheid van zinnen. Zo zul je als Nederlandstalige zeker kunnen beoordelen welke van deze twee zinnen juist is:

  1. Er wordt veel gelachen door de vriendinnen.
  2. Yara wordt veel gelachen door de vriendinnen.

In een nieuw experiment bekeek De Heer Kloots of taalmodellen ook in staat zijn om dit soort oordelen te geven, en in hoeverre die oordelen overeenkomen met die van mensen. Ze voerde het onderzoek uit met twee collega’s: Michelle Suijkerbuijk, zelf promovendus in Nijmegen, en onderzoeksassistente Zoë Prins.

Poppetje in de vorm van een cursor-handje met op de ene hand een groen vinkje en op de andere hand een rood kruis
Freepik

Hoe is het om dit onderzoek samen te doen? “Het is een heel interessante samenkomst van kennis,” vindt De Heer Kloots. “Michelle is psycholinguïste en doet dus vaker onderzoek naar mensen. Zij is dan ook bezig met zinsparen zoals 1) en 2) aan mensen voor te leggen en om hun oordeel te vragen. Zoë en ik zijn juist meer bezig met de AI-systemen. We bundelen onze krachten. Dat is nuttig maar vooral ook heel leuk. Want een promotietraject zelf is natuurlijk best wel eenzaam. Zeker als computationeel taalkundige zit je de hele dag alleen achter je scherm.”

Ook voor Suijkerbuijk is het een zinvolle ervaring. “Ik ben zelf niet opgeleid in taalmodellen. Ik gebruik ze wel maar ik zat steeds een beetje in mijn eentje uitvogelen hoe dat moest. Van Marianne hoor ik nu wat er nog meer allemaal mogelijk is, daar was ik zelf nooit achter gekomen.”

Oordelen

Het experiment begon met het maken van zinnen, heel veel zinnen. Suijkerbuijk ploegde door dikke boeken over de Nederlandse grammatica, en haalde daar 84 verschijnselen uit die kenmerkend zijn voor het Nederlands. Bij elk verschijnsel bedacht ze 10 zinsparen. Prins gebruikte vervolgens ChatGPT om daar per verschijnsel nog eens 90 paren bij te maken – zo veel paren zijn nodig om te kunnen beoordelen of een taalmodel een consistente voorkeur voor grammaticale zinnen vertoont.

Mensen gebruiken ChatGPT als kennisbank. Daar schrik ik van

— Marianne de Heer Kloots

Vervolgens legden de onderzoeksters de paren voor aan mensen en aan taalmodellen. De menselijke deelnemers kozen niet zomaar tussen ‘goed of fout’, maar gaven een gradueel oordeel: hoe goed is deze zin op een schaal van 1 tot 7? Suijkerbuijk: “Er is een vergelijkbare studie gedaan naar het Engels, en daar keken ze alleen naar goed/fout-oordelen. Zo staat het ook vaak in grammaticaboeken. Maar in ons experiment zagen we: mensen beoordelen theoretisch foute zinnen soms toch als goed, of in ieder geval beter dan andere foute zinnen. Wij willen natuurlijk weten of de computermodellen ook zulke gradaties tussen goed en fout laten zien.” De volgende stap was dan ook om de taalmodellen te laten berekenen hoe waarschijnlijk ze de zinnen vonden, ergens op een schaal van 0 (‘Superonwaarschijnlijk dat dit een zin van het Nederlands is’) tot 1 (‘Zeker weten een goede Nederlandse zin!’).

Klein maar fijn

Tijd voor de grote vraag: hoe brachten de taalmodellen het ervan af? Prins: “Best goed, de oordelen van de modellen kwamen meestal wel overeen met die van mensen, ook wat betreft die gradaties.” Dat is een belangrijke les voor taalkundigen: taalmodellen kunnen dus, net als mensen, op basis van data tot een genuanceerd oordeel komen. Voor de AI-experts is er een andere wijze les: “Er waren flinke verschillen tussen modellen onderling.”

Het onderzoeksteam testte negen taalmodellen, met vrolijke namen als ‘GEITje 7B’, ‘BERTje’ en ‘Llama 13B’. De modellen hebben gemeen dat ze een verzameling teksten hebben verwerkt, en op basis daarvan de waarschijnlijkheid kunnen inschatten van woorden die volgen op of voorkomen in een gegeven stukje tekst. Als ik bijvoorbeeld via een online interface de zin ‘Ik schrijf een [MASK] voor NEMO Kennislink’ invul in BERTje, denkt het model dat de woorden ‘column’, ‘artikel’ en ‘boek’ wel eens op de lege plek kunnen staan. Niet slecht! De onderzochte modellen verschilden wel in grootte: sommige zijn getraind op enorme hoeveelheden tekst (net als het taalmodel achter ChatGPT), andere (waaronder BERTje) hebben relatief weinig teksten verwerkt.

Bij het beoordelen van de zinsparen bleken de modellen die op heel veel data getraind waren het goed te doen. Maar tot verrassing van de onderzoeksters deden sommige kleine modellen, zoals BERTje, het ook heel aardig. Prins: “In de AI gaan we meestal uit van ‘hoe groter hoe beter’. Laten we maar nóg grotere modellen trainen en er nóg meer data in stoppen. Onze studie laat zien dat het voordelig kan zijn om iets te proberen met een kleiner model. Dat maakt het ook makkelijker voor mensen om zelf een model te gebruiken, want niet iedereen heeft ergens een supercomputer staan. En kleine modellen kosten veel minder energie.”

Blauw beeld van een kaal hoofd omringd met computercode
Freepik

Gemengde gevoelens

Het giga-taalmodel achter ChatGPT is dus niet voor alles de beste keuze, en al helemaal niet de enige. Toch gaat het in het publieke debat over kunstmatige intelligentie voortdurend over dat model. Hoe ervaart De Heer Kloots de hype rondom ChatGPT? “Het is best een bizarre ervaring dat iedereen inmiddels tot op zekere hoogte bekend is met taalmodellen. Wij gebruiken die modellen echt als wetenschappelijke tool. Nu zie je dat iedereen in de samenleving er zelf mee aan de haal gaat. Mensen gebruiken ChatGPT als kennisbank. Daar schrik ik van, want het genereren van een tekst over een bepaald onderwerp is niet hetzelfde als kennis hebben over dat onderwerp! Tegelijkertijd denk ik: wat leuk dat mijn vader nu opeens het woord GPT kent. Ik heb hier echt heel gemengde gevoelens over.” Prins vult aan: “Mensen hebben tegenwoordig ook gelijk een mening over AI, en vaak is die best negatief. Het is soms bijna alsof je vertelt dat je voor Shell werkt.”

Zou het beter zijn als we de taalmodellen voortaan aan AI-deskundigen overlaten? Dat gaat De Heer Kloots te ver. “Ik denk niet dat het aan AI-onderzoekers is om te bepalen waar je het wel of niet voor mag gebruiken, uiteindelijk moet iedereen het op basis van eigen ethische en praktische overwegingen doen. Er zijn allemaal toepassingen die ik zelf nooit had bedacht, maar die me supernuttig lijken. Ik hoorde dat modellen voor tweedetaalleerders voorbeeldzinnen kunnen genereren op een specifiek taalniveau. Dat klinkt heel goed en dat moeten taaldocenten en taalleerders gewoon zelf uitproberen.”

Toch maakt ze zich ook zorgen. “De ontwikkeling van deze technologie wordt gedomineerd door grote techbedrijven met een winstoogmerk. Terwijl, voor technologie die zo verweven is met de hele samenleving zou je liever willen dat die gemaakt wordt op basis van publieke waarden en democratische systemen. Op dit moment wordt een groot Nederlands taalmodel gebouwd, GPT-NL. De bedoeling is dat dat model volledig publiek beschikbaar en openbaar wordt, en getraind op ethisch verkregen data. Ik zou liever hebben dat we allemaal dát model gaan gebruiken, maar uiteindelijk is dat een politieke keuze. We kunnen alleen maar hopen dat Nederland daarvoor kiest.”

Mariannes promotietraject duurt nog ongeveer twee jaar. Zou ze daarna bij een techgigant willen werken? “Zelf heb ik daar geen interesse in. Ik ben vooral geïnteresseerd in modellen die interessant zijn voor de cognitiewetenschap, maar dat is misschien minder relevant voor bedrijven.” Toekomstplannen heeft ze intussen genoeg. “Hiervoor heb ik me beziggehouden met modellen die tekst verwerken, maar op dit moment werk ik met modellen die spraakgeluid als input krijgen. En daarnaast modellen die tekst en beeld combineren. Veel AI is gericht op het maken van een ultiem model dat alles kan. Voor de cognitiewetenschap kan denk ik juist het vergelijken van allerlei modellen heel erg nuttig zijn.”