Tijdens het DRONGO talenfestival werd net als vorig jaar een sessie gewijd aan artificiële intelligentie (AI). Herbert Blankesteijn sprak met specialisten uit de wetenschap, de overheid en de industrie.
Taal- en spraaktechnologie is niet meer weg te denken uit ons dagelijks leven: we stellen een vraag in Google, getypt of gesproken, en krijgen onmiddellijk een antwoord. Of we laten een zinnetje vertalen door Google Translate. Maar ook de wetenschap maakt volop gebruik van taaltechnologie. Tijdens het zevende DRONGO talenfestival ging journalist Herbert Blankesteijn in gesprek met drie specialisten die er in hun werk volop gebruik van maken. Een update van vorig jaar, toen NEMO Kennislink ook verslag deed, want de techniek ontwikkelt zich razendsnel.
Tonio of 50 tinten grijs
Karina van Dalen-Oskam is literatuurwetenschapper en gebruikt de computer om te onderzoeken wat literatuur is. Om te achterhalen wat lezers beschouwen als echte literatuur startte het Huygens Instituut in 2013 het Nationale Lezersonderzoek, waarin naar de mening van 400 goed verkochte boeken werd gevraagd. In totaal vulden 14.000 mensen de enquête in. “Daaruit blijkt dat mensen het redelijk eens zijn over boeken als Tonio van A.F.Th. van der Heijden aan de ene kant van het spectrum, en 50 tinten grijs van E.L. James aan de andere kant”, zegt Van Dalen-Oskam. “Ook is het sterk genre-afhankelijk: romantiek en thrillers beschouwt men over het algemeen als niet-literair.”
Maar wanneer gevraagd werd om hun mening te onderbouwen kwamen veel mensen met dezelfde algemeenheden: ‘vanwege de schrijfstijl’ of ‘de diepere lagen’. “Ze praten in termen die ze op school geleerd hebben”, aldus de onderzoeker. Maar is literatuur ook meetbaar? Voor een onafhankelijk oordeel schakelde ze daarom de computer in, die een taalkundige analyse uitvoerde. Daaruit bleek dat deze teksten, die mensen als ‘literair’ bestempelen, zich wel degelijk onderscheiden van de ‘niet-literaire’ teksten. Zo hadden ze over het algemeen langere zinnen, en een grotere variatie in woordgebruik.
Vingerafdruk van een auteur
Het computerprogramma waarmee ze teksten vervolgens liet groeperen, wordt veel gebruikt wordt voor auteursherkenning. Dit programma kijkt naar de meest frequente woorden in een tekst, zoals lidwoorden en voornaamwoorden, die als het ware een vingerafdruk geven van de auteur: iedereen gebruikt ze namelijk op een unieke manier. Volgens de onderzoeker komt dit doordat de taalverwerving van iedere taalgebruiker op een unieke manier verloopt. Dat zorgt ervoor dat het mentale lexicon bij iedereen verschillend is opgebouwd. Literatuurwetenschappers gebruikten het bijvoorbeeld om aan te tonen dat J.K. Rowling en Robert Galbraith een en dezelfde auteur zijn.
Met dit computerprogramma kun je ook teksten groeperen in clusters van woordfrequenties, zodat ze per genre samenvallen. En dan gebeuren er soms rare dingen, aldus de onderzoeker: “Arnon Grunberg duikt bijvoorbeeld op tussen de chicklit. Of een thriller staat opeens tussen de literatuur. Juist die gevallen zijn interessant om te onderzoeken.” Je zou met dit type onderzoek ook kunnen bepalen welke talige ingrediënten ten grondslag liggen aan een succesvol boek. “Maar dan nog moet het maar net opgepikt worden door de critici.” Bovendien speelt prestige een grote rol: toen bekend werd dat J.K. Rowling schuilging achter het pseudoniem Robert Galbraith, kwam ‘zijn’ debuut meteen in de top-10.
Spraak heeft de toekomst
De tweede spreker vandaag is Maarten Lens-Fidzgerald. Hij is een van de oprichters van de mobiele browser Layar, waarmee je op je mobiel een visuele laag over de werkelijkheid heen kan zien. Hij runt een bedrijf dat gespecialiseerd is in het ontwikkelen van voice-diensten, waarbij spraaktechnologie centraal staat, en vertelt vandaag over de opkomende techniek van slimme speakers. Bij de Albert Heijn gaat de Google Home al een paar weken over de toonbank: het laat zien dat de draagbare speakers, met ingebouwde Google Assistent, binnen afzienbare tijd tot het huis-tuin-en-keukengerei gaan behoren. Lens-Fidzgerald en zijn Amerikaanssprekende gezin gebruiken thuis de virtuele assistent Alexa, ontwikkeld door Amazon: ’s ochtends om het licht aan te doen (‘Alexa, switch on the light’) en om te informeren wat voor weer het wordt, en tijdens het eten om populaire spelletjes als ‘Would you rather’ te spelen.
Lens-Fidzgerald is misschien een gebruiker van het eerste uur, maar hij verwacht dat over tien jaar de meeste apparatuur voorzien is van spraaktechnologie. “Dan praten we misschien wel meer tegen apparaten dan tegen onze partner”, zegt hij gekscherend. Vooral voor blinden en ouderen zal het een enorme vooruitgang betekenen: een ouder iemand die een nare val maakt, kan met een enkel spreekcommando een telefoontje plegen met een familielid. Voor nu zijn er nog wel wat hindernissen te nemen: spraakcommando’s worden niet altijd begrepen, en een vloeiende conversatie met een computer is nog toekomstmuziek.
Maar als voorloper neemt hij dit op de koop toe: “In het tijdperk van AI moet je met een halfproduct beginnen. Tijdens het gebruik leert de speaker steeds beter op je te reageren.” De input die het apparaat krijgt dient dus als trainingsmateriaal. Door de apparaten nu al in gebruik te nemen, investeer je dus alvast in de techniek van later. Ook zal de spraaktechnologie zich steeds meer toespitsen op de individuele gebruikerswensen. De virtuele assistent neemt dan vanzelf de stem aan waarop jij het best reageert.
Vertaler als centaur
De laatste gast vanmiddag is Szymon Klocek, die werkzaam is aan het Directoraat Vertalingen van de Europese Commissie. Hij is daar medeverantwoordelijk voor de introductie van de neurale machinevertalingen, die ervoor hebben gezorgd dat de kwaliteit van de automatische vertalingen in één keer naar een hoger plan werd getild. De snelle ontwikkeling op dit gebied hebben we volgens Klocek vooral te danken aan de grote vraag van gamers wereldwijd naar geavanceerde spellen. “Daardoor heeft de techniek zich in razendsnel tempo ontwikkeld.”
“Toch doen er nog veel wilde verhalen de ronde over machine learning”, zegt Klocek. Neem de automatische vertalingen, die zorgen er niet voor dat vertalers hun baan kwijtraken: ze doen nog steeds hetzelfde werk, alleen sneller. Het liefst maakt hij de vergelijking met de centaur uit de Griekse mythologie: half mens, half paard. “Automatische vertaling op zichzelf is primitief, maar in combinatie met een menselijke vertaler wordt het eindproduct er juist beter op.”
En als we in de toekomst kijken zal die menselijke factor niet zo snel verdwijnen, want automatische vertaling werkt nog steeds op basis van statistiek: “De computer geeft de meest waarschijnlijke vertaling, maar wezenlijk begrip van taal – daarvan is geen sprake.” Hebben we dus toch nog een streepje voor.