Iedereen met een Facebookaccount kent de rommelige vertalingen die worden aangeboden onder berichten in een andere taal. Volgens een blog van Facebook zijn die vertalingen nu enorm verbeterd dankzij de toepassing van kunstmatige neurale netwerken. Wat is een neuraal netwerk en waarom is het zo geschikt voor vertalingen?
In mensen en dieren bestaan neurale netwerken uit zenuwcellen in het zenuwcentrum en de hersenen die met elkaar verbonden zijn. Een menselijk brein heeft zo’n honderd miljard neuronen, die per stuk soms wel tienduizenden verbindingen hebben. Hierdoor zijn die netwerken bijzonder effectief in het verwerken van informatie.
Kunstmatige neurale netwerken bootsen dit na met kunstmatige neuronen. Op zichzelf kunnen deze neuronen al simpele bewerkingen doen. Maar als er veel neuronen samenwerken in meerdere lagen dan zijn ze in staat echt complexe dingen te doen, én kunnen ze ervan leren. Hoe meer data het netwerk heeft om van te leren, hoe beter de kwaliteit van de vertalingen.
Verbanden tussen woorden
“Een goede vertaling volgt de grammatica van de doeltaal en is trouw aan de originele betekenis,” zegt Antal van den Bosch, directeur van het Meertens Instituut en bijzonder hoogleraar taal- en spraaktechnologie aan de Radboud Universiteit. Van den Bosch heeft ervaring met het onderzoeken en ontwikkelen van vertaalapplicaties zoals die van Facebook. De woordvolgorde wordt ook wel syntaxis genoemd, de betekenis van de tekst semantiek. Beide blijken veel voordeel te hebben van de informatieverwerkende kracht van een neuraal netwerk.
“Het mooie aan kunstmatige neurale netwerken is dat ze kunnen leren verbanden te zien tussen woorden die op lange afstand van elkaar staan in een zin,” zegt Van den Bosch. “Als de vertaalmachine die verbanden herkent, klopt de grammatica in de vertaling veel beter.”
Het neurale netwerk dat Facebook nu gebruikt voor vertalingen bekijkt de hele zin tegelijk, waardoor deze verbanden minder snel aan zijn aandacht ontsnappen. Waar de machinevertalingen van Facebook eerst altijd slordig overkwamen omdat de woorden niet op de goede plaats stonden, zien die er nu veel natuurlijker uit.
Woord in context
Om semantische vertaalproblemen goed op te lossen, is context nodig. Zonder context weet een vertaalmachine bijvoorbeeld niet of het Nederlandse ‘bank’ in het Engels vertaald moet worden als ‘couch’ of ‘bank’. Doordat vertaalmachines tegenwoordig altijd naar woordgroepen kijken in plaats van losse woorden, kunnen woorden samen met hun context worden vertaald. Subtiliteiten in de taal worden dan beter opgemerkt.
De ideale vertaalmachine zou uit de context bijvoorbeeld moeten kunnen opmaken dat een zin sarcastisch bedoeld is. Wordt er in de doeltaal weinig sarcasme gebruikt (iets wat sterk verschilt per cultuur) dan kan de machine ervoor kiezen de bedoeling van de zin duidelijk te maken door de betekenis om te keren.
Sarcasmefilter
Dat je bij automatische vertalingen rekening moet houden met sarcasme ondervond Van den Bosch onlangs bij een kennisproject binnen het samenwerkingsverband /COMMIT. In samenwerking met Floodtags probeerde zijn team door analyse van Twitterberichten met kleine aanwijzingen belangrijke gebeurtenissen te voorspellen. Zo kun je bijvoorbeeld met de melding van aanhoudende regenbuien een overstroming aan zien komen.
Bij zo’n analyse is het bijzonder relevant of berichten positief of negatief gestemd zijn. Iemand die schrijft ‘Geweldig, heerlijk weertje’ kan het tegenovergestelde bedoelen. “Het kan voor een taalanalysesysteem heel moeilijk zijn om sarcasme te herkennen,” vertelt Van den Bosch, “zeker bij de kleine hoeveelheid context die in een Twitterbericht past.” Toch is het de onderzoekers uiteindelijk gelukt om een werkend sarcasmefilter te maken.
De software die werd ontwikkeld in ADNEXT, zoals het project heet, is inmiddels door Floodtags uitgerold op de Filipijnen en daar is men erg enthousiast. “Je hebt daar veel water en weinig data,” zegt Van den Bosch. “Je kunt van inwoners als het ware sensoren maken door te analyseren wat zij schrijven op sociale media. Op die manier kun je veel beter overstromingen in kaart brengen en mensen indien nodig in veiligheid brengen.”
Meer data
De kwaliteit van automatische vertalingen is de laatste paar jaar snel verbeterd. Dat komt vooral doordat onze computers nu genoeg rekenkracht hebben voor kunstmatige neurale netwerken. “In de jaren tachtig wisten we ook al heel veel over kunstmatige neurale netwerken, maar hadden computers niet de rekenkracht om die netwerken op grote schaal te laten draaien,” zegt Van den Bosch. “Nu zijn de omstandigheden beter: de computers zijn veel sneller, er zijn slimme versnellingstrucs uitgevonden en er is veel meer data beschikbaar. Hoe meer data, hoe beter een neuraal netwerk functioneert.”
Bij Faceboek is aan data geen gebrek: elke dag worden er 4,5 miljard Facebookberichten vertaald. Van den Bosch is daar wel een beetje jaloers op. “Van dat soort data kunnen wij onderzoekers alleen maar dromen, maar bedrijven als Google en Facebook hebben dat gewoon liggen. En ze delen dat met niemand.”