Naar de content

Zoekfunctie voor oude handschriften

Globalise, CC BY-SA 4.0

Met hulp van kunstmatige intelligentie ontsluit het Huygens Instituut eeuwenoude geschiedenis: ongeveer vijf miljoen pagina’s aan stokoude VOC-documenten worden getranscribeerd en zo doorzoekbaar.

20 september 2024

Bijna vijf miljoen handgeschreven pagina’s die in de zeventiende en achttiende eeuw vanuit Batavia naar Nederland zijn verzonden, zijn bewaard gebleven. Ze vormen de ‘Overgekomen Brieven en Papieren’. Dit belangrijkste deel van het archief van de VOC (Vereenigde Oostindische Compagnie) maakt het Huygens Instituut met automatische tekstherkenning digitaal toegankelijk. Historici volgen dit project, Globalise genaamd, met veel interesse. Ze zien het project als potentieel baanbrekend. Historica Manjusha Kuruppath, gespecialiseerd in de VOC en verbonden aan Globalise, legt uit waar die fascinatie vandaan komt. “Ik ken wereldwijd geen ander project waarbij zo veel historische documenten via machinelearning toegankelijker worden.”

Kuruppath woonde het grootste deel van haar leven in India, dat deels door Nederland is gekoloniseerd en waar de VOC veel handel dreef. Logischerwijs heeft de historica een bijzondere interesse in dit deel van de wereld. Eén van de personen die ze al langer onderzoekt, is Sampatram, een Indiase handelaar die ook informant was voor de VOC in de Indiase hoofdstad Delhi. Sampatram leefde rond 1740, een belangrijke tijd voor de VOC, omdat een Perzische heerser toen dreigde om India binnen te vallen. “Sampatram verstuurde constant informatie naar de VOC, die ging over hoe de koning en notabelen van Delhi reageerden op een nieuwe Perzische koning, ofwel sjah”, vertelt Kuruppath. “Al deze informatie was cruciaal voor de Nederlanders: ze moesten goede relaties onderhouden met de heersende macht, want anders konden ze niet meer handelen.”

Speld in hooiberg

In het verleden moest ze voor onderzoek naar Sampatram naar het Nationaal Archief in Den Haag, waar miljoenen documenten beschikbaar zijn. Daar kon ze echter alleen naar informatie zoeken op basis van hele dossiers. Die methode is niet alleen tijdrovend, maar daarmee mis je ook veel vermeldingen. Dat komt doordat je vooraf niet weet in welke dossiers Sampatram wordt genoemd. “Na dagenlang zwoegen en het doorspitten van ontzettend veel documenten, kwam ik twee keer zijn naam tegen.” De dossiers zijn dus als hooibergen waar spelden in verstopt zitten.

Voorheen was hier een hele loopbaan en een flinke portie geluk voor nodig

Globalise daarentegen werkt als een magneet: met één zoekopdracht trekt het al die spelden uit de verschillende hooibergen. Kuruppath typt ter demonstratie de naam Sampatram in op de zoekportal van Globalise. In minder dan één seconde verschijnen 105 hits in de documenten. “Dat is het verschil dat onze zoekportal maakt. Voorheen had ik een hele loopbaan en een flinke portie geluk nodig om op al deze 105 tekstdelen te stuiten.”

Schatkist

Het project kan zo een blauwdruk vormen voor ander wetenschappelijk onderzoek, waardoor wereldwijd documenten veel toegankelijker worden voor historici en onderzoek veel sneller verloopt. Maar dat is niet het enige. “De archieven bevatten informatie over talloze personen. Europeanen, niet-Europeanen, soldaten, zeelieden, kooplieden, koningen, edelen, landbouwers, tot slaaf gemaakte personen enzovoorts. Het gaat over thema’s als politiek, stammen, het weer, goederen en schepen. De VOC documenteerde tot in de kleinste details een duizelingwekkende reeks gebeurtenissen, voorvallen en interacties.”

Hoewel sommige lokale koninkrijken en bevolkingen schriftelijke en mondelinge geschiedenissen over deze periode hebben overgedragen, zijn deze qua omvang niet te vergelijken met het VOC-archief. Daarom is Globalise, misschien nog wel meer dan voor Nederland, een historische schatkist voor landen als Thailand, Indonesië, Sri Lanka, Taiwan, Zuid-Afrika, Japan, Iran en het India van Kuruppath. “Eén van de redenen dat ik geschiedenis ging studeren, is dat ik meer wilde weten over India en in het bijzonder de regio Kerala, waar ik vandaan kom”, vertelt ze. “Je kan je dus voorstellen hoe bijzonder dit project voor mij is.”

De letter a

In het Nationaal Archief zijn de miljoenen pagina’s aan VOC-documenten al in een eerder stadium met de hand gescand. Het is echter veel te duur en tijdrovend om die vervolgens met de hand te transcriberen. “De zoekmachine wordt deels door mensen vormgegeven, maar de sleutel naar het beschikbaar maken van minimaal vijf miljoen pagina’s is AI.” Het systeem analyseert de miljoenen scans en de speciale transcriptiesoftware Loghi zet de handgeschreven tekst om in door de computer leesbare tekst. Hierbij wordt gebruikgemaakt van machinelearning: het systeem kan leren van verwerkte data. Deze data kunnen het systeem bijvoorbeeld helpen om de letter a te herkennen in de verschillende handschriften.

Het is voor de meewerkende historici niet voldoende om alleen over transcripties van deze archieven te beschikken. Kuruppath en haar collega’s identificeren voor Globalise daarom ook verschillende eenheden in de documenten. Zo staat Sampatram in de documenten vaak beschreven als ‘den heijden’ (oud-Hollands voor de heiden of ongelovige). Iemand uit Azië weet niet wat dat betekent. Omgekeerd weet een Nederlander niet of Sampatram de naam is van een volk, persoon of schip. Kuruppath: “Met annotaties maken we voor iedereen duidelijk wat voor soort woord dit is. Ook voegen we aanvullende informatie toe. Zo kan je in één oogopslag zien wanneer Sampatran ongeveer leefde, dat hij een persoon was, wat zijn beroep en etniciteit waren, en dat hij actief was voor de VOC.”

Een van de getranscribeerde pagina’s: een dagregister van een tocht in de Molukken, 1677.

Publiek domein

Vertalen

Kuruppath vertelt dat het Globalise-project nog lang niet is afgerond, maar dat er al wel een eerste versie online staat waarop de vijf miljoen pagina’s zijn te bestuderen. Er zijn al historici die de database gebruiken. “Onlangs was ik bij een conferentie in Taiwan en daar hield een Taiwanese historicus een presentatie over medicijnen die de VOC transporteerde binnen het Aziatische gebied. Die wetenschapper heeft onze infrastructuur gebruikt voor zijn onderzoek.”

Deze Taiwanese historicus is in staat om de documenten te begrijpen, omdat hij les kreeg in Nederlands of oud-Nederlands, net zoals Kuruppath. Idealiter zou iedereen met interesse ook zonder die skills de documenten over Sampatram, en vele anderen, moeten kunnen bestuderen. Vertalen is daarvoor essentieel. “We brengen eerst de basis in orde. Vertalen van de getranscribeerde teksten is daarom nu nog geen onderdeel van het project. Ik hoop en verwacht dat dit in de toekomst wel zal gebeuren, zodat ook geschiedkundigen en andere inwoners in de voormalige koloniën en handelsgebieden kunnen graven in deze belangrijke historische documenten.”