Naar de content
Faces of Science
Faces of Science

Spitten in digitale boeken

Avonturen in het archief deel II

Het zwart-witte logo van het internet archief.
Het zwart-witte logo van het internet archief.
Internet Archive

In mijn eerste blog voor Faces of Science beschreef ik hoe ik in het archief van De Groene Amsterdammer voor het eerst begreep waarom historici zo verzot zijn op de geur van oud papier. Hoewel de meeste historici graag oude boeken besnuffelen, maken stoffige archiefkamers, oud papier en bibliothecarissen in toenemende mate plaats voor websites, pdf bestanden en zoekmachines. Maar hoe spit je nu precies door digitale boeken? Ik neem je mee op avontuur in mijn zoektocht naar historische pareltjes op het web.

11 april 2016

Moderne bibliotheken van Alexandrië

Overal op het internet vind je gedigitaliseerde boeken, kranten, tijdschriften, brieven, pamfletten en andere historische bronnen. Maar waar kan je het beste rondneuzen in digitale teksten zonder te verdwalen in een informatieberg? Google Books heeft een uitgebreide collectie digitale boeken, kranten en tijdschriften. Al deze teksten doorzoek je op woord niveau. Met een zogenaamde ngramviewer bekijk je wanneer een bepaald woord voor het eerst in al deze teksten voorkomt (zie hieronder een voorbeeld).

Het Internet Archive, een non-profit organisatie die uiteindelijk het moderne equivalent van de mythische bibliotheek van Alexandrië hoopt te worden, heeft eveneens een enorme collectie van digitaal doorzoekbare boeken, kranten en tijdschriften. Daarnaast archiveren ze ook tv-programma’s, radio-uitzendingen, oude computerspellen (die je via je browser speelt) en internetpagina’s. Bekijk bijvoorbeeld hoe de site van de Tweede Kamer eruit zag in 2002. Nederland heeft een van de beste digitale kranten- en tijdschriftenarchieven ter wereld. Delpher.nl, de site waarmee je de digitale collecties van de Koninklijke Bibliotheek doorzoekt, biedt gratis toegang tot acht miljoen Nederlandse krantenpagina’s. En ook Delpher heeft een ngramviewer (zie hieronder).

Google Books

Google Ngramviewer gezocht naar ‘bicycle’ in het volledige Engelstalige corpus.

Koninklijke Bibliotheek Den Haag

KB Historische Kranten ngramviewer gezocht naar ‘fiets’ in gedigitaliseerde Nederlandse kranten, 1800-2000. De piek rond 1940, het begin van de Duitse bezetting, heeft te maken met de uitzonderlijke grote hoeveelheid kranten uit deze periode in Delpher.

De World Digital Library biedt toegang tot de digitale versies van bijzonder historisch materiaal van over de hele wereld. Bekijk bijvoorbeeld dit Ethiopische manuscript uit de vroege 16de eeuw, of deze afbeeldingen van Indonesische eilanden in de wereldberoemde Nederlandse Atlas Maior van Joan Blaeu (1596–1673)

Grafieken en tabellen: big data voor historisch onderzoek

Wat betekent de toenemende digitalisering van archieven voor historisch onderzoek? De meeste teksten in digitale archieven kunnen op woordniveau doorzocht worden. Dat betekent dat we steeds sneller, steeds grotere corpora (verzamelingen van historische bronnen) kunnen onderzoeken. Deze steeds groter wordende verzameling bronnen, soms aangeduid als ‘big data’, zorgt ervoor dat historici steeds meer kwantitatief onderzoek doen. In plaats van een klein aantal teksten heel erg goed te analyseren (kwalitatief onderzoek) ontdekken we bredere patronen in een grote hoeveelheid teksten, of tussen teksten in verschillende gedigitaliseerde archieven. Op een meer praktisch niveau besparen digitale archieven historici ook veel tijd. Veel ‘archiefonderzoek’ doe je immers vanachter je computer.

Nooit meer oud papier?

Hoeven historici in de toekomst helemaal nooit meer naar een ‘echt’ papieren archief? Dat lijkt onwaarschijnlijk. Ten eerste zorgt digitalisatie voor een aantal problemen. Zo wordt er van veel bronnen maar één editie gedigitaliseerd, waardoor verschillende uitgaves niet met elkaar vergeleken kunnen worden. Daarnaast worden er vaak onderdelen van uitgaves niet gedigitaliseerd, terwijl die juist erg interessant zijn: denk bijvoorbeeld aan de advertenties. Maar misschien wel het belangrijkst: digitalisatie, zowel het scannen als het ontsluiten, is relatief duur. Er blijft altijd historisch bronnenmateriaal over waar te weinig mensen in geïnteresseerd zijn. En hopelijk blijven we dit bewaren in onze oude, vertrouwde papierarchieven!

Publieke domein

De meeste van de beschikbare digitale documenten komen uit de negentiende en het begin van de twintigste eeuw. Dit heeft met twee dingen te maken. Ten eerste: vóór de negentiende eeuw werden relatief minder boeken, kranten en tijdschriften uitgegeven. In 1814 drukte de beroemde krant The Times zijn exemplaren voor het eerst in de geschiedenis niet langer handmatig, maar op een stoompers. De stoompers ontketende een revolutie: het werd steeds makkelijker om grote hoeveelheden boeken, kranten, of tijdschriften te drukken en hierdoor werden ze een stuk goedkoper.

Dit proces stopte natuurlijk niet aan het eind van de negentiende eeuw. Tot de komst van het internet, neemt het aantal gedrukte teksten toe. Het merendeel van deze modernere teksten vind je echter niet in digitale archieven: het internationale auteursrecht zorgt ervoor dat de meeste teksten pas na 70 jaar in het zogenaamde ‘publieke domein’ komen. Hierdoor is het moeilijk om gedigitaliseerde bronnen te vinden waarvan de originele papieren versie na 1950 is uitgegeven. Bronnen uit de eerste helft van de twintigste eeuw zijn echter goed te vinden.

ReactiesReageer