Een sterrenkundige kan er vrij zeker van zijn dat de sterren die hij vandaag heeft bestudeerd er morgen nog zijn. En de dag daarna ook nog wel. Voor wie onderzoek doet naar tweets ligt dat heel anders.
Gedachtenspinsels
Twitter is in veel opzichten een erg fijne onderzoeksbron voor taaltechnologen. Het schetst een real-time weergave van de wereld om ons heen en de gedachtenspinsels die mensen hebben. Daarnaast zijn tweets vrij toegankelijk om voor onderzoek te gebruiken. Gebruikers van Twitter plaatsen hun berichten in de wetenschap dat ze potentieel de hele wereld kunnen bereiken. Een tweet kan zomaar geretweet worden en zo een veel grotere groep mensen bereiken dan de eigen followers, of door een wildvreemde gevonden worden door middel van zoekwoorden.
Brandslang
Om tweets te verzamelen voor onderzoek hoef ik gelukkig niet uren achtereen zoekwoorden in te typen. Dit kan volautomatisch via de Twitter API; een soort van verkeersregelaar die tweets doorsluist naar computers die hierom vragen. Het is wel een strenge verkeersregelaar, want Twitter geeft niet zomaar vrije toegang tot alle tweets. Twitter werkt met filters op de berichtenstroom. Iedereen kan gratis tweets opvragen van de ‘sproeier’, ongeveer één procent van alle tweets op een moment. Op speciaal verzoek geeft Twitter ook wel eens toegang tot de tuinslang, die tien procent van alle tweets doorlaat. Wie bereid is flink in de buidel te tasten mag de brandslang hanteren: een duizelend spervuur van alle tweets op een dag, grofweg vijfhonderd miljoen.
Niks meer waard
Voor onderzoek biedt de steekproef van een tot tien procent al erg waardevol materiaal: het is gratis is en kan met relatief weinig moeite verzameld worden. Maar hier hangt een nadeel aan vast: onderzoek naar tweets wordt uitgevoerd bij de gratie van degenen die de tweets hebben geplaatst. Als ik onderzoek doe naar tweets mag ik niet de teksten delen met andere onderzoekers, zodat ze mijn onderzoek met hetzelfde materiaal kunnen voortzetten. De tekst blijft namelijk eigendom van de persoon die hem gemaakt heeft. Het is enkel mogelijk om _tweet ID’s_* te delen, waarmee andere onderzoekers dan weer naar de verkeersregelaar kunnen gaan om de tweets zelf op te vragen. En hier komen we op het belangrijkste verschil tussen sterren en tweets: gebruikers van Twitter kunnen op ieder moment besluiten om hun account af te sluiten of tweets uit het verleden te verwijderen. Gevolg: de bijbehorende tweet ID’s zijn niks meer waard. Alsof een sterrenkundige de volgende dag constateert dat er een paar sterren zijn verdwenen.
Dynamiek
Deze veranderlijkheid van Twitter-materiaal maakt het onderzoek doen stiekem erg leuk. Het materiaal dat je gebruikt kan niet recent genoeg zijn, want voor je het weet zijn delen verdwenen. Dit dwingt je om mee te gaan in de dynamiek van het medium, en je de hele tijd op het nu te richten. De uitkomsten van je onderzoek zijn op die manier altijd actueel.