Big data veroveren de wetenschap

Big data leveren in een recordtempo nieuwe inzichten op. Dankzij big data komen we straks zelfs te weten wie Anne Frank verraden heeft, denkt een internationaal onderzoeksteam. Ook de geesteswetenschappen maken dankbaar gebruik van big data. 10.000 boeken onderzoeken in 0,002 seconden? Big data maken het mogelijk.  Tekst: Nicolline van der Spek; foto: Free Images.

In 1967 gaf Mao Zedong aan een team van wetenschappers de opdracht om een geneesmiddel voor malaria te vinden. In 2015 kreeg Tu Youyou, die het team leidde, de Nobelprijs voor Geneeskunde. Zij en haar team hadden in een specifiek plantje een stof ontdekt die effectief bleek te zijn tegen malaria. Haar onderzoek redde miljoenen levens over de hele wereld, maar had zo’n 20 jaar geduurd. Er moesten namelijk duizenden oude Chinese geschriften over de traditionele kruidengeneeskunde worden door geploeterd voor het bewuste plantje werd gevonden. “Daar zouden we nu enkele minuten voor nodig hebben”, zegt Hilde De Weerdt. De Weerdt werd in 2013 benoemd tot Hoogleraar in de Chinese Geschiedenis aan de Universiteit Leiden. Eerder was zij verbonden aan King’s College London, Oxford University en de University of Tennessee. Zij behaalde haar doctoraat aan Harvard University met een proefschrift over de intellectuele geschiedenis van de ambtenarenexamens. Samen met Dr. Brent Ho ontwikkelde ze het tekstanalyseplatform MARKUS (staat voor mark us). Met dit systeem kun je in een handomdraai grote hoeveelheden teksten analyseren. Je kunt personen annoteren, plaatsnamen, maar natuurlijk ook planten en kruiden.”

Dankzij big data bestudeer je niet een deel van de bronnen, maar alle bronnen.

Analoog versus digitaal
De wetenschap is altijd datagedreven geweest. Zonder informatie geen analyse. Het grote verschil tussen analoog en digitaal onderzoek zit hem in de volledigheid en systematische aanpak. Je bestudeert niet een deel van de bronnen, maar alle bronnen. De Weerdt: “In mijn vakgebied heb je miljoenen teksten, boeken en geschriften tot je beschikking, maar je gaat geen miljoenen teksten bestuderen. Big data wel. Dat is het grote verschil. Analoog onderzoek is anekdotisch van karakter. Je leest een aantal stukken, vaak de meest relevante, noteert wat je opvalt, en interpreteert. Doe je onderzoek op basis van big data, dan ga je veel systematischer te werk. Het maakt big data bovendien niets uit of je bron het meest relevant is. Big data kijkt naar alles. Dit levert vaak nieuwe inzichten op.”
Voorwaarde is wel dat je bronnen gedigitaliseerd zijn. Dat gebeurde massaal in de jaren tachtig en negentig. Aanvankelijk was het idee om boeken, kranten en teksten voor iedereen toegankelijk te maken. Ook duurzaamheid speelde een rol. Pas later kwam de vraag: wat zijn eigenlijk de mogelijkheden van digitalisering op analytisch vlak? De gebruikerskant werd belangrijk.

Database
De natuurwetenschappen wisten wel raad met big data, de astronomie voorop. Inmiddels zijn ook de geesteswetenschappen vertrouwd geraakt met het analyseren van grote hoeveelheden data. Zij het schoorvoetend. Digitaal onderzoek zou te kwantitatief van aard zijn. Het zou bovendien het kritische lezen in de weg staan, het interpreteren. De Weerdt: “Het is niet zo dat je een tekst invoert in een of ander programma en dat daar dan vanzelf een analyse uitrolt. De interpretatie blijft belangrijk. Databases kun je enigszins vergelijken met indexen en woordenboeken. Dat zijn even goed middelen die ons hebben geholpen om inzicht te krijgen in onze kennis. De database is de index 2.0. Handig, maar ‘data’ alleen zeggen niets.”

Digitale geletterdheid
In april dit jaar is het Leiden University Centre for Digital Humanities opgericht met Hilde De Weerdt als drijvende kracht. De missie is tweeledig. Enerzijds wil het centrum studenten wegwijs maken in de verschillende digitale onderzoeksmethodes, zoals text mining of geografische en netwerkanalyse. Anderzijds is er ruimte voor reflectie. De Weerdt: “We googelen allemaal, maar veel mensen hebben geen flauw benul wat zich achter de zoekresultaten afspeelt. De Wat zie je wel, en wat zie je niet? We leren studenten kritisch te blijven. Privacy-issues zien er ook heel anders uit door big data. Grote spelers als Google kunnen nu heel snel veel informatie over ons verwerven. Wat doen we daar mee? Binnen het centrum bestuderen we ook de ongelijkheid die digitalisering met zich meebrengt. Zeker niet iedereen heeft toegang tot alle informatie, denk aan ouderen. In een gedigitaliseerde wereld krijg je nieuwe geprivilegieerde groepen; mensen die overal snel bij zijn hebben een voorsprong in de samenleving. Van jongeren zou je een hoge mate van digitale geletterdheid verwachten, maar dat valt tegen. In september zijn we dan ook met een minor Digital Humanities gestart met als leukste vak (als je het mij vraagt): Digital Detectives. Daarbij volg je via digitale tekstanalyses van detectives en geografische analyses van oude en nieuwe stadskaarten alle sporen van Sherlock Holmes in Londen.”

Text mining
Text mining is een verzamelnaam voor verschillende digitale onderzoeksmethodes, waarmee je allerhande informatie uit grote en kleine hoeveelheden teksten haalt. Je kan specifieke informatie automatisch annoteren en exporteren uit teksten, denk aan de namen van personen, plaatsen, organisaties, tijdsreferenties, of boektitels. Die kan je verbinden aan informatie uit andere databases om jouw informatie te verrijken en verdere analyses te doen. Op die manier komen nog onbekende verbanden boven drijven, wat tot nieuwe inzichten leidt.
Ook De Weerdt past text mining toe in haar onderzoeken. Acht jaar geleden wilde ze weten hoe het kan dat China na de 13e eeuw niet langer perioden van verdeeldheid heeft gekend. Ze bestudeerde de dagboeken en briefwisselingen van de sociale elite en kwam tot de conclusie dat de geografisch wijdverspreide communicatienetwerken waarin zij nieuws deelden van grote politieke invloed zijn geweest, vergelijkbaar met de sociale media van nu. Het zou nagenoeg ondenkbaar zijn om deze communicatienetwerken op een analoge manier te bestuderen, want dat zou jaren onderzoek hebben gevergd. Met text mining en het aan elkaar verbinden van geografische en biografische databanken konden al binnen een jaar nieuwe inzichten en conclusies worden geformuleerd.

 

Dit artikel is gepubliceerd in Leidraad, oktober 2017.