'Data are like cows'

'Open Data Citation for Social Sciences and Humanities'. Over dit onderwerp volg ik een week lang een ‘winterschool’ van Dariah, een Europese infrastructuur voor digitaal georiënteerde kunst- en geesteswetenschappers.

headerbeeld
Praag
datum
Tekst, Afbeelding, Video, Iframe
Tekst

'Open Data Citation for Social Sciences and Humanities'. Over dit onderwerp volg ik een week lang een winterschool van Dariah, een Europese infrastructuur voor digitaal georiënteerde kunst- en geesteswetenschappers. Na een goede vlucht en een lange zoektocht door de gangen van Karlova Universiteit (de grootste van Tsjechië, is mij al een paar keer op het hart gedrukt), vind ik op maandagochtend de zaal waar ik moet zijn.

De Dariah Humanities at Scale Winterschool over Open Data Citation vindt een week lang plaats in het prachtige Praag. Daar is decaan Mirjam Friedova blij mee: “Het is de eerste keer dat we een ontmoeting hebben in een land dat nog niet deel is van Dariah”. Vice-decaan Marek Skovajsa beaamt dat en benadrukt het belang van de aanwezigheid van verschillende nationaliteiten: “Deze winterschool zal de basis in Digital Humanities verzwaren in Europa”.

Screentorium

“Moving from the medieval scriptorium to the digital screentorium”, Emiliano Degl’Innocenti start met een quote van Bruno Latour uit 2014. Via Skype licht de Italiaan ons in over de behoeften en oplossingen die Dariah volgens hem gaat bieden. “A more interconnected digital ecosystem: sustain the shift from data to a knowledge, align scholarly and digital data lifecycles and reduce fragmentation”.

Pierre Mounier van Open Edition stelt de buzz-words ‘open’ en ‘samenwerking’ vast. En daar houden we van, nietwaar? “We have to enhance our collaborations, I think Europe needs that in these tough times”, aldus Mounier. Hij komt tot de conclusie: “Real open sciences is integration of open data and open access. To make it meaningfull and usefull for researchers”.

Verstopte data

“Data are like cows. If you look them in the face hard enough they generally run away”, ook Joachim Schöpfel van de Universiteit van Lille start met een quote, dit keer van Dorothy L. Sayers. Schöpfel gaat in op de status van data in publicaties en aan de quote te zien is die niet best. Hij concludeert dat een research cycle intellectueel geruststellend is, maar zelden realiteit. D.w.z., het onderdeel ‘publicatie van data’ is er meestal wel in opgenomen, “maar wordt zelden uitgevoerd, het blijft maar een model”.   

Schöpfel vertelt dat de mate van publicatie van data verschilt per discipline. De psychologie produceert een hoog aantal dissertaties, met relatief weinig aanwezigheid van data. Waar in de archeologie minder dissertaties worden geschreven maar meer publicatie van data is. Schöpfel vraagt zich hardop af: “Hoe maken we studenten ervan bewust van het belang van data?”. En misschien nog meer: de communicatie rond de beschikbaarheid van data. 

Meten is weten

Een interessant punt van Schöpfel is het meten van altmetrics, ofwel de aandacht voor je research op elke mogelijke manier. Het is niet makkelijk om het gebruik van datasets te achterhalen. Altmetrics houden bij hoe vaak datasets worden gebruikt en genoemd op het web (sociale media, blogs, etc.). In het kader hiervan stipt de spreker ook aan dat het aantal behandelingen van een onderzoek op een conferentie wordt geëvalueerd, maar niet de kwaliteit of het volume van data. Dat zou een Information Officer bijvoorbeeld kunnen doen.

De presentaties aan het einde van de ochtend blijven wat op de vlakte. Vojtěch Malínek vertelt over een digitaliseringsproject van de Czech Library Bibliography, waarbij meer dan twee miljoen bibliografische records, bestaande uit bijna 40.000 bibliografische entries en meer dan 1500 kranten, online beschikbaar komen. Daarbij wordt OCR techniek gebruikt met handmatige correctie. Maciej Maryl geeft een enthousiaste presentatie over de mogelijkheden in onderzoek met bibliografische data. Door het semantisch beschikbaar maken van de database verandert de bibliografie van reference guide naar research tool.

North of Everywhere

De uitgebreide lunch die volgde hadden we nodig voor het middagprogramma. Marjorie Burghart en Emmanuelle Morlock nemen ons mee in de krochten van het Text Encoding Initiative (TEI). Maar daarvoor beginnen met vaststellen van het verschil tussen een 'digitale' en een 'gedigitaliseerde' editie van een boek. Conclusie: de eerste is born digital en heeft alle geneugten hiervan (linken etc.) en een gedigitaliseerde editie is een gescand, oorspronkelijk fysiek document.

En dan gaan we aan de slag met het transformeren van het gedicht ‘North of Everywhere’ van Helen Mort van ‘Open access’ tot ‘Open data’. Met andere woorden: beschikbaar maken voor onderzoekers i.p.v. alleen lezers. En daar gebruiken we TEI voor. Deze set regels voor het modelleren van tekst zijn gedefinieerd in een XML format. Het TEI-XML format is semantisch en de interpretaties van tags en attributen zijn gedefinieerd. Burghart: "Hoewel we er nu een modern gedicht mee bewerken, is met name nuttig bij Middeleeuwse teksten waar veel gewerkt wordt met afkortingen. Met TEI kun je zowel een letterlijke als een uitgebreide transcriptie maken en publiceren".

Open, open, open

Pierre Mounier sluit de dag af. Open Edition is een infrastructuur en portal gericht op Humanities en Social Sciences. Het bestaat uit vier platforms voor verschillende soorten informatie (Books, Revues, Hypotheses, Calenda). En ze werken ook aan nieuwe features (bijvoorbeeld de tekstmining tool Bilbo) en initiatieven (OPERAS)  

Iframe allowfullscreen
false
gebied