Een digitaal CABR is een schatkamer met een gebruiksaanwijzing

headerbeeld
De afsluitende paneldiscussie tijdens het TRIADO-slotcongres
datum
Tekst, Afbeelding, Video, Iframe
Tekst

Foto's: Maarten Nauw

Verslag: Esther Ladiges

Digitale collectieontsluiting leeft in de erfgoedwereld, zo blijkt uit de aanmeldingen voor het congres: meer dan 170 bezoekers vullen de gloednieuwe zaal van het pas verbouwde Trippenhuis. Dagvoorzitter Puck Huitsing (programmadirecteur NOB) licht het project toe “TRIADO is gestart vanuit een observatie en een vraag. De observatie: archieven die gevormd zijn na periodes van langdurig geweld, zijn zelden goed toegankelijk. De vraag: hoe kunnen we dit verbeteren? TRIADO draait enerzijds om het ontsluiten van complexe archieven, met het CABR als casus, maar anderzijds ook om de rijkdom en complexiteit van dit specifieke archief.”

afbeelding
Puck Huitsing (programmadirecteur Netwerk Oorlogsbronnen)
Tekst bij afbeelding

Puck Huitsing (programmadirecteur Netwerk Oorlogsbronnen).

Tekst

“Het CABR telt ruim 670.000 dossiers van personen die na de Tweede Wereldoorlog verdacht werden van ‘collaboratie’ met de Duitse bezetter. Het archief is samengesteld uit diverse kleinere archieven van onder andere gerechtshoven, openbare aanklagers en politiedepartementen. Het bevat een rijkdom aan informatie over personen, organisaties, gebeurtenissen, locaties en heel veel meer en het is dan ook het meest geraadpleegde WO2-archief van Nederland.”

“TRIADO begint met een technisch verhaal: een selectie van het 3,7 km strekkende archief is gescand, deze scans zijn machineleesbaar gemaakt en vervolgens is er software toegepast die de computer zelf typen documenten (processen-verbaal, lidmaatschapskaarten, etc.) en typen informatie (personen, organisaties, producten en locaties) laat herkennen. Oftewel: connecting the dots.”

De valkuilen van big data

Er kleven volgens Abram de Swaan (emeritus hoogleraar Sociale Wetenschap aan de Universiteit van Amsterdam) ook risico’s aan de digitalisering van grote verzamelingen. Elke  mogelijke statistische bewerking kan erop worden toegepast en “er sluipt een spelelement in het onderzoek” waarschuwt hij. “Onverwachte verbanden treden op en beloven geheel nieuwe inzichten. Vertrouwde, alom aanvaarde samenhangen worden triomfantelijk dan wel spijtig bij het grofvuil gezet.” Swaan waarschuwt voor toevalstreffers die het niveau van weetjes nauwelijks ontstijgen: “Zo zou je heel goed kunnen vinden dat verdachten van genocide vaak eerste het jongste kind in hun gezin waren. Maar wat houdt het in als er geen theorie is die verband legt tussen geboortevolgorde en een latere criminele carrière?” Een ander risico: daders zijn geneigd het te doen voorkomen alsof zij er door de omstandigheden ook maar ingerold zijn. “Een rechtlijnige kwantitatieve verwerking van hun getuigenissen zou massamoordenaars getransformeerd hebben tot regelrechte doetjes.” Daarnaast geldt nog dat gegevens zelden worden gebruikt voor het doel waarvoor ze ook verzameld zijn. Dit is een van de valkuilen van big data. Meer dan ooit zal er permanente, intensieve datakritiek nodig zijn.

afbeelding
Abram de Swaan (emeritus hoogleraar Sociale Wetenschap, UvA)
Tekst bij afbeelding

Abram de Swaan (emeritus hoogleraar Sociale Wetenschap, UvA).

Tekst

Door de ogen van de procureur-fiscaal

Voor de vervolging van verdachten van collaboratie werden niet alleen Bijzondere Gerechtshoven in het leven geroepen, er werden ook speciale officieren van justitie benoemd: de Procureurs-Fiscaal (PF). Zij traden op als openbaar aanklager, gaven leiding aan het opsporingsonderzoek, brachten zaken bij de rechter aan en vormden de dossiers van het Openbaar Ministerie. Daarmee drukte de PF ook zijn stempel op de archiefvorming, aldus Peter Romijn, directeur onderzoek bij het NIOD. De PF’s bouwden zaken op en stuurden opsporing en vooronderzoek. De kwaliteit hiervan was in hoge mate beslissend voor de uitkomst van de strafzaak.

afbeelding
Peter Romijn, (directeur onderzoek, NIOD)
Tekst bij afbeelding

Peter Romijn, (directeur onderzoek, NIOD).

Tekst

30.000 dossiers

Een dossier zegt veel over degene die het heeft samengesteld. Romijn noemt het voorbeeld van PF Johannes Zaaijer, die leiding gaf aan het Bijzonder Gerechtshof in Den Haag. Hier werden de zaken behandeld die het publiek het meest aanspraken: de vervolging van politieke delinquenten. Zijn parket handelde niet minder dan 30.000 dossiers af. Er was een buitengewoon aspect aan de bijzondere rechtspleging: de strafzaken waren politiek gekleurd. Het doel was te onderstrepen dat de vijand verslagen en de rechtsstaat hersteld was. Het was een historische afrekening en dit gold met name voor de doodvonnissen van Max Blokzijl, Hans Albin Rauter, Robert van Genechten en Anton Mussert. “Ze creëren geen compleet beeld van wat beklaagden precies gedaan hebben, maar ze zijn wel interessant als beeld van reflectie in die tijd. De gebruiker van het CABR moet zich bewust zijn van de ambiguïteit van de documenten en zich de historische context eigen maken waarin de dossiers zijn aangelegd. Juist het digitale zoeken kan zo worden ingericht dat de gebruiker zich aangemoedigd ziet niet in één quasi-overtuigend stuk te blijven hangen.”

Kilometers aan papier

Wat gebeurde er naderhand met al die dossiers? Daarover vertelt Anne Gorter (projectleider bij het Nationaal Archief). Aan het eind van de jaren veertig lagen er honderdduizenden dossiers verspreid bij verschillende instellingen in heel Nederland. Vanaf de jaren vijftig werden deze allemaal gecentraliseerd in Den Haag. “Kilometers aan papier werden naar binnen gereden. Een administratieve ramp, want elke collectie had z’n eigen kaartsysteem. Om iemand op te zoeken moesten er meer dan 150 kaartensystemen worden doorzocht, dus werd al snel besloten deze samen te voegen tot een centraal kaartensysteem. Er volgden nog veel meer bewerkingen om het archief beter doorzoekbaar te maken.”

afbeelding
Anne Gorter (projectleider, NA)
Tekst bij afbeelding

Anne Gorter (projectleider, NA).

Tekst

Enorm aantal aanvragen

In 2000 werd het CABR overgedragen aan het Nationaal Archief, waardoor het bekender werd bij het publiek. Het aantal aanvragen tot inzage steeg aanzienlijk, al is speciale toestemming nodig om het archief te kunnen inzien en kostte het opzoeken van de dossiers enorm veel tijd. Dit kwam voornamelijk doordat het centrale kaartensysteem niet alfabetisch, maar fonetisch geordend was. Zo kon de naam Kleijn ook mogelijk gevonden kan worden bij Klijn, Klein of Kleyn. De digitalisering van het kaartsysteem in 2010 heeft het archief toegankelijker gemaakt, al blijft het tijdrovend om in het CABR onderzoek te doen. Mogelijk wordt dit in de toekomst eenvoudiger: Optical character recognition zou het mogelijk kunnen maken om het hele archief machine leesbaar te maken, waarna software zoals Named entity recognition namen, plaatsen en data kan lokaliseren. Technieken waarmee automatisch documenten geclassificeerd worden maken het misschien zelfs mogelijk met één klik specifieke documenten zoals vonnissen te vinden. Deze technieken moeten ingezet kunnen worden zonder dat hier privacywetgeving mee geschonden wordt.

Kwitantie van een jodenjager

“Het CABR is een schatkamer voor onderzoekers” aldus journalist en historicus Ad van Liempt die het archief meerdere keren raadpleegde, “we kunnen er nog decennia mee vooruit, maar het heeft wel een speciale gebruiksaanwijzing”. Maar wie die gebruiksaanwijzing kent, krijgt toegang tot die schat aan data. “Voor mij begon het met een Empfangsbescheinigung die Loe de jong me liet zien.” Op dit briefje staan de namen van vijf opgepakte joodse mensen, met bedragen erachter. Het is een soort kwitantie voor het honorarium van jodenjager Wim Henneicke en zijn ondergeschikten. “Wat me in deze dossiers vooral opviel was de grondigheid van het onderzoek. Het was goed te zien dat hier een ingespeelde ploeg aan het werk was die, meer dan gemotiveerd, recherchewerk van niveau afleverde.”

Aangrijpende verhalen

Via dossiers over daders, komen gegevens van slachtoffers in het CABR terecht, hier kan nu echter nog niet op gezocht worden. Van Liempt startte een project waarin gegevens van 14.000 gearresteerde verzetsmensen en 9.000 opgepakte joden zijn ontdekt. “De microstories over slachtoffers zijn het meest aangrijpend” vindt van Liempt. Voor zijn boeken deed Van Liempt interessante ontdekkingen in het CABR. Hij toont een filmpje van het onderduikstertje Floortje Citroen. Toen haar moeder werd opgepakt, had ze een briefje met het onderduikadres van Floortje in haar jas zitten, zo vonden de jodenjagers haar. Samen met haar moeder werd ze vermoord in Sobibor. Flipje Plas overleefde de oorlog wel. Hij werd door Henneicke en zijn organisatie is meegenomen van zijn onderduikadres, maar het verzet ontvoerde hem uit de Hollandsche Schouwburg. Plas hoorde bijna zestig jaar later van Van Liempt voor het eerst over zijn arrestatie: een verhaal gebaseerd op CABR-dossiers.

afbeelding
Ad van Liempt
Tekst bij afbeelding

Ad van Liempt.

Tekst

Leven na de scan

Na de lunch wordt het publiek meegenomen in de resultaten, de context en de toekomst van TRIADO door Edwin Klijn, (programmamanager Netwerk Oorlogsbronnen en projectleider van TRIADO) en Gertjan Filarski, (directeur digitale infrastructuur KNAW Humanities Cluster). In TRIADO zijn methodieken verkend om het CABR digitaal te ontsluiten, daarna is gekeken wat onderzoekers kunnen met digitale ontsluitingsmethoden. De conclusie is dat er met de onderzochte methodieken heel veel mogelijk is in het geval van het CABR: automatische tekstherkenning biedt perspectief, autoclassificatie en datumextractie zijn veelbelovend, machine-learning leidt tot goede resultaten, en hoewel het extraheren van de locaties, organisaties en personen nog moeizaam is, werkt het goed als deze gematcht worden met bestaande databestanden, aldus Klijn.

Digitale collectie = digitale historicus?

“We kunnen collecties heel goed toegankelijk maken, maar historici zijn nog niet te digitaliseren. Je kunt weliswaar op nieuwe manieren zoeken en bijvoorbeeld van onderaf groepsgedrag bestuderen, maar het analyseren van die data en beantwoorden van kwalitatief-statistische onderzoeksvragen is op z’n minst een kwestie van mixed methods.” Dus is er meer reflectie op de aard van het materiaal nodig. Om aan te tonen wat er mogelijk is met een digitaal doorzoekbaar CABR, is er een klikmodel gemaakt waarin je door documenten heen kunt zoeken, vergelijkbaar met Delpher. Zo kun je namen organisaties, gebeurtenissen, locaties, datums, type document etc., eruit filteren. 2016, het begin van TRIADO, “is in digitale termen heel lang geleden” aldus Klijn. De techniek blijft zich ontwikkelen, waardoor er in de toekomst nog meer mogelijk zal zijn op het gebied van digitale ontsluiting.

afbeelding
Edwin Klijn (projectleider TRIADO, programmamanager NOB)
Tekst bij afbeelding

Edwin Klijn (projectleider TRIADO, programmamanager NOB).

Tekst

We doen het niet alleen

“TRIADO gaat veel verder dan een server met Wordpress en een website,” aldus Gertjan Filarski. Hij spreekt over TRIADO in de context van andere ontsluitingsprojecten waarbij digitale technologie wordt gebruikt om de toegang te verbeteren en het hergebruik van datasets te stimuleren. “We beginnen met een pilot. Aan de onderzoekskant zit vervolgens vooral de wat-vraag: wat willen we nou eigenlijk weten? Waarom willen we dat weten? Dit komt samen bij de product owner, die gaat samen met ontwikkelaars aan de slag met de hoe-vraag: hoe gaan we die vraag generiek oplossen? Het is belangrijk om te realiseren dat we dit soort dingen niet alleen doen: we zijn afhankelijk van producten die in heel Nederland en Europa gemaakt worden.”

afbeelding
Gertjan Filarski (directeur digitale infrastructuur KNAW Humanities Cluster)
Tekst bij afbeelding

Gertjan Filarski (directeur digitale infrastructuur KNAW Humanities Cluster).

Tekst

Voortdurend in ontwikkeling

Aan de basis van een infrastructuur als TRIADO staat de hardware, die moet aan heel veel eisen voldoen. Het moet betrouwbaar zijn, veilig, gebruiksvriendelijk voor zowel traditionele onderzoekers als specialisten in de digitale humaniora. Daarnaast moet de infrastructuur ook nog eens voldoen aan nationale en internationale richtlijnen. We moeten van een plaatje naar machineleesbare tekst, hoe gaan we dat doen? Welk algoritme gebruiken we hiervoor? Hoe zijn de resultaten tot stand gekomen? Een werkende infrastructuur bestaat dus uit veel verschillende lagen van software en services, die nodig zijn om de data te koppelen en onderzoek te faciliteren. Deze lagen worden continu doorontwikkeld.

“AI en U”

Het eerste deel van de middag is gewijd aan drie workshops waarin de mogelijkheden van een digitaal CABR verder worden toegelicht. In de workshop ‘AI en U’ laten Rutger van Koert (KNAW Humanities Cluster) en Edwin Klijn aan de hand van een prototype ontwikkeld binnen TRIADO zien hoe nieuwe technologie collecties beter doorzoekbaar en bruikbaar kan maken. Er is de laatste jaren veel vooruitgang geboekt met het machineleesbaar maken van gedrukte, getypte en – sinds kort – handgeschreven teksten. In projecten zoals Alle Amsterdamse Akten worden vrijwilligers ingezet om handschriften over te typen. Met een beperkte set aan ‘ground truth’ leert de computer zichzelf om bijna onleesbare handschriften van Amsterdamse notarissen om te zetten naar machineleesbare tekst en zo gebruikers in staat te stellen te ‘Googlen’ door de historische documenten. Als de basis is gelegd, kan de machineleesbare tekst en de images worden gebruikt voor het maken van nadere toegangen op persoonsnamen, namen van organisaties, locaties, datums, etc. Koppeling met externe databestanden maakt het mogelijk om archieven te contextualiseren. In de workshop is ook aandacht voor auto-classificatie en auto-clustering, beide technologieën om te sorteren op soort document. Koppeling van woorden in de tekst met thesauri biedt mogelijkheden om archieven te contextualiseren, uitleg te geven over termen en relaties te leggen met andere archieven.

afbeelding
Edwin Klijn en Rutger van Koert (rechts)
Tekst bij afbeelding

Edwin Klijn en Rutger van Koert (rechts).

Tekst

Open uitwisseling

In een levendige discussie met de zaal komt naar voren dat de erfgoedsector gebaat is bij open uitwisseling van ‘ground truth’, bestaande databestanden met ‘named entities’ en in het algemeen kennis over de nieuwe technologie. Tot slot nemen de sprekers nog een voorschot op de toekomst. Volgens Van Koert is handschriftherkenning binnen tien jaar in staat met een accuratesse van 99% historische teksten te converteren. Klijn benadrukt het belang van meer digitalisering: collecties die überhaupt niet digitaal zijn, missen de innovatieslag die nu gaande is. Gouden regel bij big data is ook dat de hoeveelheid data ook weer een positief effect heeft op de collectieontsluiting: je hebt collecties nodig om collecties te ontsluiten.

Hoe gebruik je gedigitaliseerde bronnen?

Ismee Tames (programmaleider War & Society/senior onderzoeker, NIOD) bespreekt in haar workshop wat je als onderzoeker kunt met al deze data. De digitale data bieden nieuwe mogelijkheden, die in het fysieke archief erg tijdrovend zijn. In het CABR kan nu alleen gezocht worden op naam, maar in de gedigitaliseerde data kan ook op termen gezocht worden. “Wat opvalt is dat veel zoektermen grote datasets naar boven brengen, zelfs in dit materiaal, dat slechts 14 meter van in totaal 4 km archief bevat. De zoekterm ‘oostfront’ levert bijvoorbeeld 600 treffers,” aldus Tames. Ze ging daarom op zoek naar zoektermen die een kleinere dataset opleverde. De eerste categorie is de ‘artikel 26-groep’, het wetsartikel waarmee verraad kan worden bestraft. Dit leverde een groep van 38 mensen op die zijn vervolgd wegens verraad. 25 van hen zaten bij de politie, 8 in de tuinbouw, en 8 vrouwen. Geboortedata en geboorteplaatsen geven grotere spreiding dan verwacht. 25 van hen zijn daadwerkelijk veroordeeld voor verraad van joden of verzetsmensen.

afbeelding
Ismee Tames (onderzoeker, NIOD)
Tekst bij afbeelding

Ismee Tames (onderzoeker, NIOD).

Tekst

Nederlanders bij de Waffen-SS

De tweede subset is van 58 mensen die veroordeeld zijn wegens dienstname aan de Waffen-SS. Hier valt op dat de leeftijd van deze groep veel lager lag dan bij mensen veroordeeld voor verraad. De achtergrond van het archief moet hierbij in acht genomen worden: de getuigen die gehoord werden in deze subset waren vooral Nederlandse getuigen, terwijl de verdachten het grootste gedeelte van de oorlog buiten Nederland waren. Dit archief is dus vooral een interessante ingang in de opsporing van oorlogsmisdaden, maar het geeft maar in beperkte maten een beeld van organisaties zoals de Waffen-SS. Het is een weerslag van de opsporing en veroordeling in het naoorlogs Nederland. In de toekomst moet de structuur van het archief beter zichtbaar gemaakt worden. “Soms vraag je je af wat je precies leest: is dit een veroordeling, een aanklacht?” Daarnaast is het belangrijk dat de gebruiker beseft dat dit één perspectief is, en dat voor onderzoek altijd meerdere perspectieven nodig zijn.

Een klein verhaal met grote data

Lizzy Jongma (ICT projectmanager, Netwerk Oorlogsbronnen) laat in de derde workshop zien hoe je een slachtofferverhaal kunt creëren met big data. Met behulp van crowdsourcing, matching en slimme koppelingen van thesauri heeft Netwerk Oorlogsbronnen inmiddels de levens van ongeveer 300.000 oorlogsbetrokkenen in kaart kunnen brengen in het project 'Oorlogslevens'. Oorlogslevens kan ook een belangrijk instrument worden bij het onderzoeken van slachtoffers, daders en betrokkenen in het CABR. Ter illustratie vertelt Jongma het oorlogsverhaal van de joodse schoenenfabrikant Gerhard van de Rhoer. Het begint als op 14 mei 1940 zijn fabriek in Rotterdam wordt gebombardeerd. Hij vertrekt met zijn familie naar Breda waar hij twee jaar later wordt gearresteerd omdat hij zonder zijn ster in zijn eigen tuin aan het werk was. In 1942 sterft hij in Mauthausen. Jongma reconstrueerde dit tragische verhaal aan de hand van onder andere zijn inschrijving bij de gemeente, deportatielijsten van Breda en de stervensakte uit Mauthausen.

afbeelding
Lizzy Jongma (ICT projectmanager, NOB)
Tekst bij afbeelding

Lizzy Jongma (ICT projectmanager, NOB).

Tekst

Oorlogslevens

“Namen zijn foutgevoelig, wat het koppelen van bronnen lastig kan maken. En hoe ga je om met mensen die dezelfde naam hebben? Daar gebruiken we algoritmes voor: deze ‘rekenmachientjes’ met lettertjes verzamelen bronnen, vergelijken en rekenen. Hoe erg lijkt deze naam op deze naam? Als het dezelfde naam is, heeft hij dan ook dezelfde geboorte- en sterfdatum?” Naast ‘kleine verhalen’ kunnen er ook data over grote groepen uit Oorlogslevens gehaald worden. Jongma toont een grafiek van overlijden, waarop te zien is dat de ‘dodelijkste dag’ van de Tweede Wereldoorlog in Nederland in het najaar van 1942 was. Ook is af te leiden dat Sobibor en Auschwitz de dodelijkste plekken waren. Jongma plaatst ook een kanttekening: de grafieken zijn zo nauwkeurig als de aangeleverde data. Er ontbreken ook nog veel data, maar er wordt voortdurend nieuwe data aan Oorlogsbronnen toegevoegd. Om dit doel te dienen, worden er bijvoorbeeld ook crowdsourcing-projecten uitgevoerd, waarbij vrijwilligers data invoeren om zo archieven digitaal te kunnen ontsluiten.

Hoe nu verder?

Moet deze pilot uitgewerkt worden tot een groter project? Hoever reikt de ambitie en welke stappen zijn er nog meer nodig? Hierover gaat de paneldiscussie aan het eind van de dag. De discussie wordt geleid door Lex Heerma van Voss (algemeen directeur Huygens ING) en bestaat uit Catrien Bijleveld (hoogleraar methoden en technieken van criminologisch onderzoek, VU Amsterdam en directeur NSCR), Marens Engelhard (algemeen rijksarchivaris, algemeen directeur, Nationaal Archief), Ralf Futselaar (onderzoeker NIOD), Jan van Kooten (directeur, Nationaal Comité 4 en 5 mei), Ad van Liempt en Wouter Veraart (hoogleraar Rechtsfilosofie, VU Amsterdam). De panelleden zijn het erover eens dat het CABR digitaal ontsloten moet worden.

Al moeten er wel voorzorgsmaatregelen genomen worden. Van Liempt: “Er moet voldoende informatie gegeven worden over hoe het archief stand is gekomen. Mensen moeten zich omringen met zoveel deskundigheid dat ze op het rechte pad blijven. Het duurt een tijdje voor je de juridische termen begrijpt.” De gebruiker van een digitaal CABR moet dus voldoende context krijgen om het archief goed te kunnen begrijpen. Veraart benadrukt dat digitalisering essentieel is om de herinnering aan de oorlog bij jongere generaties levend te houden. Privacy moet hierbij gewaarborgd worden. Welke overwegingen spelen er mee na een aantal generaties? Hebben de doden bijvoorbeeld ook rechten? Marens Engelhard benadrukt het “right to be forgotten”, ook moet de link naar mensen die nog leven minder makkelijk zijn. Oftwel: “we moeten zoveel mogelijk online zetten, met respect voor de pricacy.”

afbeelding
Paneldiscussie o.l.v. Lex Heerma van Voss (algemeen directeur Huygens ING)
Tekst bij afbeelding

Paneldiscussie o.l.v. Lex Heerma van Voss (algemeen directeur Huygens ING).

Tekst

Erfgoed laten spreken

Dit debatje is de start van een debat, aldus Puck Huitsing in haar slotwoord. Dit jaar en volgend jaar vieren we 75 jaar vrijheid. De belangstelling voor de Tweede Wereldoorlog is niet te onderschatten. Herinneringen leven door in miljoenen families, met een scala aan emoties, waaronder verdriet en schaamte. Nieuwe generaties zijn digitaal ingesteld. We kunnen CABR ontsluiten, we kunnen een koppeling met andere bronnen maken. We zullen met elkaar in debat moeten over hoe we dit gaan doen. Als we het hele CABR willen scannen hebben we ook 6 jaar nodig, dus we kunnen alvast beginnen, niet pas in 2025. Kinderen en kleinkinderen gaan op zoek naar wat er echt gebeurt is, na decennia zwijgen. Om het verhaal door te vertellen is het belangrijk om erfgoed te laten spreken als de ooggetuigen het niet meer kunnen.

afbeelding
connecting