Veelbelovende resultaten in onderzoek naar digitaal doorzoekbaar maken CABR

headerbeeld
Eerste zitting Bijzonder Gerechtshof 's-Hertogenbosch op 25 juli 1945.
datum
Tekst, Afbeelding, Video, Iframe
Tekst

Van kilometers aan archiefdozen in een depot, tot een zoekmachine waarmee je door elk individueel blaadje kan ‘Googelen’. Om van de ene situatie tot de andere komen zijn veel stappen nodig. Sommige stappen zijn al vaak toegepast binnen de erfgoedsector, anderen zijn uiterst experimenteel. Alle individuele onderdelen van dit ontsluitingsproces zijn in het pilotproject Tribunaalarchieven als Digitale Onderzoeksfaciliteit onderzocht. De bevindingen staan in het nu gepubliceerde verrijkingsrapport. 

Belangrijkste bevindingen

Optical character recognition

  • De eerste stap betreft het scannen van origineel materiaal. Binnen TRIADO is gebruik gemaakt van een testset uit het CABR van circa veertien meter. Deze scans zijn qua informatiewaarde voor een computer net zo inhoudsloos als een vakantiekiekje. Daarom wordt de tekst op die scans met OCR-software omgezet naar machineleesbare tekst.
    • Er is verschillende OCR- en HTR-software beschikbaar, die afbeeldingen van getypte of handgeschreven tekst naar machineleesbare tekst kan omzetten. Bevinding binnen TRIADO is dat de kwaliteit van de OCR bij gebruik van Abbyy-software voldoende is om getypt materiaal – met een zekere foutenmarge – doorzoekbaar te maken. Vooral goed leesbare stukken zoals processen-verbaal en besluiten worden goed herkend door de software (circa 85% van de woorden worden correct omgezet). Dit zijn ook de meest informatierijke documenten in het archief met veel informatie over personen, plaatsen, gebeurtenissen.

    • Een combinatie van twee of meer softwareprogramma’s werkt nog beter, namelijk Abbyy en Tesseract, welke beiden sterke kanten hebben. Om de vindbaarheid te optimaliseren is het een goede strategie om meerdere ‘lagen’ met OCR-tekst te combineren.

    • Er worden verschillende aanbevelingen gedaam om de OCR-score in een eventueel vervolgproject nog verder te optimaliseren:

      • Preprocessing van de images: In TRIADO is geëxperimenteerd met de methodiek 'adaptive gaussian thresholding', waarmee de kwaliteit van de scan wordt verbeterd voordat er OCR-software wordt toegepast. Bijvoorbeeld bij vervaagde teksten pixels die op inkt lijken markeren en zwarter maken.

      • Machine-learning op basis van ground truth: Ground truth is Informatie vastgesteld door mensen. Bijvoorbeeld een door mensen getranscribeerde tekst of toegekende labels. Aan de hand hiervan leert de computer zichzelf letters, woorden en zinnen herkennen in de ge-OCR-de documenten.

      • Post-correctie: Veel voorkomende fouten met de letters ‘l’ en ‘i’ en ‘e’ en ‘o’ en woorden zoals als ‘vrouw’ en OCR-equivalent ‘vrouvv’, kunnen met automatische post-correctie-software als piccl en ticcl worden verbeterd. Vanwege de technische omstandigheden in de standalone werkomgeving van TRIADO was toepassing van deze software niet mogelijk, maar doorgaans leidt dit tot een eenvoudig te realiseren kwaliteitsverbetering.

Experimenteren en verrijken met bestaande databestanden

  • Er is geëxperimenteerd met machine learning om de computer te leren specifieke typen documenten automatisch te herkennen en: automatische classificatie heeft potentie. Door de computer te trainen met voorbeelden, kunnen soorten documenten met een acceptabele foutmarge (80% correct) worden herkend. Waardevol, want het CABR is een divers archief met veel verschillende soorten documenten: formulieren, lidmaatschapskaarten, getypte correspondentie, besluiten, et cetera.
  • Het toepassen van Named Entity Recognition (NER) om personen, organisaties, locaties, producten en gebeurtenissen uit de ge-OCR-de tekst te selecteren blijkt heel lastig. Het ‘bottom-up’ extraheren van personen, locaties of organisaties uit het CABR levert met de op dit moment beschikbare software, matige resultaten op.

    • Het matchen van bestaande databestanden met personen, locaties, organisaties et cetera in de OCR van het CABR daarentegen lijkt goed te werken. Er is een exploratieve pilot uitgevoerd met de databestanden van de Nationale Database Vervolgings Slachtoffers (NDVS), de Oorlogsgravenstichting (OGS) en het Centraal Archief Bijzondere Rechtspleging (database van verdachte personen).

  • Het automatisch detecteren van datums in machineleesbare tekst is zinvol. De hoge mate van voorspelbaarheid (Dag/maand/jaar; Maand/jaar; Dag/maand; Jaar) maakt dat datums redelijk goed door software in teksten zijn geselecteerd. 

  • Potentieel interessant om toe te passen is:

    • Automatische clustering: een methodiek die het mogelijk maakt soortgelijke documenten op basis van tekstuele en visuele kenmerken te classificeren, zonder dat er vooraf ground truth of variabelen worden bepaald.

    • Topic modelling: Topic modelling-software gebruikt statistische modellen om 'topics' ofwel 'onderwerpen' te vinden in collecties met documenten. Het is een handige manier om een soort korte samenvatting in steekwoorden te krijgen van de inhoud van een of meerdere documenten.

    • SIFT matching (similarity searching): Met SIFT-matching kun je bijvoorbeeld eindgebruikers op soortgelijke documenten of soortgelijke delen uit documenten (bijvoorbeeld briefhoofden of familiewapen) laten zoeken.

Connecting the dots

Op het TRIADO-slotcongres ‘Connecting the dots’, 13 september 2019, worden de resultaten gepresenteerd. Ook komen de bevindingen uit de onderzoeksfase van het project dan aan bod, waarin is getoetst of er met de gecreëerde data nieuwe onderzoeksvragen aan het archief worden gesteld die op dit moment niet mogelijk zijn.

Kom op 13 september naar Connecting the dots, het slotcongres van TRIADO over de geschiedenis en de wetenschappelijke waarde van het CABR. En de mogelijkheden van een digitaal doorzoekbaar archief.

CABR raadplegen

De gedigitaliseerde dossiers binnen dit pilotproject zijn niet toegankelijk en enkel binnen een beschermde omgeving gebruikt door projectmedewerkers. Na afronding van TRIADO wordt door projectpartners gesproken over eventuele vervolgstappen n.a.v. de resultaten. Voor het raadplegen van dossiers uit het CABR, een beperkt openbaar archief, raadpleeg de website van het Nationaal Archief

Iframe allowfullscreen
false
Header provenance
Oorlogsbronnen.nl | Erfgoed 's-Hertogenbosch
gebied