De mensen van TRIADO: Marian Hellema

headerbeeld
Marian Hellema
datum
Tekst, Afbeelding, Video, Iframe
Iframe allowfullscreen
false
Tekst

Hellema heeft een workflow-document opgesteld voor de digitalisering van het Centraal Archief Bijzondere Rechtspleging (CABR, collectie Nationaal Archief). Daarin staan alle stappen van het digitaliseringstraject beschreven, van de dossier-selectie tot het scannen en verrijken van digitale objecten. Binnen TRIADO wordt een kleine steekproef uit het CABR gedigitaliseerd. Aan de hand van die testset worden methoden ontwikkeld om de grote verscheidenheid aan documenten in archieven als deze, digitaal beter doorzoekbaar te maken.

Scannen, OCR'en, verrijken

Om (wetenschappelijke) vragen te kunnen stellen aan het archief, is alleen scannen - een ‘plaatje’ van een document maken - niet voldoende. Daarom worden documenten ook ge-OCR’d (naar ALTO-bestanden) en de data uit de CABR-steekproef verrijkt door middel van o.m. Named Entity Recognition. Hiermee wordt informatie over bijvoorbeeld personen en plaatsen geclassificeerd, en vervolgens gekoppeld aan referentiedata uit o.m. de WO2-thesaurus en BAG (Basisregistraties Adressen en Gebouwen).

Deze verrijkingsfase binnen TRIADO wordt uitgevoerd door het Huygens ING, met betrokkenheid van Hellema als adviseur. Het doel is te komen tot één testset verrijkt met persoons-entiteiten, locaties, organisaties, domeinspecifieke termen (concepten) en datumaanduidingen. Ook wordt er metadata aan de OCR-data toegevoegd over o.m. documenttypen; informatie die uit een geautomatiseerd proces van document-classificatie wordt gehaald.

Iframe allowfullscreen
false
gebied