De oorlog op zijn plaats: Pilotproject Geocoding afgerond

De plaatsen Agenda, Social, Library, of Teheran, Sicily en Darfur in Amerika. Ze bestaan echt. Zoals ook Afrika in Rusland, Parijs in België en Borneo in ons eigen land. Nederland is zelfs behept met de straten Verzet, Plateau, Randstad, Contact, maar ook Vrouwenkamp, Zieken en Onrust. Deze plaats- en straatnamen maken het geocoderen van oorlogsbronnen niet makkelijk. Dat bleek tijdens de uitvoering van het pilotproject Geocoding van Netwerk Oorlogsbronnen (NOB). Een onderzoek naar het verbeteren van ‘zoeken op locatie’ door grote hoeveelheden data automatisch van geografische informatie te voorzien. In dit geval de ruim 8,6 miljoen Oorlogsbronnen.   

Project Geocoding is begin juli afgerond en bestaat uit meerdere aspecten: (1) Onderzoek van de kwaliteit van bestaande geografische metadata van bronnen uit de NOB-portal. (2) Daarop volgend hoe geografische locaties automatisch aan de metadata gekoppeld kunnen worden door gebruik van verschillende databases van unieke geocodes (thesauri). (3) Tot slot de ontwikkeling van een kaart voor toegang tot collecties. 

Toekomstbestendig

Waarom unieke geocodes? Omdat standaardisatie uitwisseling en koppeling van data mogelijk maakt. En om toekomstbestendige metadata te gebruiken. Pilotuitvoerder Menno den Engelse pleit bij het georefereren dan ook voor uniform resource identifiers, ofwel URI’s. Dit zijn permanente unieke codes (persistent identifiers) van in dit geval geografische locaties. Een URI blijft door de tijd heen hetzelfde, ongeacht of de naam van een plaats verandert. Zo kan de geografische locatie altijd worden terug gevonden op het internet. Er is geen afhankelijkheid meer van spelling of hiërarchie (Sicily de plaats in Nebraska, Amerika of het Italiaanse eiland?).

Projectuitvoerder Menno den Engelse: “Collectiebeheerders kunnen een hoop gedoe voorkomen door unieke identifiers te gebruiken in plaats van (of naast) plaatsnamen. Het scheelt de verwerking van vals positieven en vals negatieven!”. Vals positieven zijn termen die worden herkend als plaatsnaam, maar geen geografische locatie zijn. Zoals een inventarisnummer met de beschrijving ‘Voedselverstrekking aan zieken’, die geen geografische koppeling aan de straat ‘Zieken’ in Den Haag behoeft. En een tekening met belevenissen uit de agenda van een verpleegster op Bandoeng, die uiteraard niet gesitueerd is in de plaats Agenda in Amerika. Maar ook vals negatieven resultaten zijn gevonden: plaatsen die wel bestaan maar nog geen geocode hebben, zoals Kamp Westerbork.

Gegeocodeerd, en dan?

Wat kunnen we met de gegeocodeerde metadata? Koppelen! Gestandaardiseerde metadata kan worden uitgewisseld en aan elkaar verbonden. Collecties van verschillende instellingen, die fysiek op verschillende locaties zijn geborgen, worden digitaal gelinkt op basis van overeenkomstige locatie. Zo kunnen uit een grote hoeveelheid data alle bronnen geselecteerd worden over een provincie, gebied of plaats. De geografische code is leidend in de ontsluiting. Een verrijking voor lokale en regionale oorlogerfgoedbeheerders!

Aan de metadata van alle oorlogsbronnen zijn in het project – waar mogelijk – een geocode en coördinaten toegevoegd. Collectiebeherende instellingen kunnen de verrijkte data downloaden en in hun eigen collectiebeheersystemen opnemen. Zo wordt ‘zoeken op locatie’ binnen de eigen systemen verbeterd, kan de metadata worden uitgewisseld en gekoppeld én is er de mogelijkheid tot het maken van een kaart. Ter illustratie is dit gedaan met de collectie van De Gelderlander en per provincie. Let op! Dit zijn tijdelijke, ongecorrigeerde websites. We willen middels deze sites onder meer de records met vals positieve geocodes identificeren. Een interessante onderzoeksbron is de gegeocodeerde De Gelderlander, die nu laat zien waar de krant in de oorlogsperiode over schreef. Want in tegenstelling tot de rest van de oorlogsbronnen, waarvan de metadata is gegeocodeerd, is deze krant OCR-gescand en hangen de geografische codes aan de inhoud van de krant. Met name de advertenties, veelal met adresgegevens, geven een mooi beeld van het dagelijks leven in de oorlog.

Verdieping  

Meer weten? Lees hier een leuke blog van projectuitvoerder Menno den Engelse.

Aan de slag? Zie hier de Github met de eindrapportage en bruikbare scripts.

Save the date: Tijdens de studiemiddag Linked Data van Archief2020 wordt het pilotproject behandeld.

Meer lezen? In het te verwachten Archievenblad van oktober 2016 staat een artikel over het project geocoding.

Netwerk Oorlogsbronnen

De Pilot geocoderen Oorlogsbronnen is in het voorjaar van 2016 uitgevoerd door Menno den Engelse in opdracht van Netwerk Oorlogsbronnen, met projectleider Annelies van Nispen. Het project Geocoding maakt een doelstelling van Netwerk Oorlogsbronnen concreet: het verrijken van metadata om zo de bronnen vindbaarder en bruikbaarder te maken. In dit geval met de vraag ‘waar’. Daarnaast houdt NOB zich bezig met verbeterde bronnenontsluiting via de vragen ‘wie’, ‘wanneer’ en ‘wat’? En in de toekomst een combinatie van de vragen. Zo kunnen oorspronkelijk losstaande collecties digitaal als één worden bevraagd over een thema. Door bijvoorbeeld een selectie te maken van alle mensen in het verzet, binnen een bepaalde periode, in een bepaald gebied.

headerbeeld
Oorlogsbronnen op de kaart
Duitse kaart van de inval in Nederland, mei 1940
datum
gebied