Back to top

Zoeken op plaats verbeteren, dat is het doel van het project geocoderen. Door sets te maken van metadata en 'geografische eenheden', denk daarbij aan hiërarchische structuren van bijvoorbeeld plaats-provincie-land. Daardoor kunnen bronnen via een kaart ontsloten worden. De pilot richt zich op geografische aanduidingen in de metadata van alle oorlogsbronnen in de NOB-Portal. Dat betekent voor partners met collecties in Oorlogsbronnen.nl dat deze dataset verrijkt teruggeleverd kan worden. 

Afgerond

Maak gebruik van URI's en de verrijkte dataset oorlogsbronnen

10-07-2016

Het project geocoding is afgerond. Een aantal conclusies:

  1. GeoNames is de handigste thesaurus gebleken om plaatsen, provincies, landen (en typen als water, eiland, museum, etc) mee te benoemen.
  2. Geografische thesauri verbeteren helpt jezelf en anderen. Er zijn een aantal historische namen (‘Nederlands­Indië’, ‘Sovjet­Unie’, ‘Joegoslavië’, ‘Oranjehotel’) en een aantal kampen (‘Kampong Makassar’, ‘Lampersari’, ‘Kamp Westerbork’) aan GeoNames toegevoegd.
  3. De BAG is de beste (en eigenlijk ook de enige) thesaurus gebleken om (huidige Nederlandse) adressen en gebouwen te benoemen.
  4. Termen uit Coverage leveren vrijwel geen false positives op, maar een kwart tot een derde van de termen is niet in één keer eenduidig te geocoderen.
  5. In de hele keten (aggregatie, collectiebeheersysteem, data­ontsluiting) zou gebruik van URI’s mogelijk gemaakt moeten worden.
  6. Verrijkingen die niet in het collectiebeheersysteem, maar alleen bij een aggregator leven zijn beperkt houdbaar.
  7. De verrijkingen moeten aan de leverende instellingen worden aangeboden. 

De plaatsen Agenda, Social, Library, of Teheran, Sicily en Darfur in Amerika. Ze bestaan echt. Deze namen maken het geocoderen van oorlogsbronnen niet makkelijk. Dat bleek tijdens de uitvoering van het pilotproject Geocoding.

PDF icon Eindrapport project Geocoding Netwerk Oorlogsbronnen.pdf

Eindrapport project Geocoding Netwerk Oorlogsbronnen

De Pilot geocoderen Oorlogsbronnen is uitgevoerd door Menno den Engelse in opdracht van Netwerk Oorlogsbronnen. Projectleider was Annelies van Nispen. De looptijd van de pilot was maart­juni 2016.

PDF icon Archievenblad nummer 8 2016 pag 16-17.pdf

Archievenblad 'Anne Frank in Bunschoten-Spakenburg'

PDF icon Presentatie Van Nispen & Den Engelse project geocoding_0.pdf

Presentatie project geocoding

Presentatie pilotproject tijdens de studiemiddag 'Linked Data Archieven' op 20 september 2016 bij het Nationaal Archief. 

In uitvoering

Oorlogsbronnen op de kaart

05-07-2016

Een tweede stap in het project is het halen van plaatsen uit de bronneninhoud, in plaats van metadata. Dat kan mooi bij krantencollecties. Als test is een set gekozen van een collectie van 190 in de oorlog verschenen nummers van De Gelderlander. Deze krantenpagina's zijn door middel van OCR inhoudelijk ontsloten. D.m.v. het geocoderen van deze plaatsen kan een overzicht worden gegeven over welke plaatsen de krant heeft geschreven in de oorlogsperiode. Op deze tijdelijke applicatie is het resultaat te zien van de gegeocodeerde Gelderlander. Bekijk op Github de resultaten uit de test met de Gelderlander.

Net als voor de Gelderlander gedaan is, is ook van de gegeocodeerde oorlogsbronnen een tijdelijke applicatie gemaakt. Bekijk hier de kaart. En van de valspositieve resultaten heeft Menno den Engelse een eveneens een 'False Positives kaart' gemaakt. 

De Gelderlander op de kaart
De Gelderlander op de kaart
Start

Op zoek naar de plaatsaanduidingen

01-03-2016

Ruim acht miljoen bronnen betekent een grote verscheidenheid aan metadata. Verschillende organisaties gebruiken verschillende manieren om een plaatsaanduiding in de metadata op te nemen. De eerste stap in het project is dan ook een verkenning van de velden met plaatsaanduiding en recondtructie van gebruikte hiërarchieen. Vooral dat laatste is lastig; regelmatig komen meerdere plaatsaanduidingen bij één record voor, zodat vaak onduidelijk is welke termen tot een hiërarchie behoren en welke niet.