Vinden wat erin zit
26 september 2016 · Nieuws
Met welke term zou u zoeken naar deze afbeelding? Bunker, fort, kazemat, Atlantik Wall of verdedigingswerk? Waarschijnlijk wisselt het antwoord per persoon.
Met welke term zou u zoeken naar deze afbeelding? Bunker, fort, kazemat, Atlantik Wall of verdedigingswerk? Waarschijnlijk wisselt het antwoord per persoon. Daarom is het gebruik van een thesaurus, in dit geval met het thema Tweede Wereldoorlog, van belang voor Netwerk Oorlogsbronnen. Inge van Stokkom is thesaurusontwikkelaar en matcht thesaurustermen met trefwoorden van collectiebeheerders. Lees in deze blogpost over haar werk.
Oorlogsbronnen.nl brengt objectinformatie uit veel verschillende bronnen samen. Trefwoorden omschrijven het onderwerp van het object, bijvoorbeeld ‘persoonbewijs’. Die trefwoorden zijn bij de instellingen zelf toegevoegd, door allerlei verschillende mensen en volgens de regels van de betreffende instelling. Bij de ene instelling zal het trefwoord ‘persoonsbewijs’ zijn toegekend, maar een andere instelling gebruikt misschien ‘persoonsbewijzen’. Iemand die geïnteresseerd is in persoonsbewijzen wil alle records met één van beide termen vinden. Als je op ‘verdediging’ zoekt, zijn foto’s met de trefwoorden ‘bunkers’ of ‘loopgraven’ misschien ook wel relevant. En als je meer wil weten over een bepaalde ‘staking’, is het misschien handig als je de keuze krijgt om te verfijnen op ‘februaristaking’ of ‘april-meistaking’.
Verbinden van termen
Om afbeeldingen van bunkers te vinden als je op ‘verdediging’ zoekt, moeten de verschillende termen die hetzelfde betekenen aan elkaar gekoppeld en hiërarchische relaties aangebracht worden. Dat doen we door alle toegekende trefwoorden te ‘matchen’ met de door het NIOD ontwikkelde WO2-thesaurus; een termenlijst met hiërarchische relaties. Hierin staan concepten zoals ‘verdedigingswerken’ met een onderliggende term ‘bunkers’ en een bovenliggende term ‘oorlogsvoering’. Andere ‘verdedigingswerken’ zijn ‘loopgraven’ en ‘versperringen’. Op deze manier zijn concepten expliciet met elkaar in verband gebracht, waardoor een zoekprogramma er meer mee kan.
Nu is het trefwoord ‘bunkers’ bij één foto niet dezelfde ‘bunkers’ in de WO2-thesaurus. De termen moeten nog aan elkaar gekoppeld worden. Dat willen we doen met een programma dat ontwikkeld is om termenlijsten aan elkaar te knopen; CultuurLINK, ontwikkeld door Spinque. Dit programma zoekt woorden die hetzelfde zijn of erg op elkaar lijken bij elkaar en als inderdaad hetzelfde wordt bedoeld, wordt er een specifieke URI (een soort URL) die naar de term uit de WO2-thesaurus verwijst aan het trefwoord gehangen. Door die URI is het altijd duidelijk wat er precies bedoeld wordt met een bepaalde term; voor zowel mensen als computers.
Geautomatiseerd
Aan een groot deel van de objecten op oorlogsbronnen.nl zijn geen trefwoorden toegekend, waardoor ze lastig te vinden zijn. Veel van deze objecten zijn echter wel uitgebreid beschreven. Daarom doen we ook een test om te zien of we geautomatiseerd de trefwoorden uit de WO2-thesaurus uit de objectbeschrijvingen kunnen halen. Zo kunnen objectbeschrijvingen verrijkt worden waardoor ze veel beter vindbaar zullen zijn, voor iedereen die meer wil weten over de Tweede Wereldoorlog.
Voor een blogpost over trefwoordenoverleg zie de NIOD-blog.