Project Volautomatische Archiefontsluiting
4 november 2016 · Project
Googelen door archieven? Een droom voor elke onderzoeker en een wens van archiefbeheerders. Het project volautomatische archiefontsluiting onderzocht in hoeverre nieuwe digitale technieken ingezet kunnen worden om archieven digitaal en op documentniveau doorzoekbaar te maken. Het brengt de sector een stap dichter bij de wens archieven inhoudelijk, op documentniveau vanachter de computer te bevragen.
De mogelijkheid om te Googelen door archiefdocumenten is dichterbij dan verwacht. Dat blijkt uit het eindrapport van het project Full Automatic Archival Access (FAAA) of Volautomatische Archiefontsluiting dat in 2015-2016 werd uitgevoerd.
Casus is een kleine selectie uit het Centraal Archief Bijzondere Rechtspleging (CABR; Nationaal Archief) geweest. Projectpartners Netwerk Oorlogsbronnen, Centre for Language and Speech Technology, Nationaal Archief en IMPACT Centre of Competence zijn blij verrast met het resultaat.
In de pilot is 81% van de woorden in de testdocumenten juist herkend door software. Dat betekent dat het voor een bepaald soort getypte of hybride tekstdocumenten met een reguliere lay-out, mogelijk is om ze – met een acceptabele foutmarge – automatisch, digitaal doorzoekbaar te maken. Een reguliere lay-out wil zeggen rechte regels, regelmatige inktdikte en duidelijk contrast tussen tekst en achtergrond.
Het project bestond uit twee stappen. Eerst zijn de circa honderd documenten uit het CABR door middel van Optical Character Recognition (OCR)-software machine leesbaar gemaakt. Vervolgens kreeg de OCR-tekst een kwaliteitsverbetering door gebruik van Named Entity Recognition (NER)-software. Deze software selecteert plaatsnamen, personen en organisaties en verbetert ze waar nodig.
Documenten
- Final report project Full Automatic Archival Access (FAAA) (pdf)
- Report on the comparison of different settings for the digitisation of the collections of CABR (pdf)
- Report Full Automatic Archival Access Named Entity Retrieval on CABR (pdf)
- Selectie inventarisnummers CABR (pdf)
- Bijlage J: Algemene eisen Testsetspecs (pdf)
- Offerteaanvraag digitaliseren van het archief CABR (pdf)
- Archievenblad november '16 Googelen door archieven [Deel 1] (pdf)
- Archievenblad december '16 Googelen door archieven [deel 2] (pdf)
- Save the date | Connecting the dots (pdf)