Foto CegeSoma © CegeSoma/Rijksarchief

Het ADOCHS-project is halfweg!

Op 1 november 2016 lanceerde het CegeSoma samen met de Koninklijke Bibliotheek van België (KBR), de VUB en de ULB, het project ADOCHS voor een verbetering van de processen voor kwaliteitscontrole van gedigitaliseerde erfgoedcollecties. Na twee jaar bij het CegeSoma op dit project te hebben gewerkt verlaat  Anne Chardonnens ons om haar team bij de ULB te vervoegen. Laat ons eens samen kijken wat zij al gerealiseerd heeft.  

Wil je jezelf even kort voorstellen?

Ik ben doctoranda in de informatie- en communicatiewetenschappen en –technologieën aan de ULB. Vóór ik deelnam aan het ADOCHS-project heb ik gedurende een jaar gewerkt op het MADDLAIN-project voor een betere digitale toegang tot de collecties. Daarvoor werd gekeken naar de gewoontes van de gebruikers van het Rijksarchief, het CegeSoma en de Koninklijke Bibliotheek.

Wat betekent ADOCHS ?

Het is een letterwoord voor Auditing Digitization Outputs in the Cultural Heritage Sector. Het is de bedoeling nieuwe methodes te ontwikkelen om inzake digitalisering metadata en beelden te analyseren en de kwaliteit ervan te verbeteren. Ik sta in voor het luik “metadata” terwijl een doctorandus “Digital Mathematics” zich toespitst op de beelden.

Het CegeSoma is een van de partners van het  ADOCHS-project; welk nut heeft dit project voor het centrum? 

De collecties van het CegeSoma zijn gedocumenteerd aan de hand van beschrijvende metadata. Dat zijn “gegevens over gegevens” die de gebruikers in staat stellen opzoekingen te doen in de onlinecatalogus Pallas. Metadata met titels, legendes of trefwoorden helpen de gebruiker om bijvoorbeeld een van de 300.000 foto's die het Centrum bewaart terug te vinden.
De metadata hebben echter niet allemaal dezelfde kwaliteit. Zoals we reeds aangaven vertonen de trefwoorden die worden gebruikt om de collecties te beschrijven verschillende soorten problemen. Het ADOCHS-project wil die problemen benoemen en nieuwe oplossingen uittesten om zo de toegankelijkheid van de collecties te verbeteren.  

Wil dat zeggen dat je hele dagen doorbrengt met het corrigeren van trefwoorden waarin een of ander typfoutje zit? 

Het manueel verbeteren van metadata die onjuist, onvolledig of incoherent zijn is zeer tijdrovend. Het is een monnikenwerk en meerdere mensen tegelijk zouden er elke dag moeten mee bezig zijn om tot betekenisvolle resultaten te komen.    
Ik geef dus de voorkeur aan methodes waarbij dit proces geheel of gedeeltelijk kan geautomatiseerd worden. Met de software OpenRefine bijvoorbeeld kan gemakkelijk worden gezocht naar dubbels, lege velden of termen die slechts verschillen in schrijfwijze, om vervolgens met één muisklik al de plaatsen waar dit voorkomt aan te pakken. 

Na twee jaar bij het CegeSoma te hebben gewerkt vertrek je dus naar de ULB (een van de partners van het ADOCHS-project). Wat is volgens jou de stand van zaken nu het project halfweg is?

De eerste maanden ben ik vooral meer te weten gekomen over de instelling, haar opdrachten, haar geschiedenis, haar collecties en haar werking. De context was nogal bijzonder, gezien de recente integratie in het Rijksarchief, de indiensttreding van een nieuwe directeur, het vertrek van een oudgediende informaticus die alle “geheimen” kende van de databank van het centrum, en tenslotte de geplande migratie van de gegevens naar het nieuwe collectiebeheersysteem van het Rijksarchief. Tijdens mijn werk bij het centrum heb ik niet alleen beter zicht gekregen op de context van het project, maar heb ik ook beter kunnen inschatten welke de uitdagingen zijn die gepaard gaan met de kwaliteit van metadata, bijvoorbeeld door te kijken naar andere projecten waarin metadata centraal staan, zoals EHRI of UGESCO.

Na kennis te hebben genomen van de stand van zaken, de noden van de instelling en haar gebruikers (zie bijvoorbeeld 'de noden van de onderzoekers') en na enige preliminaire analyses heb ik besloten mijn onderzoek toe te spitsen op de “authority data” van natuurlijke personen. Bij het CegeSoma worden in trefwoorden die naar documenten verwijzen zeer vaak persoonsnamen gebruikt. Mijn taak bestond erin om na te gaan hoe Linked Open Data aangewend kunnen worden om die namen ondubbelzinnig te maken, ze te linken aan andere collecties elders in de wereld of ze aan te vullen met  contextuele gegevens uit databanken zoals Wikidata. Dit werk is nog niet af maar een “work in progress” …

Hoe ziet het vervolg eruit?

Ik heb momenteel een EHRI-onderzoeksbeurs waarmee ik kan verblijven aan het  CDEC (Fondazione Centro Di Documentazione Ebraica Contemporanea) in Milaan. Daar doe ik testen om te kijken in welke mate de collecties aldaar zouden kunnen gelinkt worden aan deze van het CegeSoma via de lijst “personen” van het CDEC. Ik ben zeer enthousiast en verwacht heel wat van deze aanpak!
Er staat natuurlijk nog heel wat werk op stapel en men mag zeker niet denken dat alles kan worden “uitgekuist” (men kan spijtig genoeg de identiteit niet achterhalen van een persoon waarvan alleen de voornaam werd ingevoerd, maar geen datum of enige andere bijkomende informatie). Het blijft echter boeiend om via empirische gegevens de mogelijkheden en beperkingen van nieuwe tools te analyseren, in de wetenschap dat dit rechtstreeks ten goede zal komen aan het personeel en de eindgebruikers.