.

De virtuele thesaurus van Podiumkunst.net: Samen bronnen verbinden voor een completer verhaal

Eén thesaurus om meerdere thesauri te verenigen

Voor erfgoedinstellingen is het koppelen van verschillende bronnen met persoonsinformatie een flinke uitdaging. Met de virtuele thesaurus van Podiumkunst.net komt daar nu een oplossing voor. Deze terminologiebron zal erfgoedinstellingen binnen het domein helpen makkelijker en nauwkeuriger te werken met persoonsinformatie, door gecureerde persoonsgegevens op een innovatieve manier te verbinden. 

Doel van dit proof of concept-project was om in deze eerste fase via experimenten inzicht te krijgen in de technische en praktische haalbaarheid van een centrale virtuele terminologiebron voor personen binnen de podiumkunsten. Daartoe werden drie linked data-bronnen geselecteerd:  Muziekschatten, Muziekweb en de Gemeenschappelijke Thesaurus voor Audiovisuele Archieven (GTAA). Voor de erfgoedsector betekent dit een vooruitgang: de proof of concept bewijst dat persoonsinformatie uit verschillende hoeken in de toekomst in één omgeving geraadpleegd en hergebruikt kan worden.

Venn-diagram van de virtuele thesaurus: de overlap tussen termenbron en verschillende persoonscollecties binnen de erfgoedsector.

Van idee tot project

Het idee achter de virtuele thesaurus is simpel: de informatie van verschillende erfgoedbronnen benutten zonder dat elke bronhouder de controle over zijn data verliest. En nog belangrijker, dat de bronhouder profiteert van de specifieke kennis die aanwezig is bij andere Podiumkunst.net-partners. 

In dit project werkten experts nauw samen om het idee werkelijkheid te maken. Het team bestond uit Nynke Kuipers (Product Owner namens Podiumkunst.net), Mirjam Verloop (Podiumkunst.net), Eric van Balkum (Muziekschatten/Podiumkunst.net), Thomas Op de Coul (Beeld & Geluid/Muziekweb), Mari Wigham (Beeld & Geluid/GTAA), Ruben Schalk (RCE/Termennetwerk), en Linked Data-specialisten Elena Slavco en Kathrin Dentler van Triply. Met Podiumkunst.net als coördinator hield het team gezamenlijke sessies om de kwaliteit van data en koppelingen te waarborgen.

De matching scripts hielpen om kwaliteitsverschillen tussen de datasets te ontdekken en op te lossen.

Kathrin benadrukt hoe fijn het was om met bronhouders samen te werken en gezamenlijk kwaliteitscriteria vast te stellen. De betrokken bronnen zijn al in Linked Data, dat maakt verbinden eenvoudiger. Het project maakt gebruik van SPARQL, een querytaal die helpt om linked datasets te doorzoeken en specifieke koppelingen te leggen tussen persoonsnamen.

We bouwen hier aan een netwerk van kennis dat voor iedereen vindbaar, toegankelijk en herbruikbaar is.

Aanpak en technische uitdagingen

Gedurende een periode van zes weken werkte het projectteam aan het samenvoegen van persoonsinformatie. In de eerste week werd een ruwe planning opgesteld, en elke week kwam het team twee keer samen om resultaten, technische obstakels en de volgende stappen te bespreken.

Een van de grootste uitdagingen was het samenvoegen van personen die in verschillende bronnen op verschillende manieren beschreven zijn. “Het matchen van persoonsnamen alleen was niet genoeg,” vertelt Kathrin. Door een proces van normalisatie werden spaties, diakritische tekens en interpunctie verwijderd, zodat we alle data consistent konden samenvoegen. Voorbeeld hiervan is Johann Strauss, die in diverse bronnen verschillende schrijfwijzen heeft. Het team gebruikte ook Wikidata-links, aanwezig in de brondata, als referentiepunt om meer zekerheid te bieden bij de koppeling.

Overzicht van het cluster "Johann Strauss II oftewel Jr." in het Personenthesaurus, met links naar de bronnen. Johan Strauß III heeft een later geboortejaar en een owl:sameAs relatie naar een ander Wikidata concept, en is daarom niet in het cluster opgenomen.

Veel aandacht besteedde het team aan de keuze tussen kwaliteit en kwantiteit: moest het álle data opnemen, of was het beter om alleen de meest betrouwbare gegevens te gebruiken? Het team besloot  uiteindelijk om in sommige gevallen data zonder geboortedatum niet op te nemen, tenzij deze ook aan andere, goed gecontroleerde informatie voldeed.

Het draait om de kwaliteit, niet om het aantal matches.

Verschillen tussen de bronnen kwamen duidelijk naar voren door het betrekken van meerdere bronnen. Deze inzichten helpen om in de toekomst de kwaliteit van de data te verbeteren en te verrijken.

Meer inzicht in data door samenwerking

Het project leverde als resultaat van de proof of concept een werkende virtuele thesaurus op, waarin de drie datasets succesvol zijn samengevoegd. Deze opzet maakte zowel overeenkomsten als hiaten in de data zichtbaar, maar is nog geen eindproduct dat voor iedereen beschikbaar is. 

Geboortejaren en links naar externe bronnen maken de koppeling tussen de datasets nog sterker en accurater. Een verrassende bijvangst was de automatische koppeling van pseudoniemen, zoals “Vader Abraham” (Pierre Kartner) en “Drs. P” (Heinz Polzer), wat onverwachte waarde opleverde voor de data-integratie.

Het team leerde dat het belangrijk is om goed gecureerde data te gebruiken om een bruikbare thesaurus te creëren. Dit project toonde aan dat de constructie van een personenthesaurus geen eenmalige taak is; er zijn voortdurend updates en kwaliteitsverbeteringen mogelijk, afhankelijk van de groeiende eisen en feedback van gebruikers. “Een never ending story,” noemt Kathrin het: een systeem dat steeds verder kan groeien en verbeteren.

Kathrin wijst erop dat de herkomst van data, oftewel provenance, belangrijk is om te weten. Kleine icoontjes laten direct zien uit welke bron data komt, maar het projectteam werkt in de toekomst aan een nog betere manier om de herkomst van data weer te geven. Data-eisen zoals geboortedatum zijn essentieel gebleken om betrouwbare matches te kunnen maken.

Het verhaal achter de data wordt zichtbaar, en dat is goud waard voor onderzoekers.

Wat brengt de toekomst voor de thesaurus?

Er zijn nog veel vragen over de toekomst van de virtuele thesaurus. Hoe kan deze het beste ingezet worden: als een digitale bron, een hulpmiddel voor dataverrijking, of als een suggestiesysteem voor gebruikers? En wie gaat het beheren? “De thesaurus moet duurzaam zijn en er zal redactie nodig zijn,” zegt Eric. Hij vraagt zich af wie er in de toekomst verantwoordelijk is  voor het onderhoud, updates en kwaliteitsbewaking. Andere mogelijke vragen voor de toekomst betreffen het uitbreiden van de thesaurus naar domeinen buiten persoonsinformatie, zoals werken of evenementen.

Een brug tussen verleden en toekomst – dat is wat deze thesaurus kan zijn.

Kathrin voegt toe dat nieuwe technieken nodig zijn om de thesaurus op grotere schaal toe te passen. Voorbeelden hiervan zijn verbeterde systemen om personen te identificeren, vooral als er meerdere bronnen bijkomen. Daarnaast zijn terminologiebronnen zoals de Nederlandse Thesaurus van Auteursnamen of andere theaterarchieven in de toekomst mogelijk nuttige partners. Het projectteam heeft in ieder geval een sterke basis gelegd. Om de thesaurus op te schalen, zijn verdere uitbreidingen en technologische verbeteringen noodzakelijk.

Een groeiende kennisbron voor de erfgoedsector

De virtuele thesaurus van Podiumkunst.net biedt erfgoedinstellingen een handige manier om persoonsinformatie op één plek te verzamelen en overzichtelijk te maken. Dit helpt niet alleen bij het koppelen van data maar maakt ook collectieregistratie makkelijker en accurater. De resultaten van het proof of concept vormen een waardevolle basis voor verdere ontwikkeling en uitrol.

Kathrin vat het mooi samen: “We bouwen hier aan een netwerk van kennis dat voor iedereen vindbaar, toegankelijk en herbruikbaar is.” Podiumkunst.net nodigt andere erfgoedinstellingen en ontwikkelaars uit om mee te denken en deze kennisbron verder te verbeteren. Dit project is een belangrijke stap op weg naar een toekomst waarin erfgoeddata nog beter verbonden is.

Voor wie dieper in de aanpak, resultaten en lessen van het project wil duiken, is het volledige proof of concept verslag beschikbaar. Daarnaast biedt de data story een verhalende blik op het project, terwijl de broncode en technische documentatie beschikbaar zijn op GitHub.

door Marcella Wempe-Wisbrun