Skip to content

Commit

Permalink
Merge pull request #309 from beeldengeluid/cd-showcase
Browse files Browse the repository at this point in the history
Cd showcase
  • Loading branch information
mwigham authored Feb 13, 2025
2 parents f624dce + f1cbcf3 commit 7b1b5de
Show file tree
Hide file tree
Showing 3 changed files with 114 additions and 0 deletions.
58 changes: 58 additions & 0 deletions content/en/showcases/cd-linked-data.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,58 @@
---
title: "Linked data in practice: Which CDs are Dutch heritage?"
subtitle: How you can use linked data to discover Dutch heritage in a mountain of CDs
image: articles/cds_depot.jpg
imageCaption: "Storage of CDs at Sound & Vision. Photo: Margot Knijn"
tags: linked data
lab: opendatalab
publishedOn: '2025-02-13'
datasets: []
---

The potential of Linked Data is broadly acknowledged. But it is a lot of work to model and publish data, and after that it is a complex chore to link the data to other collections. Sometimes you ask yourself: will we ever reap the benefits? Well, the answer is definitely - yes!

## A musical puzzle

Until 2012 the Sound & Vision collection was available for broadcasters via the lending library. If a programme maker or a DJ wanted to play music, then it often came from us. That is why in 2024 there were racks of more than 220,000 CDs in the depots of Sound & Vision. What is more, Muziekweb has been part of Sound & Vision since 2022. CDs can be borrowed and listened to via Muziekweb, via public libraries. The Muziekweb collection, at present housed in Rotterdam, contains more than 700,000 CDs. That's 10km of CDs in total!

There is a significant overlap betwen these collections. For this reason we are applying our Collection policy to the CDs in Hilversum, and we want to identify Dutch heritage so it can be physically preserved at Sound & Vision. In this case, we define Dutch heritage as CDs with performers or composers related to the Netherlands, or that are recorded in a Dutch location [^1].

For many of the pop CDs we can determine the heritage status based on information in the metadata. But this is not watertight, because the available metadata about the nationality of the artists is limited to the most important performers. So the Dutch Frans Elsen (pianist) who plays together with Chet Baker could be overlooked. And for classical music only the nationality of the composer is registered, not that of the musicians, so the Concertgebouworkest performing Mahler would not be recognised as Dutch heritage based on the metadata.

So how do we determine what is Dutch heritage? With so many CDs it is not an option to walk along the racks and read all the CD cases.


## The power of Linked Data

Linked Data offers the solution. The results of previous S&V projects in which specific persons were linked to external sources have been successfully applied to this case. Via [Discogs](https://www.discogs.com/), a popular online music database, and [Wikidata](https://www.wikidata.org/), the structured data equivalent of Wikipedia, we can automatically discover which persons are Dutch.

In Wikidata, the nationality of a person is mostly stated explicitly. Job done, you might say. However, there is a catch. Recorded music is a relatively recent phenomenon, but the composers of classical works come from many different historical eras. Including eras in which 'the Netherlands' as such didn't exist, but e.g. the 'Republic of the Seven United Netherlands' did. We therefore had to find all the relevant historical entities. In addition to this, the overseas territories and former colonies of the Netherlands are part of our cultural heritage, so we include Suriname and Indonesia, for example. Therefore, as with every data question, it is essential to have a solid understanding of the underlying domain. That is why we work together with data experts and music experts.

For Discogs, it is more complicated. There is no information about the nationality of an artist explicitly registered in the metadata. We have to search the description of a person for terms that could indicate their background, taking both Dutch and English languages into account. For example, terms such as "Netherlands", "Nederland", "Dutch", "Netherlands Antilles" etc. We regard detection of one of these terms as sufficient to indicate that someone belongs to Dutch cultural heritage. Of course, this doesn't always work perfectly. For example, Galina Oestvolskaja is incorrectly detected as being Dutch, because her Discogs description contains the following text: "Галина Ивановна Уствольская in Russian, usually romanized as Galina Ivanovna Ustvolskaya in English, Ustwolskaja in German, Oustvolskaïa in French and *Oestvolskaja in Dutch*.". However, checking samples with music experts gave us sufficient confidence to use the results.

The recording locations of the CDs were not yet linked to Wikidata, so this step had to be carried out first. We used the [OpenRefine](https://openrefine.org/) tool for this, which matched the locations to Wikidata. Uncertain matches were manually approved or rejected. OpenRefine then retrieved the associated countries from Wikidata, so that we could identify Dutch locations.

Locations and persons can be listed at the level of the CD or a track, and persons can be listed in many different roles. So we wrote code to extract complete lists of locations and persons from the CD collection, and to subsequently look up the nationality of the persons in Wikidata and Discogs, and export the locations for processing in OpenRefine.

When consulting sources such as Discogs and Wikidata, it is essential to comply with their terms and conditions. For this reason, we built in time limits in our code, which meant that it took quite a long time to check both sources for all persons. So we put our code into a so-called 'container', so that it could be easily run in the cloud - much faster and more convenient than running it on a personal laptop.


## The power of the expert

Not all persons are linked to Discogs or Wikidata, and where a link is present, there is not always sufficient information available to automatically determine their nationality. The remaining persons were manually checked by our intrepid music specialists. By generating a list of the persons, their links to Discogs/Wikidata (if present) and the number of CDs they are related to, we made it possible for the experts to work in an efficient and targeted manner.

## Great result

We combined all the information about persons and locations from Wikidata, Discogs and music experts to be able to give an indication, per CD, of whether it is Dutch heritage or not. The 'evidence' is also registered. For example, despite its English name, "Great pianists of the 20th century" is Dutch heritage because the performer Edo de Waart is Dutch, according to Discogs and Wikidata. In this way we keep the process transparent and make it possible to check the results very specifically. Music experts did this for samples, with a positive result. In this way, we produced a list of more than 12,000 classical CDs and 36,500 pop CDs that are Dutch heritage: that means at least one crew member, performer, composer or location related to the Netherlands. These CDs will be included in the collection of Sound & Vision, where they will be sustainably preserved.

## Great unexpected benefit

We applied Linked data to this case with the aim of answering the question: which CDs belong to Dutch heritage? However, the information we gathered to answer this question can also be used for other purposes. For example, with the help of the coordinate information for locations in Wikidata you can now explore the CDs that have recording location information via this map of the Netherlands. The large cities dominate, yet recording locations are spread all over the country, from Uithuizen in the north to Noorbeek in the south; from Vrouwenpolder in the west to Oldenzaal in the east.

<iframe src='https://flo.uri.sh/visualisation/21572628/embed' title='Interactive or visual content' class='flourish-embed-iframe' frameborder='0' scrolling='no' style='width:100%;height:600px;' sandbox='allow-same-origin allow-forms allow-scripts allow-downloads allow-popups allow-popups-to-escape-sandbox allow-top-navigation-by-user-activation'></iframe><div style='width:100%!;margin-top:4px!important;text-align:right!important;'><a class='flourish-credit' href='https://public.flourish.studio/visualisation/21572628/?utm_source=embed&utm_campaign=visualisation/21572628' target='_top' style='text-decoration:none!important'><img alt='Made with Flourish' src='https://public.flourish.studio/resources/made_with_flourish.svg' style='width:105px!important;height:16px!important;border:none!important;margin:0!important;'> </a></div>

Do you want to know what was recorded in a particular location? Look at the overview below. Browse through the list, or search for the location that interests you. In this way, you can discover which instrument connects the four locations mentioned above.

<iframe src='https://flo.uri.sh/visualisation/21572668/embed' title='Interactive or visual content' class='flourish-embed-iframe' frameborder='0' scrolling='no' style='width:100%;height:600px;' sandbox='allow-same-origin allow-forms allow-scripts allow-downloads allow-popups allow-popups-to-escape-sandbox allow-top-navigation-by-user-activation'></iframe><div style='width:100%!;margin-top:4px!important;text-align:right!important;'><a class='flourish-credit' href='https://public.flourish.studio/visualisation/21572668/?utm_source=embed&utm_campaign=visualisation/21572668' target='_top' style='text-decoration:none!important'><img alt='Made with Flourish' src='https://public.flourish.studio/resources/made_with_flourish.svg' style='width:105px!important;height:16px!important;border:none!important;margin:0!important;'> </a></div>

[^1]: The complete definition of Dutch heritage for music used at Sound & Vision is much broader, including for example music that is performed on uniquely Dutch instruments, or that has became part of the collective consciousness. Such aspects are impossible to check based on the metadata we have available, which is why we used a more limited definition. The definition of Dutch heritage is in any case a subject for continuing debate.
56 changes: 56 additions & 0 deletions content/nl/showcases/cd-linked-data.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,56 @@
---
title: "Linked data in de praktijk: Welke cd's zijn Nederlands erfgoed?"
subtitle: Hoe je met linked data Nederlands cultureel erfgoed kan ontdekken in een berg van cd's
image: articles/cds_depot.jpg
imageCaption: "Opslag van cd's bij Beeld & Geluid. Foto: Margot Knijn"
tags: linked data
lab: opendatalab
publishedOn: '2025-02-13'
datasets: []
---

De potentie van Linked Data wordt breed erkend. Maar het is veel werk om data te modelleren en te publiceren, en daarna nog een ingewikkeld karwei om de data te linken aan andere collecties. Soms vraag je je af: gaan we er ooit de vruchten van plukken? Nou, het antwoord is absoluut - ja!

## Een muzikale puzzel

Tot 2012 was de Beeld & Geluid cd collectie beschikbaar voor de omroepen via de uitleen. Wilde een programmamaker of DJ muziek draaien, dan kwam het vaak bij ons vandaan. Daarom stonden er anno 2024 in de depots van Beeld & Geluid in Hilversum rekken met meer dan 220.000 cd's. Bovendien is Muziekweb sinds 2022 onderdeel van Beeld en Geluid. Via Muziekweb kunnen cd's geleend en beluisterd worden via de openbare bibliotheken. De collectie van Muziekweb, op dit moment gehuisvest in Rotterdam, bevat ruim 700.000 cd's. Dat is bij elkaar 10 kilometer aan cd’s!

Er is een flinke overlap tussen deze collecties. Op de cd’s in Hilversum passen we daarom ons Collectiebeleid toe en willen we het Nederlands erfgoed identificeren en fysiek bewaren. In dit geval definiëren we Nederlands erfgoed als cd's met aan Nederland gerelateerde uitvoerenden of componisten, of die opgenomen zijn op een Nederlandse locatie [^1].

Voor veel van de populaire muziek cd's kunnen we de erfgoedstatus vaststellen op basis van de informatie vastgelegd in de metadata. Maar dat is niet waterdicht want de beschikbare metadata over de nationaliteit van de artiesten beperkt zich tot de meest belangrijke uitvoerenden. Dus de Nederlandse Frans Elsen (pianist) die meespeelt met Chet Baker zou je dan zomaar missen. En voor klassieke muziek is alleen vastgelegd wat de nationaliteit is van de componist en niet van de musici, dus het Concertgebouworkest dat Mahler uitvoert wordt op basis van de metadata niet als NL erfgoed herkend.

Dus hoe stellen we vast wat Nederlands erfgoed is? Met zoveel cd's is langs de rekken lopen en elk hoesje lezen geen optie.

## De kracht van Linked Data

De oplossing komt vanuit Linked Data. De resultaten van eerdere B&G-projecten waarbij bepaalde personen in onze thesaurus zijn gelinkt aan externe bronnen hebben we hier met succes ingezet. Via [Discogs](https://www.discogs.com/), een populaire online muziekdatabase, en [Wikidata](https://www.wikidata.org/), de gestructureerde data-equivalent van Wikipedia, kunnen we automatisch ontdekken welke personen Nederlands zijn.

In Wikidata staat de nationaliteit van een persoon meestal expliciet aangegeven. Direct gepiept, zou je zeggen. Echter zit er een addertje onder het gras. Opgenomen muziek is een relatief recent fenomeen, maar de componisten van klassieke werken komen uit verschillende tijdperken uit de geschiedenis. Inclusief tijdperken waarin 'Nederland' als zodanig niet bestond, maar bijv. de 'Republiek der Zeven Verenigde Nederlanden' wel. We moesten dus de relevante historische entiteiten ook uitzoeken. Daarnaast zijn de overzeesgrondgebieden en voormalige koloniën van Nederland onderdeel van ons cultureel erfgoed, dus nemen we bijvoorbeeld ook Suriname en Indonesië mee. Zoals bij elke datavraag, is dus een goed begrip van de achterliggende domein onontbeerlijk. Daarom werkten we met dataexperts en muziekexperts samen.

Bij Discogs is het ingewikkelder. Daar is namelijk geen expliciete informatie over de nationaliteit van een artiest in de metadata opgenomen. We moeten zoeken op termen in de beschrijving van een persoon die kunnen duiden op hun afkomst, rekening houdend met zowel Engels als Nederlands. Termen zoals "Netherlands", "Nederland", "Dutch", "Netherlands Antilles" enz. Detectie van één van deze termen vinden we genoeg om een persoon te bestempelen als onderdeel van Nederlands erfgoed. Uiteraard gaat dit niet altijd perfect. Bijvoorbeeld, wordt Galina Oestvolskaja onterecht als Nederlandse aangewezen, omdat haar Discogsbeschrijving de volgende tekst bevat: "Галина Ивановна Уствольская in Russian, usually romanized as Galina Ivanovna Ustvolskaya in English, Ustwolskaja in German, Oustvolskaïa in French and *Oestvolskaja in Dutch*.". Steekproeven door muziekexperts geven ons desondanks genoeg vertrouwen om de resultaten te gebruiken.

De opnamelocaties van de cd's waren nog niet gelinkt aan Wikidata, dus moest die stap eerst worden gezet. We gebruiken de [OpenRefine](https://openrefine.org/) tool daarvoor, die de locaties matcht met Wikidata. Onzekere matches hebben we met de hand goed- of afgekeurd. OpenRefine haalt dan de bijbehorende landen op uit Wikidata, zodat we Nederlandse locaties kunnen identificeren.

Locaties en personen kunnen of op cd-niveau of op trackniveau aangegeven worden, en personen kunnen daarbij in veel verschillende rollen zijn aangegeven. We hebben dus code geschreven om volledige lijsten van locaties en personen uit de cd-collectie te halen, en vervolgens informatie over nationaliteit van personen op te zoeken in Wikidata en Discogs, en de locaties te exporteren voor verwerking in OpenRefine.

Bij raadplegen van bronnen zoals Discogs en Wikidata is het essentieel om rekening te houden met hun voorwaarden. Daarom zijn er limieten in onze code ingebouwd, waardoor het best lang duurt om beide bronnen te checken voor alle personen. Dus zetten we onze code in een zogenaamde 'container', waardoor het makkelijk in de cloud gedraaid kan worden - vele malen sneller en handiger dan op een eigen laptop.

## De kracht van de expert

Niet alle personen zijn gelinkt naar Discogs of Wikidata, en waar er wel een link is, is er niet altijd genoeg informatie beschikbaar om automatisch hun nationaliteit te bepalen. De resterende personen zijn door onze dappere muziekkenners handmatig doorgenomen. Door een lijst te genereren van de personen, hun eventuele links naar Discogs/Wikidata en het aantal cd's waaraan ze zijn gekoppeld, was het mogelijk voor de experts om gericht en efficiënt te werk te gaan.

## Mooi resultaat

We combineren alle informatie over personen en locaties van Wikidata, Discogs en muziekexperts om per cd aan te kunnen geven of het wel of geen Nederlands erfgoed is. Daarbij wordt het 'bewijs' daarvoor vastgelegd. Bijv. "Great pianists of the 20th century" is ondanks zijn Engelse naam toch Nederlands erfgoed omdat uitvoerende Edo de Waart Nederlands is, volgens Discogs en Wikidata. Op deze wijze houden we het proces transparant en maken we het mogelijk om de resultaten gericht te checken. Muziekexperts hebben dit steekproefsgewijs gedaan, met positief resultaat. Zo komen we op een lijst van ruim 12.000 klassieke cd’s en 36.500 populaire cd’s die Nederlands erfgoed zijn: dat betekent tenminste één aan Nederland gerelateerde uitvoerende, crew, componist of locatie. Deze cd's zullen opgenomen worden in de collectie van Beeld & Geluid, waar ze duurzaam bewaard zullen worden.

## Mooie bijvangst

Linked data hebben we hier ingezet met als doel het antwoord op de vraag: welke cd's behoren tot het Nederlands erfgoed? De informatie die we vergaard hebben kunnen we echter ook voor andere doelen inzetten. Bijvoorbeeld, met behulp van de informatie over coördinaten van locaties in Wikidata kan je nu de cd's met locatie-informatie ontdekken via deze kaart van Nederland. De grote steden domineren, maar opnamelocaties zijn wijdverspreid over het land, van Uithuizen in het noorden tot Noorbeek in het zuiden; van Vrouwenpolder in het westen tot Oldenzaal in het oosten.

<iframe src='https://flo.uri.sh/visualisation/18381044/embed' title='Interactive or visual content' class='flourish-embed-iframe' frameborder='0' scrolling='no' style='width:100%;height:600px;' sandbox='allow-same-origin allow-forms allow-scripts allow-downloads allow-popups allow-popups-to-escape-sandbox allow-top-navigation-by-user-activation'></iframe><div style='width:100%!;margin-top:4px!important;text-align:right!important;'><a class='flourish-credit' href='https://public.flourish.studio/visualisation/18381044/?utm_source=embed&utm_campaign=visualisation/18381044' target='_top' style='text-decoration:none!important'><img alt='Made with Flourish' src='https://public.flourish.studio/resources/made_with_flourish.svg' style='width:105px!important;height:16px!important;border:none!important;margin:0!important;'> </a></div>

Wil je weten wat er in een locatie is opgenomen? Kijk dan naar onderstaande overzicht. Browse door de lijst, of zoek op de locatie die jou interesseert. Ontdek op deze wijze welk instrument de vier bovengenoemde locaties verbindt.

<iframe src='https://flo.uri.sh/visualisation/18381413/embed' title='Interactive or visual content' class='flourish-embed-iframe' frameborder='0' scrolling='no' style='width:100%;height:600px;' sandbox='allow-same-origin allow-forms allow-scripts allow-downloads allow-popups allow-popups-to-escape-sandbox allow-top-navigation-by-user-activation'></iframe><div style='width:100%!;margin-top:4px!important;text-align:right!important;'><a class='flourish-credit' href='https://public.flourish.studio/visualisation/18381413/?utm_source=embed&utm_campaign=visualisation/18381413' target='_top' style='text-decoration:none!important'><img alt='Made with Flourish' src='https://public.flourish.studio/resources/made_with_flourish.svg' style='width:105px!important;height:16px!important;border:none!important;margin:0!important;'> </a></div>

[^1]: De complete definitie van Nederlands erfgoed voor muziek gebruikt bij Beeld & Geluid is veel breder, en bevat bijvoorbeeld muziek uitgevoerd op unieke Nederlandse instrumenten, of muziek die deel is gaan uitmaken van ons collectieve geheugen. Zulke aspecten zijn onmogelijk te controleren op basis van de metadata die we beschikbaar hebben, vandaar dat we een beperktere definitie hebben gebruikt. De definitie van Nederlands erfgoed is sowieso een onderwerp waarover er nog wordt gedebateerd.
Binary file added public/images/articles/cds_depot.jpg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.

0 comments on commit 7b1b5de

Please sign in to comment.