Vervolgens heb ik twee lijsten samengesteld: eentje met Nederlandstalige rappers, een ander met de Marco Borsato’s, Bløf’s en Willeke Alberti’s van deze wereld. Ik heb al hun Genius-artiestencodes verzameld, zodat ik 100% zeker weet dat ik straks de gegevens van de juiste artiest verzamel.
(Dit is overigens het saaiste deel van het werk. Naam artiest opzoeken, code opzoeken, code in Excel plakken, repeat.)
Wellicht dat ik op een later moment al mijn code kan delen, maar voor nu mag je weten dat ik alles in
het gratis programma R verzamel, verwerk én visualiseer. In R doe ik (via de lijst met artiestencodes) de volgende bewerkingen:
- Zoek alle nummers van deze artiest op (via de artiestencodes).
- Zoek alle lyrics van die nummers op.
- Verzamel deze lyrics (hij slaat ze per regel op), en verzamel daarbij ook algemene gegevens over dat nummer (artiest, titel nummer, etc.). Geef ook aan of dit uit mijn lijst van rappers of overige artiesten komt.
- Verwijder alle interpunctie uit deze teksten.
- Deel de tekst op in individuele woorden.
- Verwijder stopwoorden zoals ‘de’, 'het’ en 'een’.
- Tel de woorden bij elkaar op, dus het woord 'man’ is door deze artiest x keer genoemd.
- Tel het totaal aantal woorden per artiest op. Daarmee kan ik filteren op artiesten waar ik maar een beperkt aantal woorden van heb.
- En vervolgens doe ik (na veel filteren, gegevens opschonen, etc.) een zogeheten TF-IDF-analyse. Kort gezegd: wat zijn de woorden die typisch zijn voor bepaalde artiesten of genres muziek. Hier een kort stappenplan hoe zo'n analyse in R werkt.
- Filter, visualiseer, en bekijk of het resultaat logisch is. Zo niet, dan ergens halverwege deze lijst instappen en wijzigingen toepassen.
Naast dit onderzoek heb ik ook nog tijd om andere dingen af te ronden. Voor het radioprogramma Spraakmakers
zocht ik uit of de aanwezigheid van lokale partijen invloed heeft op de opkomstpercentages in die gemeente. Spoiler: nee.