Bekijk profielpagina

Klikdinges #23: De text-mining edition

In deze editie van Klikdinges leg ik uit hoe ik gegevens verzamel voor ons hiphop-project, heb ik een
Klikdinges #23: De text-mining edition
Door Jerry Vermanen • Editie #23 • Bekijk online
In deze editie van Klikdinges leg ik uit hoe ik gegevens verzamel voor ons hiphop-project, heb ik een visualisatie over hoe een comedian haar show opbouwt, en verwijs ik naar tips om je open source-onderzoek netjes te archiveren.

Dankzij Ionica Smeets, Nick Kivits en Jules van der Leeuw hebben veel nieuwe mensen deze nieuwsbrief ontdekt, dus . Ik ben nu ruim over de drempel van 250 abonnees, en de 300 is nu zelfs in zicht. Heel, héél gaaf.
Een lange Klikdinges deze keer. Laat vooral weten wat je van deze nieuwsbrief vindt door onderin de duimpjes omhoog/omlaag te gebruiken, of door te replyen op deze mail.

Mijn Afgelopen Twee Weken
Mijn werk is raar. De ene maand duik ik diep in de Nederlandse wapenhandel, daarvoor onderzoek ik hoe de politie op sociale media de identiteit van verdachten en slachtoffers prijsgeeft… en nu maak ik het typische taalgebruik van Nederlandse rappers meetbaar.
In deze editie van Klikdinges wil ik graag in grote lijnen uitleggen hoe ik zo'n onderzoek aanpak. In dit geval begon het met deze piekfijne analyse van The Pudding.
The Words That Are “Most Hip Hop”
Hierin wordt het taalgebruik van Amerikaanse rappers onderzocht. En zoals met zoveel onderwerpen, kun je vervolgens bedenken: ‘Hoe kan ik dit ver-Nederlandsen?’
Wat dat betreft is de Nederlandse rap-scene nog veel interessanter dankzij alle invloeden uit Marokko, Suriname en Turkije. Mijn vermoeden is dan ook dat hiphop een van de grote innovators is de Nederlandse muziek.
Het eerste wat ik doe, is bekijken waar ik deze data eventueel kan verzamelen. Genius.com is de grootste database van lyrics, en elke artiest heeft zijn eigen unieke code. Met die code kun je de gegevens via een API oproepen. Een mooie beginpunt.
De Genius-pagina van RBDjan
De Genius-pagina van RBDjan
Vervolgens heb ik twee lijsten samengesteld: eentje met Nederlandstalige rappers, een ander met de Marco Borsato’s, Bløf’s en Willeke Alberti’s van deze wereld. Ik heb al hun Genius-artiestencodes verzameld, zodat ik 100% zeker weet dat ik straks de gegevens van de juiste artiest verzamel.
(Dit is overigens het saaiste deel van het werk. Naam artiest opzoeken, code opzoeken, code in Excel plakken, repeat.)
Wellicht dat ik op een later moment al mijn code kan delen, maar voor nu mag je weten dat ik alles in het gratis programma R verzamel, verwerk én visualiseer. In R doe ik (via de lijst met artiestencodes) de volgende bewerkingen:
  • Zoek alle nummers van deze artiest op (via de artiestencodes).
  • Zoek alle lyrics van die nummers op.
  • Verzamel deze lyrics (hij slaat ze per regel op), en verzamel daarbij ook algemene gegevens over dat nummer (artiest, titel nummer, etc.). Geef ook aan of dit uit mijn lijst van rappers of overige artiesten komt.
  • Verwijder alle interpunctie uit deze teksten.
  • Deel de tekst op in individuele woorden.
  • Verwijder stopwoorden zoals ‘de’, 'het’ en 'een’.
  • Tel de woorden bij elkaar op, dus het woord 'man’ is door deze artiest x keer genoemd.
  • Tel het totaal aantal woorden per artiest op. Daarmee kan ik filteren op artiesten waar ik maar een beperkt aantal woorden van heb.
  • En vervolgens doe ik (na veel filteren, gegevens opschonen, etc.) een zogeheten TF-IDF-analyse. Kort gezegd: wat zijn de woorden die typisch zijn voor bepaalde artiesten of genres muziek. Hier een kort stappenplan hoe zo'n analyse in R werkt.
  • Filter, visualiseer, en bekijk of het resultaat logisch is. Zo niet, dan ergens halverwege deze lijst instappen en wijzigingen toepassen.
Naast dit onderzoek heb ik ook nog tijd om andere dingen af te ronden. Voor het radioprogramma Spraakmakers zocht ik uit of de aanwezigheid van lokale partijen invloed heeft op de opkomstpercentages in die gemeente. Spoiler: nee.
Zoals je ziet: meer lokale partijen betekent niet een hogere opkomst.
Zoals je ziet: meer lokale partijen betekent niet een hogere opkomst.
En ik heb in de afgelopen weken 2 cursussen Datajournalistiek voor Beginners gegeven (tip: de volgende staat gepland op 13 november). Hopelijk heb ik daarmee weer een stuk of 20 nieuwe datajournalisten mee afgeleverd.
Toffe Klikdingesen
Visualizing Outliers
The Structure of Stand-Up Comedy
Wordt er in jouw gemeente voldoende gebouwd?
SPD-Umfragetief vertont – von Schröder bis Groko-Entscheid
How to Archive Open Source Materials
Vind Ik Leuk
Over 2 weken een nieuwe Klikdinges. Heb je goede tips die per se in deze nieuwsbrief moeten komen? Laat het me weten via Twitter!
Hoe vond je deze editie?
Jerry Vermanen

In deze tweewekelijkse nieuwsbrief blijf je op de hoogte wat ik de afgelopen weken in mijn werk als datajournalist tegen kom: mijn eigen projecten, de allerbeste datajournalistieke visualisatie- en researchprojecten en toffe dingen waar ik blij van word.

Als je deze nieuwsbrief niet meer wilt ontvangen, dan kun je je hier afmelden.
Als deze nieuwsbrief doorgestuurd is en je wilt je aanmelden, klik dan hier.
Gemaakt door Jerry Vermanen met Revue.