Bekijk profielpagina

Klikdinges #97: Met deze 5 tools kan iedereen scrapen

Klikdinges #97: Met deze 5 tools kan iedereen scrapen
Door Jerry Vermanen • Editie #97 • Bekijk online
In deze Klikdinges bespreek ik vijf tools om te leren scrapen. Zowel beginners als gevorderden kunnen er vast iets uitpikken waar ze mee aan de slag kunnen.
En verder:
  • Het woord ‘klikdinges’ stond als in De Volkskrant
  • Binnenkort uitzendingen over de digitale verkiezingen
  • Maak je eigen Netflix-aanbevelingstool in R en Shiny

Mijn Afgelopen Twee Weken
Weet jij al op wie je gaat stemmen? Ik absoluut niet. Ik ben ook nog iets te druk geweest met werk om me echt in de partijen te verdiepen. Ironisch genoeg omdat ik nu bezig ben met twee tv-uitzendingen over de verkiezingen.
Samen met NOS en De Groene Amsterdammer ben ik al een paar maanden bezig met onderzoek. We willen weten welke gevolgen deze digitale verkiezingen hebben op de campagnes. Hoe gaan techbedrijven om met de boodschap van partijen? Op 7 en 14 maart om 21.00 uur (NPO2) kun je onze uitzendingen hierover bekijken. Allemaal opgenomen op onze geweldige locatie in Culemborg (De Gelderlandfabriek).
Ff een Italiaans handje gebruiken om mijn punt te maken
Ff een Italiaans handje gebruiken om mijn punt te maken
Maar ik kijk ook al even over de verkiezingsperiode heen. Helaas kan ik er nog niet al teveel over zeggen, maar ik ben bezig met een onderzoek waarbij ik veel moet scrapen. En dat roept vaak vragen op bij Klikdinges-lezers. Hoe begin je daarmee?
TL;DR Ik maak meestal mijn eigen scrapers, maar het kan ook ontzettend handig zijn om andere diensten te gebruiken. Om je een beetje op weg te helpen, som ik hier een aantal van mijn favoriete mogelijkheden op.
  • Outwit Hub. Dit is mijn favoriete tool om te scrapen. Eenvoudig in gebruik, en talloze functies om websites te scrapen. Een licentie kost ongeveer €100, maar die gaat in principe onbeperkt mee.
  • Parsehub.io. Als je geen enkele ervaring met scrapen hebt en het principe nog niet helemaal snapt, probeer dan eens Parsehub. Hiermee kun je gewoon klikken op de data die je wil. Ja, het is zeer beperkt qua functionaliteit. En ja, je kunt er niet superveel data mee verzamelen. En ja, om meer te kunnen moet je betalen. Maar het is een begin.
  • Crawly.diffbot. Een heel interessant idee: voer een link in op deze site, en je krijgt een hele bak aan data netjes geordend in je mail. Je kunt telkens maar 1 website invoeren, maar voor zulke klusjes is het echt perfect.
  • Twint. Niet alle scrapers zijn open-ended tools. Soms is het juist handig om hele specifieke scrapers te hebben, zoals Twint. Hiermee kun je buiten de Twitter-API om tweets binnenhalen. Als je comfortabel bent met Command Line Interface, dan is Twint echt easy peasy.
  • Rvest. Ik noemde Outwit Hub mijn favoriete tool, en Rvest is mijn favoriete package. Je moet met Rvest namelijk zelf je code schrijven in R, maar wow, wat een heerlijk flexibele manier om te scrapen.
Ik moet hier ook even een s o geven aan Maarten Lambrechts. Dankzij zijn tutorial (waarschijnlijk nu wel een beetje outdated) heb ik leren scrapen in R. Dat maakte voor mij zoveel mogelijkheden zichtbaar in R: daar pluk ik nu nog steeds de vruchten van.
En dat allemaal dankzij een tutorial waar je met een kleine middag doorheen bent. Hoe gaaf is dat?
How I Built a Scraper To Measure MP Activity
En werelddominantie wordt langzaam maar zeker een feit. In deze column van Ionica Smeets komt het woord Klikdinges voor. 🥳 En nee, dat is geen toeval
Toffe Klikdingessen
Let R tell you what to watch on Netflix
Iceberger
The Hitchhiker's Guide to the Galaxy - The Game
Korte Cursus Manipulatie - Bits of Freedom
Eerste Hulp bij Online Haat
pointerpointer.com
Ein Jahr Corona: Chronik einer Stadt im Jojo-Lockdown
Vind Ik Leuk
Tot over twee weken. En blijf gezond!
Erg fijn om te leren scrapen, maar wat moet je met al die gegevens? Hopelijk vind je een mooie aanleiding voor een baanbrekend onderzoek, en het Handboek Internetresearch & Datajournalistiek kan je vervolgens helpen om dat tot een goed einde te brengen.
Vond je deze editie leuk?
Jerry Vermanen

In deze tweewekelijkse nieuwsbrief blijf je op de hoogte van het beste dat interactieve journalistiek te bieden heeft. Daarnaast vertel ik je over mijn eigen werk als datajournalist bij Pointer.

Als je deze nieuwsbrief niet meer wilt ontvangen, dan kun je je hier afmelden.
Als deze nieuwsbrief doorgestuurd is en je wilt je aanmelden, klik dan hier.
Gemaakt door Jerry Vermanen met Revue.