Maar ik kijk ook al even over de verkiezingsperiode heen. Helaas kan ik er nog niet al teveel over zeggen, maar ik ben bezig met een onderzoek waarbij ik veel moet scrapen. En dat roept vaak vragen op bij Klikdinges-lezers. Hoe begin je daarmee?
TL;DR Ik maak meestal mijn eigen scrapers, maar het kan ook ontzettend handig zijn om andere diensten te gebruiken. Om je een beetje op weg te helpen, som ik hier een aantal van mijn favoriete mogelijkheden op.
-
Outwit Hub. Dit is mijn favoriete tool om te scrapen. Eenvoudig in gebruik, en talloze functies om websites te scrapen. Een licentie kost ongeveer €100, maar die gaat in principe onbeperkt mee.
-
Parsehub.io. Als je geen enkele ervaring met scrapen hebt en het principe nog niet helemaal snapt, probeer dan eens Parsehub. Hiermee kun je gewoon klikken op de data die je wil. Ja, het is zeer beperkt qua functionaliteit. En ja, je kunt er niet superveel data mee verzamelen. En ja, om meer te kunnen moet je betalen. Maar het is een begin.
-
Crawly.diffbot. Een heel interessant idee: voer een link in op deze site, en je krijgt een hele bak aan data netjes geordend in je mail. Je kunt telkens maar 1 website invoeren, maar voor zulke klusjes is het echt perfect.
-
Twint. Niet alle scrapers zijn open-ended tools. Soms is het juist handig om hele specifieke scrapers te hebben, zoals Twint. Hiermee kun je buiten de Twitter-API om tweets binnenhalen. Als je comfortabel bent met Command Line Interface, dan is Twint echt easy peasy.
-
Rvest. Ik noemde Outwit Hub mijn favoriete tool, en Rvest is mijn favoriete package. Je moet met Rvest namelijk zelf je code schrijven in R, maar wow, wat een heerlijk flexibele manier om te scrapen.
Ik moet hier ook even een s o geven aan Maarten Lambrechts. Dankzij zijn tutorial (waarschijnlijk nu wel een beetje outdated) heb ik leren scrapen in R. Dat maakte voor mij zoveel mogelijkheden zichtbaar in R: daar pluk ik nu nog steeds de vruchten van.
En dat allemaal dankzij een tutorial waar je met een kleine middag doorheen bent. Hoe gaaf is dat?