Voor zogeheten supervised learning (een veelgebruikte aanpak om machines iets te leren) is het labelen van data essentieel. De term ‘supervised’ zegt het al: als supervisor kies je de juiste voorbeelden om een ander te tonen waar je naar op zoek bent; hoe ‘iets’ moet, werkt of hoort, en -minstens zo belangrijk- hoe niet, wat het niet is.
“Om de ontwikkeling van AI in de mediasector te stimuleren. Tijdens de pilot zullen tien werkzoekenden videomateriaal gaan labelen zodat die content geschikt is voor het trainen van AI-modellen. ”
Over de redenen en het doel zeggen de initiatiefnemers:
“Voor het ontwikkelen van AI bij mediaorganisaties zijn grote hoeveelheden goed gelabelde content nodig. Daarbij gaat het bijvoorbeeld om het kwalificeren van videobeelden als ‘racistisch’ of ‘romantisch’. Als mensen iets als dusdanig bestempelen, kan een AI-model in die data patronen herkennen. Zo kan kunstmatige intelligentie voortaan zelf aangeven of er een racistische of juist romantische scène voorkomt in een video.”
Labelen is arbeidsintensief
Om de AI te trainen, moet je per label honderden voorbeelden verzamelen; 100 romantische scenes, 100 gewelddadige, 100 racistische, und so weiter. Al die voorbeelden samen vormen straks de trainingsset die het model gaat gebruiken om van te leren.
Het vinden van voorbeelden alleen al is een tijdrovende klus. Pas daarna komt het labelen.
AI = handwerk
Iedereen kan van eigen teksten, beelden, documenten en andere soorten data specifieke analyses maken d.m.v. machine learning. Dat dit zo simpel, goedkoop en goed is, heeft met drie ontwikkelingen te maken:
- Opkomst van labeling-tools om je data eenvoudig mee te classificeren en te exporteren voor training (zie punt 1);
-
Trainingtools voor labelclassificatie zijn steeds meer 🍎🥚'tje te gebruiken; 👉🏽Lobe.ai voor beeld en Google Cloud AutoML Natural Language voor tekstgebaseerde data;
-
Interoperabiliteit: jouw custom getrainde ML-model kun je eenvoudig exporteren, online laten draaien en via het web of een app aanroepen.
En: AI = verantwoordelijkheid nemen
Hoe greater je power wordt door deze democratisering van AI, hoe belangrijker het is om vooraf een goed begrip en consensus te hebben over wat je waarom zoekt in welke data. En hoe de machine straks de onbekende beelden of teksten gaat interpreteren.
De verantwoordelijkheid is on you, on us humans en ligt zeker niet -oh, de misvatting!- bij de machine, bij de werking van je model of bij de resultaten die het algoritme teruggeeft!
Zolang we het niet eens zijn over dingen (en dat zijn er anno 2021 nogal wat) zal machine learning in elk geval daar niet de oplossing voor zijn.