Met natural language processing (NLP), het best te vertalen als ‘taaltechnologie’, kun je tekst en spraak verwerken met de kracht van AI. Eigenlijk gaat het over verschillende dingen wanneer mensen de term NLP gebruiken:
Natural language generation (NLG)
Dit betreft het genereren en creëren van teksten (al dan niet uitgesproken), op basis van miljoenen andere, reeds bestaande teksten. Die teksten kunnen overal vandaan komen (o.a. uit Wikipedia, boeken, kranten, literatuur, wetenschapspublicaties, Reddit, het Viva-forum, Twitter, etc.) en worden opgeslagen, verwerkt en verrijkt in zogeheten Large Language Models (LLM’s). Wie trouwens natural language generation zegt, zegt vrijwel meteen ook GPT-3.
⏯Volgende week meer over natural language generation.
Natural language understanding (NLU)
Het understanding-deel van NLP gaat over het verwerken van tekst en het begrijpen ervan. En dat laatste is nogal een grote uitdaging voor computers, want: context!
Echter, met behulp van hedendaagse AI kun je tekst zowel syntactisch (zinsopbouw, grammatica en structuur) als semantisch (betekenis) goed verwerken. En het mooie is: dit mogen zogeheten ongestructureerde teksten zijn. En dan bedoel ik niet verhaalstructuur of vraag-antwoord-structuur. Nee, de teksten hoeven geen vooraf bepaalde of afgesproken opmaak of formaat te volgen. Denk dan aan tekens, woorden, zinnen, alinea’s en pagina’s die zich bevinden in verschillende documenten zoals tekstbestanden, spreadsheets, databases, PDF-documenten of afbeeldingen.
En omdat de machine learning- en taalmodellen steeds krachtiger zijn geworden (met ook de nodige kanttekeningen, zie Further reading verderop), biedt NLP veel mogelijkheden voor creatieve makers.