Hoe betrouwbaar is een sentimentanalyse?

Wat is sentimentanalyse bij tekstanalyse?
Tekstanalyse 1.0 was de Word Cloud. Leuk, maar het zegt zo weinig. Tekstanalyse 2.0 gaat een stuk verder en heeft als output categorieën en sentimentanalyse. Met behulp van de categorieën krijg je een verfijnd overzicht waar de teksten over gaan en kun je down drillen naar specifieke actiegerichte – items.

Met behulp van sentimentanalyse probeert de software te bepalen of een bericht positief of negatief is over een bepaald onderwerp. Zo krijg je inzicht in de vraag hoe klanten over onderwerpen schrijven en denken. Op basis hiervan kun je weer verbeteracties ondernemen en het effect monitoren.

Kwaliteit sentimentanalyse niet altijd even hoog
Onlangs deden studenten van de Vrije Universiteit Amsterdam een onderzoek naar de betrouwbaarheid van de sentimentanalyse van een bekende social media webcare dienst. Het resultaat was 50% goed, maar dus ook 50% fout. Dit resultaat is niet beter dan de voorspelling ‘kop of munt’ bij het opgooien van een munt. Je krijgt altijd een mooie grafiek van de meetresultaten. Als je in de details duikt en het is net zo vaak wel als niet juist is het onbruikbaar.
Sentimentanalyse

Waarom is het meten van sentiment zo moeilijk?

Een computer is sterk in rekenen maar taal is complex en niet eenduidig. Grammatica kent veel regels en evenzoveel uitzonderingen. “Goed” is eenvoudig door software te duiden, “niet goed” is al lastiger. Bijvoorbeeld:

“De deskundigheid is niet op alle punten even goed” is door de afstand tussen “niet” en “goed” lastig voor software om te bepalen als negatief. Daarnaast is het voor een computer moeilijk om vast te stellen dat "niet goed" betrekking heeft op "deskundigheid". De betekenis kan context afhankelijk zijn: "Dat is maar gewoontjes" versus "gewoon goed" etc.
Meten is weten
Om deze reden is het belangrijk om te meten hoe accuraat de sentimentanalyse is. Er zijn twee soorten fouten:

1. False positive: een fout waarbij de meting aangeeft dat iets WEL het geval is (positief), maar het in werkelijkheid NIET het geval is.
2. False negative: de analyse geeft aan dat iets NIET het geval is, maar is het in werkelijkheid WEL het geval.
Om de mate van accuraat in een percentage uit te drukken zijn er twee maatstaven:

Precision is het percentage juist gevonden termen gedeeld door het totaal aantal termen dat we gevonden hebben: (true positives) : (true positives + false positives).

Recall is het percentage goed gevonden termen gedeeld door het totaal aantal dat we hadden moeten vinden : (true positives) : ( true positives + false negatives).

De betrouwbaarheid van de tekstanalyse is het gemiddelde van de ‘precision’ en de ‘recall’.
Type I and II error

De Feeddex tekstanalyse heeft nu een betrouwbaarheid van 75% tot 85%

De betrouwbaarheid van de Feeddex tekstanalyse ligt momenteel tussen de 75% en 85%, afhankelijk van het soort tekst. We werken er hard aan om dit percentage omhoog te krijgen. Dit doen we door specifieke ‘woordenboeken’ te maken per toepassing en door algoritmes te maken om specifieke patronen te vinden. Momenteel hebben we ca. 300 algoritmes en dit aantal stijgt nog steeds. De 100% zullen we niet halen maar ook voor de gemiddelde mens geldt dat hij een tekst voor niet meer dan ca. 85% begrijpt. Zal de computer ooit slimmer worden dan de mens?