« Analyse de sentiments en text mining » : différence entre les versions

Version du 18 janvier 2015 à 21:13

L'analyse de sentiment

L'analyse de sentiment (parfois appelée opinion mining) est la partie du text mining qui essaye de définir les opinions, sentiments et attitudes présente dans un texte ou un ensemble de texte. Développée essentiellement depuis les années 2000, elle est particulièrement utilisé en marketing pour analyser par exemple les commentaires des internautes ou les comparatifs et tests des blogueurs ou encore les réseaux sociaux : une grande part de la littérature sur le sujet concerne par exemple les tweets. Mais elle peut également être utilisée pour sonder l'opinion publique sur un sujet, pour chercher a caractériser les relations sociales dans les forums ou encore pour vérifier si Wikipedia est bien un média neutre.

L'analyse de sentiment demande bien plus de compréhension de la langue que l'analyse de texte et la classification par sujet. En effet, si les algorithmes les plus simples considèrent uniquement les statistiques de fréquence d'apparition des mots, cela se révèle en général insuffisant pour définir l'opinion dominante dans un document, surtout lorsque le contenu est court comme des messages dans un forum ou des tweets.

Définition formelle d'une opinion

Formellement, on peut définir une opinion comme un quintuple $(e_{i},a_{ij},s_{ijkl},h_{k},t_{l})$ où

$e_{i}$ est l'entité au sujet de laquelle l'opinion est émise (aussi appelée objet),
$a_{ij}$ l'aspect de l'entité i qui est la cible de l'opinion (en général, plusieurs aspects pour une même entité),
$h_{k}$ l'émetteur, c'est-à-dire la personne qui exprime l'opinion (opinion holder),
$t_{l}$ le moment où est exprimée cette opinion,
et enfin $s_{ijkl}$ le sentiment envers l'aspect j de l'entité i, exprimée par la personne k au moment l.

Chacun de ces paramètres est de plus "catégoriel" c'est-à-dire qu'il s'appuie sur la définition d'une catégorie de mots désignant la même entité, aspect, émetteur, moment ou sentiment. Il y a donc là encore un travail important de préprocessing qui est apparenté à la découverte de sujets (topic modelling) ou la classification Enfin, souvent ce modèle général est réduit à un modèle plus simple, en considérant que certaines informations sont soit sans influence pour l'objet d'étude, soit constantes. Par exemple, on suppose souvent que les opinions sont constantes sur de suffisamment courtes périodes (quelques mois pour des tests d'appareils, mais quelques jours, voire heures pour Twitter).

Echelle et niveau d'analyse

L'analyse de sentiment "basique" se focalise sur une seule dimension : le sentiment général est-il positif ou négatif ? Les techniques visant à déterminer un (ou plusieurs) sentiments généraux comme l'envie, la colère, la frustration ou la joie relèvent plus d'une forme d'adaptation des méthodes de découverte de sujet (topic discovery) ou de méthodes de classification.

L'analyse peut s'effectuer à différents niveaux.

Au niveau du document : détermine l'opinion générale de l'ensemble du document. Cette analyse fonctionne bien pour des documents qui présentent un point de vue précis, mais moins pour des comparaisons car elle ne fera pas la différence entre les sujets abordés.
Au niveau de la phrase : détermine l'opinion générale d'une phrase (positive, négative ou neutre). Cette analyse peut donner une mesure de la "neutralité" d'un texte par exemple pour analyser des entrées de Wikipédia. Les méthodes utilisées sont celle de l'analyse de sujectivité.
Au niveau des aspects (aussi appelé Feature level) : au lieu de déterminer les entités à analyser en fonction de critère structuraux (phrase, paragraphe, document) ces méthodes se basent sur un analyse de corrélation entre l'opinion émise et la cible de cette opinion. Par exemple, la phrase "Le sujet du cours me passionne mais le professeur est ennuyeux." présente deux sentiments sur l'entité "cours" : le sujet qui est perçu comme positif et le professeur, qui est perçu comme négatif. Ce niveau d'analyse permet de différencier les aspects qui sont aimé ou non par les auteurs des textes et ainsi permet plus facilement de déterminer des remédiations possibles. En revanche il est très difficile a mettre en place car extrêmement complexe.

Niveau du Document

Ce niveau cherche à découvrir les opinions émises dans un document d. Formellement, ce niveau correspond à la simplification du modèle général où l'on considère pas les différents aspects $a_{ij}$ .

Méthode Supervisée : Bayes naïf

De manière générale, il s'agit ici d'un problème de classification où les catégories sont "sentiment positif" et "sentiment négatif".

La méthode la plus "simple" est celle appelée Bayes Naïf et consiste à sélectionner la catégorie qui maximise la probabilité a posteriori d'observer les termes du texte d.

Phase d'apprentissage

On détermine "manuellement" les catégories d'appartenance des textes de références (C = +1, 0 ou -1);

On peut alors calculer les probabilités a priori d'apparition de chaque catégorie $P(C=c)$ et de chaque combinaison de mots

$P(w_{1},w_{2}...,w_{n}|C=c)$ pour chaque c=+1, 0 ou -1.

En général, on utilise une hypothèse d'indépendance (pas toujours vraie) pour écrire cette probabilité comme

$P(w_{1}|C=c)\cdot P(w_{1}|C=c)\cdots P(w_{n}|C=c)$

Phase de classification

On calcule à l'aide du théorème de Bayes les probabilités a posteriori

$P(C=c|w_{1},...,w_{n})=P(w_{1},w_{2}...,w_{n}|C=c)P(C=c)/P(w_{1},w_{2}...,w_{n})$ On sélectionne la catégorie c qui maximise cette probabilité, c'est-à-dire qui maximise

$P(w_{1},w_{2}...,w_{n}|C=c)P(C=c)$

ou encore

$P(w_{1}|C=c)\cdot P(w_{1}|C=c)\cdots P(w_{n}|C=c)\cdot P(C=c)$

Calcul de $P(w_{k}|C=c)$

Pour le calcul des probabilités, on utilise une des deux méthodes suivantes.

modèle multinomial (basé sur la fréquence d'apparition) :

$P(w_{1}|C=c)={\frac {f_{w_{k},c}}{\sum _{w}f_{w,c}}}$

où $f_{w_{k},c}$ est la fréquence d'apparition du mot $w_{k}$ dans la catégorie c et $\sum _{w}f_{w,c}$ la somme des fréquences de tout les mots dans la catégorie c.

modèle de Bernoulli (basé sur la proportion de document) :

$P(w_{1}|C=c)={\frac {d_{w_{k},c}}{N_{c}}}$

où $d_{w_{k},c}$ est le nombre de documents où apparaît le mot $w_{k}$ dans la catégorie c et $N_{c}$ le nombre total de document de la catégorie c.

Méthode non-supervisée : Information ponctuelle mutuelle

Extraction de structures

Ces méthodes sont basées sur des considérations linguistiques afin de sélectionner les structures grammaticales qui exprime le plus souvent l'opinion. Celles-ci sont (pour l'anglais), entre autres,

Adjectif (JJ) + Nom au singulier ou pluriel (NN ou NNS)
Adverbe de comparaison on non (RB, RBR, RBS) + Adjectif (JJ) si suivi de tout sauf un nom (ni NN ni NNS)
Adjectif (JJ) + Adjectif (JJ) si suivi de tout sauf un nom (ni NN ni NNS)
Nom au singulier ou pluriel (NN ou NNS) + Adjectif (JJ) si suivi de tout sauf un nom (ni NN ni NNS)
Adverbe de comparaison on non (RB, RBR, RBS) + verbe conjugé (VB, VBD, VBN ou VBG)

(Tableau tiré de Liu, 2014, abréviations selon le Penn Treebank POS project)

Information ponctuelle mutuelle (PMI)

L'information ponctuelle mutuelle (PMI) donnée entre deux mots ou phrases donnée par $PMI(w_{1},w_{2})=\log _{2}\left({\frac {P(w_{1},w_{2})}{P(w_{1})P(w_{2})}}\right)$ .

L'information ponctuelle mutuelle est en fait une mesure de la corrélation entre les deux mots ou phrases $w_{1}$ et $w_{2}$ .

De nombreuses méthodes peuvent être utilisées pour estimer cette corrélation, entre autres le rapport de fréquence d'apparition conjointe sur la fréquence d'apparition seule (distance de Jaccard) ou encore le dénombrement du nombre de résultats renvoyé par un moteur en recherche.

Algorithme

L'algorithme de calcul le plus simple est celui de Turney (2002) :

extraire les groupes de mots à analyser selon les structures choisies (ci-dessus) ;
calculer l'orientation sentimentale (SO) de la structure extraite (notée ici extrait) en comparant l'information ponctuelle mutuelle donnée par deux ensembles de termes de références, un positif $w_{+}$ et l'autre négatif $w_{-}$ . $SO(extrait)={\frac {1}{N_{+}}}{\sum _{w_{+}}PMI(extrait,w_{+})-{\frac {1}{N_{-}}}\sum _{w_{-}}PMI(extrait,w_{-})}$ où $N_{+}$ et $N_{-}$ sont les tailles des ensembles de termes de références.
calculer la moyenne de toutes les orientation sentimentales présentes dans le document, puis classer le document dans la catégorie dominante.

Méthode non-supervisée : Lexiques

Ces méthodes sont quant à elles basées sur l'utilisation de lexiques de sentiments dont un des plus connus est SentiWordNet, basé sur WordNet. Le principe de ces méthodes est de permettre la catégorisation de document sans devoir disposer au préalable d'un corpus pour l'apprentissage. Cependant, bien que de nombreux mots sont connotés positivement ou négativement de manière indépendante de l'entité à laquelle ils se réfèrent, la majorité des mots seront perçus soit positivement soit négativement selon le contexte. Une maison petite sera négativement perçue alors qu'un petit taux de crédit hypothécaire sera positivement connoté.

Pour un exemple sous R, voire la page Analyse de sentiments avec R.

Extraction des termes de sentiment

Comme pour la méthode précédente, la première étape est d'extraire les structures contenant une expression potentielle de sentiment.

Une fois cette étape réalisée, il s'agit d'extraire les termes exprimant un sentiment (si existants). Cela s'effectue en plusieurs étapes :

On compare le lexique à l'extrait, affectant un score à chaque occurrence de termes de sentiment. Dans de nombreux lexiques, les termes sont notés sur une échelle relative. Par exemple, le paquet "sentiment" de R classe les termes de -5 à +5.
On applique ce que l'on appelle des "décalage de sentiment" qui ont pour fonction de prendre en compte les négations afin de ne pas confondre "il est bon" avec "il n'est pas bon". Cependant cette étape est également délicate car certaines occurrences de "pas" ne sont pas des "décalages", comme dans "non seulement il est bien, mais en plus il est merveilleux".
On traite les conjonctions de coordinations désignant une opposition, comme "mais", pour délimiter les parties des phrases dont on doit inverser la connotation (traitant la partie suivant le "mais" comme l'inverse de la connotation de la partie précédant le "mais").

Les règles déterminantes pour le décalage de sentiment et la prise en compte des oppositions sont complexes et basées sur une analyse du langage propre à chaque langue.

Des exemples de ces règles et de leur traitement peuvent être trouvés dans (Liu, 2014, section 5.2), comme

Sentiment word or phrase: This is the simplest and also the most commonly used category, in which sentiment words or phrases alone can imply positive or negative opinions on aspects,  e.g., “good” in “The voice quality is good.” These words or phrases are reduced to P and N.
9. P ::= a_positive_sentiment_word_or_phrase
10. N ::= a_negative_sentiment_word_or_phrase

Decreased and increased quantity of an opinionated item (N and P): This set of rules is similar  to the negation (or sentiment shifter) rules 3, 4, 7, and 8 above. They express that decreasing
or increasing the quantity associated with an opinionated item (often nouns and noun  phrases) can change the orientation of the sentiment. For example, in the sentence “This
drug reduced my pain significantly,” “pain” is a negative sentiment word, and the reduction of “pain” indicates a desirable effect of the drug. Thus, decreased pain implies a positive
opinion on the drug. The concept of decreasing also extends to removal and disappearance, e.g., “My pain disappeared after taking the drug.” We then have the following rules:
11. PO ::= less_or_decreased N
12. | more_or_increased P
13. NE ::= less_or_decreased P
14. | more_or_increased N

Agrégation du score

On calcule enfin un score moyen pour le document analysé (ou la phrase). Il existe de nombreuses méthodes pour ce calcul, dont voici certaines :

somme de chaque score individuel (Hu & Liu, 2004)
multiplication de chaque score individuel (positifs) (Kim & Hovy, 2004)
somme de chaque score individuel pondéré par la distance entre le terme de sentiment et le terme cible (Liu, 2014)

Niveau de la Phrase et Subjectivité

Niveau des Aspect

Lexiques pour l'analyse de sentiments

Voici quelques lexiques disponibles pour l'analyse de sentiments.

SentiWordNet	http://sentiwordnet.isti.cnr.it
General Inquirer	http://www.wjh.harvard.edu/~inquirer/
Liu's Opinion Lexicon	http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#lexicon (fichier RAR)
MPQA Subjectivity Lexicon	http://mpqa.cs.pitt.edu/lexicons/subj_lexicon/
NRC Emoticon Lexicon	http://www.saifmohammad.com/WebPages/lexicons.html
LIWC	http://www.liwc.net (payant)

Références

Esuli, A. & Sebastiani, F. (2006). SENTIWORDNET: A Publicly Available Lexical Resource for Opinion Mining. Proceedings of the 5th Conference on Language Resources and Evaluation (LREC'06) PDF
Hu, M. & Liu, B. (2004). Mining and summarizing customer reviews. In Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2004). doi:10.1145/1014052.1014073
Huifeng T., Songbo T. & Xueqi C. (2009). A survey on sentiment detection of reviews. Expert Systems with Applications, 36 10760–10773
Kim, Hyun Duk and ChengXiang Zhai. Generating comparative summaries of contradictory opinions in text. In Proceedings of ACM Conference on Information and Knowledge Management (CIKM-2009). doi:10.1145/1645953.1646004
Liu, B. (2014) Sentiment analysis and Opinion Mining. Morgan & Claypool Publ.
Mullen, T. (2004) Introduction to Sentiment Analysis (Slides du cours) PDF
Pang, B. & Lee, L. (2008) Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval, 2 PDF
Prabowo, R. & Thelwall, M. (2009). Sentiment analysis: A combined approach. Journal of Informetrics, 3 143–157
Sudipta, R., Sourish, D., Arnab, P., Saprativa, B., Anirban, D. & Deepjyoti C. (2013). Current Trends Of Opinion Mining And Sentiment Analysis In Social Networks. IJRET: International Journal of Research in Engineering and Technology, 2.
Turney, P. (2002) Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification

of reviews. In Proceedings of Annual Meeting of the Association for Computational Linguistics (AC L-2002).

Références R

Grün, B. & Hornik, K. (2011). topicmodels: An R Package for Fitting Topic Models. Journal of Statistical Software, 40. PDF

Références non académiques

Pennsyvania University Part of Speech Abreviations : Penn Treebank POS tags
Razaz, M. (2013). Sentiment classification for product reviews (Slides)

« Analyse de sentiments en text mining » : différence entre les versions

Version du 18 janvier 2015 à 21:13

Sommaire

L'analyse de sentiment

Définition formelle d'une opinion

Echelle et niveau d'analyse

Niveau du Document

Méthode Supervisée : Bayes naïf

Phase d'apprentissage

Phase de classification

Calcul de $P(w_{k}|C=c)$

Méthode non-supervisée : Information ponctuelle mutuelle

Extraction de structures

Information ponctuelle mutuelle (PMI)

Algorithme

Méthode non-supervisée : Lexiques

Extraction des termes de sentiment

Agrégation du score

Niveau de la Phrase et Subjectivité

Niveau des Aspect

Lexiques pour l'analyse de sentiments

Références

Références R

Références non académiques

Menu de navigation

« Analyse de sentiments en text mining » : différence entre les versions

Version du 18 janvier 2015 à 21:13

L'analyse de sentiment

Définition formelle d'une opinion

Echelle et niveau d'analyse

Niveau du Document

Méthode Supervisée : Bayes naïf

Phase d'apprentissage

Phase de classification

Calcul de P ( w k | C = c ) {\displaystyle P(w_{k}|C=c)}

Méthode non-supervisée : Information ponctuelle mutuelle

Extraction de structures

Information ponctuelle mutuelle (PMI)

Algorithme

Méthode non-supervisée : Lexiques

Extraction des termes de sentiment

Agrégation du score

Niveau de la Phrase et Subjectivité

Niveau des Aspect

Lexiques pour l'analyse de sentiments

Références

Références R

Références non académiques

Menu de navigation

Rechercher

« Analyse de sentiments en text mining » : différence entre les versions

Calcul de $P(w_{k}|C=c)$