« Analyse de sentiments en text mining » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Ligne 6 : Ligne 6 :
=== Définition formelle 'une opinion===
=== Définition formelle 'une opinion===
Formellement, on peut définir une opinion comme un quintuple <math>(e_i,a_{ij},s_{ijkl},h_k,t_l)</math> où
Formellement, on peut définir une opinion comme un quintuple <math>(e_i,a_{ij},s_{ijkl},h_k,t_l)</math> où
*<math>e_i</math> est '''l'entité''' au sujet de laquelle l'opinion est émise (aussi appelée objet),  
*<math>e_i</math> est '''l'entité''' au sujet de laquelle l'opinion est émise (aussi appelée objet),
*<math>a_{ij}</math> '''l'aspect''' de l'entité ''i'' qui est la cible de l'opinion (en général, plusieurs aspects pour une même entité),
*<math>a_{ij}</math> '''l'aspect''' de l'entité ''i'' qui est la cible de l'opinion (en général, plusieurs aspects pour une même entité),
*<math>h_k</math> '''l'émetteur''', c'est-à-dire la personne qui exprime l'opinion (opinion holder),
*<math>h_k</math> '''l'émetteur''', c'est-à-dire la personne qui exprime l'opinion (opinion holder),
Ligne 12 : Ligne 12 :
*et enfin <math>s_{ijkl}</math> le '''sentiment''' envers l'aspect ''j'' de l'entité ''i'', exprimée par la personne ''k'' au moment ''l''.
*et enfin <math>s_{ijkl}</math> le '''sentiment''' envers l'aspect ''j'' de l'entité ''i'', exprimée par la personne ''k'' au moment ''l''.


Souvent, ce modèle général est réduit à un modèle plus simple, en considérant que certaines informations sont soit sans influence pour l'objet d'étude, soit constantes.
Chacun de ces paramètres est de plus "catégoriel" c'est-à-dire qu'il s'appuie sur la définition d'une catégorie de mots désignant la même entité, aspect, émetteur, moment ou sentiment.
Il y a donc là encore un travail important de préprocessing qui est apparenté à la découverte de sujets (topic modelling) ou la [[Méthodes de classification en text mining|classification]]
Enfin, souvent ce modèle général est réduit à un modèle plus simple, en considérant que certaines informations sont soit sans influence pour l'objet d'étude, soit constantes.
Par exemple, on suppose souvent que les opinions sont constantes sur de suffisamment courtes périodes (quelques mois pour des tests d'appareils, mais quelques jours, voire heures pour Twitter).
Par exemple, on suppose souvent que les opinions sont constantes sur de suffisamment courtes périodes (quelques mois pour des tests d'appareils, mais quelques jours, voire heures pour Twitter).


=== Echelle et niveau d'analyse ===
=== Echelle et niveau d'analyse ===
L'analyse de sentiment "basique" se focalise sur une seule dimension : le sentiment général est-il positif ou négatif ?
L'analyse de sentiment "basique" se focalise sur une seule dimension : le sentiment général est-il positif ou négatif ?
Les techniques visant à déterminer un (ou plusieurs) sentiments généraux comme l'envie, la colère, la frustration ou la joie relèvent plus d'une forme d'adaptation des méthodes de découverte de sujet (topic discovery) ou de [[Méthodes de classification en text mining|Méthodes de classification]].
Les techniques visant à déterminer un (ou plusieurs) sentiments généraux comme l'envie, la colère, la frustration ou la joie relèvent plus d'une forme d'adaptation des méthodes de découverte de sujet (topic discovery) ou de [[Méthodes de classification en text mining|méthodes de classification]].


L'analyse peut s'effectuer à différents niveaux.
L'analyse peut s'effectuer à différents niveaux.
Ligne 25 : Ligne 27 :


== Niveau du Document ==
== Niveau du Document ==
Ce niveau cherche à découvrir les opinions émises dans un document ''d''.
Ce niveau cherche à découvrir les opinions émises dans un document ''d''.
Formellement, ce niveau correspond à la simplification du modèle général où l'on considère pas les différents aspects <math>a_{ij}</math>.


=== Méthode Supervisée ===
=== Méthode Supervisée ===
 
De manière générale, il s'agit ici d'un problème de [[Méthodes de classification en text mining|classification]] où les catégories sont "sentiment positif" et "sentiment négatif".


=== Méthode non-supervisée===
=== Méthode non-supervisée===

Version du 18 janvier 2015 à 16:27

L'analyse de sentiment

L'analyse de sentiment (parfois appelée opinion mining) est la partie du text mining qui essaye de définir les opinions, sentiments et attitudes présente dans un texte ou un ensemble de texte. Développée essentiellement depuis les années 2000, elle est particulièrement utilisé en marketing pour analyser par exemple les commentaires des internautes ou les comparatifs et tests des blogueurs ou encore les réseaux sociaux : une grande part de la littérature sur le sujet concerne par exemple les tweets. Mais elle peut également être utilisée pour sonder l'opinion publique sur un sujet, pour chercher a caractériser les relations sociales dans les forums ou encore pour vérifier si Wikipedia est bien un média neutre.

Définition formelle 'une opinion

Formellement, on peut définir une opinion comme un quintuple

  • est l'entité au sujet de laquelle l'opinion est émise (aussi appelée objet),
  • l'aspect de l'entité i qui est la cible de l'opinion (en général, plusieurs aspects pour une même entité),
  • l'émetteur, c'est-à-dire la personne qui exprime l'opinion (opinion holder),
  • le moment où est exprimée cette opinion,
  • et enfin le sentiment envers l'aspect j de l'entité i, exprimée par la personne k au moment l.

Chacun de ces paramètres est de plus "catégoriel" c'est-à-dire qu'il s'appuie sur la définition d'une catégorie de mots désignant la même entité, aspect, émetteur, moment ou sentiment. Il y a donc là encore un travail important de préprocessing qui est apparenté à la découverte de sujets (topic modelling) ou la classification Enfin, souvent ce modèle général est réduit à un modèle plus simple, en considérant que certaines informations sont soit sans influence pour l'objet d'étude, soit constantes. Par exemple, on suppose souvent que les opinions sont constantes sur de suffisamment courtes périodes (quelques mois pour des tests d'appareils, mais quelques jours, voire heures pour Twitter).

Echelle et niveau d'analyse

L'analyse de sentiment "basique" se focalise sur une seule dimension : le sentiment général est-il positif ou négatif ? Les techniques visant à déterminer un (ou plusieurs) sentiments généraux comme l'envie, la colère, la frustration ou la joie relèvent plus d'une forme d'adaptation des méthodes de découverte de sujet (topic discovery) ou de méthodes de classification.

L'analyse peut s'effectuer à différents niveaux.

  • Au niveau du document : détermine l'opinion générale de l'ensemble du document. Cette analyse fonctionne bien pour des documents qui présentent un point de vue précis, mais moins pour des comparaisons car elle ne fera pas la différence entre les sujets abordés.
  • Au niveau de la phrase : détermine l'opinion générale d'une phrase (positive, négative ou neutre). Cette analyse peut donner une mesure de la "neutralité" d'un texte par exemple pour analyser des entrées de Wikipédia. Les méthodes utilisées sont celle de l'analyse de sujectivité.
  • Au niveau des aspects (aussi appelé Feature level) : au lieu de déterminer les entités à analyser en fonction de critère structuraux (phrase, paragraphe, document) ces méthodes se basent sur un analyse de corrélation entre l'opinion émise et la cible de cette opinion. Par exemple, la phrase "Le sujet du cours me passionne mais le professeur est ennuyeux." présente deux sentiments sur l'entité "cours" : le sujet qui est perçu comme positif et le professeur, qui est perçu comme négatif. Ce niveau d'analyse permet de différencier les aspects qui sont aimé ou non par les auteurs des textes et ainsi permet plus facilement de déterminer des remédiations possibles. En revanche il est très difficile a mettre en place car extrêmement complexe.

Niveau du Document

Ce niveau cherche à découvrir les opinions émises dans un document d. Formellement, ce niveau correspond à la simplification du modèle général où l'on considère pas les différents aspects .

Méthode Supervisée

De manière générale, il s'agit ici d'un problème de classification où les catégories sont "sentiment positif" et "sentiment négatif".

Méthode non-supervisée

Niveau de la Phrase et Subjectivité

Niveau des Aspect

Références

  • Pang, B. & Lee, L. (2008) Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval, 2 PDF
  • Esuli, A. & Sebastiani, F. (2006). SENTIWORDNET: A Publicly Available Lexical Resource for Opinion Mining. Proceedings of the 5th Conference on Language Resources and Evaluation (LREC'06) PDF
  • Liu, B. (2014) Sentiment analysis and Opinion Mining. Morgan & Claypool Publ.
  • Mullen, T. (2004) Introduction to Sentiment Analysis (Slides du cours) PDF
  • Huifeng T., Songbo T. & Xueqi C. (2009). A survey on sentiment detection of reviews. Expert Systems with Applications, 36 10760–10773
  • Prabowo, R. & Thelwall, M. (2009). Sentiment analysis: A combined approach. Journal of Informetrics, 3 143–157
  • Sudipta, R., Sourish, D., Arnab, P., Saprativa, B., Anirban, D. & Deepjyoti C. (2013). Current Trends Of Opinion Mining And Sentiment Analysis In Social Networks. IJRET: International Journal of Research in Engineering and Technology, 2.

Références R

  • Grün, B. & Hornik, K. (2011). topicmodels: An R Package for Fitting Topic Models. Journal of Statistical Software

, 40. PDF

Références non académiques

  • Razaz, M. (2013). Sentiment classification for product reviews (Slides)