Analyse de sentiments en text mining
L'analyse de sentiment
L'analyse de sentiment (parfois appelée opinion mining) est la partie du text mining qui essaye de définir les opinions, sentiments et attitudes présente dans un texte ou un ensemble de texte. Développée essentiellement depuis les années 2000, elle est particulièrement utilisé en marketing pour analyser par exemple les commentaires des internautes ou les comparatifs et tests des blogueurs ou encore les réseaux sociaux : une grande part de la littérature sur le sujet concerne par exemple les tweets. Mais elle peut également être utilisée pour sonder l'opinion publique sur un sujet, pour chercher a caractériser les relations sociales dans les forums ou encore pour vérifier si Wikipedia est bien un média neutre.
Echelle et niveau d'analyse
L'analyse de sentiment "basique" se focalise sur une seule dimension : le sentiment général est-il positif ou négatif ? Les techniques visant à déterminer un (ou plusieurs) sentiments généraux comme l'envie, la colère, la frustration ou la joie relèvent plus d'une forme d'adaptation des méthodes de découverte de sujet (topic discovery) ou de Méthodes de classification.
L'analyse peut s'effectuer à différents niveaux.
- Au niveau du document : détermine l'opinion générale de l'ensemble du document. Cette analyse fonctionne bien pour des documents qui présentent un point de vue précis, mais moins pour des comparaisons car elle ne fera pas la différence entre les sujets abordés.
- Au niveau de la phrase : détermine l'opinion générale d'une phrase (positive, négative ou neutre). Cette analyse peut donner une mesure de la "neutralité" d'un texte par exemple pour analyser des entrées de Wikipédia. Les méthodes utilisées sont celle de l'analyse de sujectivité.
- Au niveau des aspects (aussi appelé Feature level) : au lieu de déterminer les entités à analyser en fonction de critère structuraux (phrase, paragraphe, document) ces méthodes se basent sur un analyse de corrélation entre l'opinion émise et la cible de cette opinion. Par exemple, la phrase "Le sujet du cours me passionne mais le professeur est ennuyeux." présente deux sentiments sur l'entité "cours" : le sujet qui est perçu comme positif et le professeur, qui est perçu comme négatif. Ce niveau d'analyse permet de différencier les aspects qui sont aimé ou non par les auteurs des textes et ainsi permet plus facilement de déterminer des remédiations possibles. En revanche il est très difficile a mettre en place car extrêmement complexe.
Niveau du Document
Méthode Supervisée
Méthode non-supervisée
Niveau de la Phrase et Subjectivité
Niveau des Aspect
Références
- Pang, B. & Lee, L. (2008) Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval, 2 PDF
- Esuli, A. & Sebastiani, F. (2006). SENTIWORDNET: A Publicly Available Lexical Resource for Opinion Mining. Proceedings of the 5th Conference on Language Resources and Evaluation (LREC'06) PDF
- Liu, B. (2014) Sentiment analysis and Opinion Mining. Morgan & Claypool Publ.
- Mullen, T. (2004) Introduction to Sentiment Analysis (Slides du cours) PDF
- Huifeng T., Songbo T. & Xueqi C. (2009). A survey on sentiment detection of reviews. Expert Systems with Applications, 36 10760–10773
- Prabowo, R. & Thelwall, M. (2009). Sentiment analysis: A combined approach. Journal of Informetrics, 3 143–157
- Sudipta, R., Sourish, D., Arnab, P., Saprativa, B., Anirban, D. & Deepjyoti C. (2013). Current Trends Of Opinion Mining And Sentiment Analysis In Social Networks. IJRET: International Journal of Research in Engineering and Technology, 2.
Références R
- Grün, B. & Hornik, K. (2011). topicmodels: An R Package for Fitting Topic Models. Journal of Statistical Software
, 40. PDF
Références non académiques
- Razaz, M. (2013). Sentiment classification for product reviews (Slides)