Sentiment Analysis & Opinion Mining€¦ · Sentiment Analysis Sentiment Classification System...
Transcript of Sentiment Analysis & Opinion Mining€¦ · Sentiment Analysis Sentiment Classification System...
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Sentiment Analysis & Opinion MiningSonja Subičin ▪ 04. Mai 2010
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Gliederung
Text Mining Sentiment Analysis & Opinion Mining System zur Sentiment Classification
System Experimente Perspektiven
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Text Mining
Input
Strukturierte Daten→ Datenbankinhalte → Datenbanksysteme, Data Mining
Unstrukturierte Daten → Information Retrieval, Text Mining→ Texte
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Text Mining
Wissensgenerierung aus Text
Text Mining ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
* Abbildung dem Sinn nach entnommen aus Heyer (2006: 5).
*
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Text Mining
Wissensgenerierung aus Text
Text Mining ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
* Abbildung dem Sinn nach entnommen aus Heyer (2006: 5).
*
NLP-Methoden
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Text Mining
Wissensgenerierung aus Text
Text Mining ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
* Abbildung dem Sinn nach entnommen aus Heyer (2006: 5).
*
StatistischeMethoden
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Text Mining
Sentiment Analysis & Opinion Mining
Wissensgenerierung aus Text
Anstelle von Fakten → Sentiment / Meinung
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
* Abbildung dem Sinn nach entnommen aus Heyer (2006: 5).
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Sentiment Analysis & Opinion Mining
Sentiment vs. Meinung
subjectivity
sentiment
SentimentPolarität
Meinungpolarity
(semantic) orientation
direction
affectprivate statepoint of view
attitudecolouring
stanceemotion
appraisal
opinion
perspective
tone
modulation
intent
subjective
positive thumbs up
thumbs down
good
bad
neutralnon-neutral
sentiment-bearingopinion-bearing
recommended
not recommendedbalanced
mixed negative
objective
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Sentiment Analysis & Opinion Mining
Anwendungen
Kundenzufriedenheit „Meinungssuche“, Vergleich von Produkten „Objekt x vs. Objekt y“ Tracking von Meinungen → Trends www.textmap.com Werbung Argumente Verbesserung von Text Mining-Tools
Review Spam Detection Wortsinndisambiguierung Semantischen Textanalyse Question Answering
u. v. m.
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
* Abbildung dem Sinn nach entnommen aus Heyer (2006: 5).
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Sentiment Analysis & Opinion Mining
Usergenerierter Content
Mein Tipp ich habe über die TV Karte den Projektor laufen und den Sound vom
Compi auf dem Suround Versterker das gibt einfach nen genialen Effekt für Spiele
in verbindung mit ein wenig Funk Zubehör mit dem man dann die Spiele steuert
wird es so als wenn man sich im Compi bewegt !
;-) - gute N8 - !!!!!!!!!- suuuuuuuuuuuper - imo - ---(°v°)---
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Sentiment Analysis & Opinion Mining
Verortung von Subjektivität & Sentiment
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
(Atomare) Träger von Subjektivität / Sentimentträger
genial
weiterempfehlen
Katastrophe
mollig warm / warmes Bier
(sinn)-los
nach Strich und Faden
SEHR !!!!
;)
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Word Sentence Sentiment Classification Document
(Feature Based) Opinion Mining
Subjectivity Analysis
Sentiment Analysis & Opinion Mining
Teilbereiche
SC
OM
SubjektivitätSentimentPolarität
„Meinung“
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Ermittlung atomarer Sentimentträger → Lexikonerstellung Qualitätsadjektive Substantive Idiome … Muster
Clustering oder Klassifikation Häufig Bootstrapping-Methoden mit kleinem Anfangsset
Problem: Verschiedene Domänen→ Gibt es ein generisches Sentimentlexikon?
Sentiment Analysis & Opinion Mining
Word Sentiment Classification
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Sentiment Analysis & Opinion Mining
Document Sentiment Classification
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
*
* Abbildung dem Sinn nach übernommen aus Brückner (2001: 442).
Sentiment Classification Häufig nur wenige Klassen Trotzdem schwieriger
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Sentiment Analysis & Opinion Mining
Document Sentiment Classification
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
*
* Abbildung dem Sinn nach übernommen aus Brückner (2001: 442).
Datensets Filmrezensionen Produktbewertungen Blogs ...
Klassifikation SVM Naive Bayes MEM Arithmetische Verfahren Tw. Subjectivity Classifier
vorgeschaltet
Merkmalsset Unigramme Bigramme Adjektive Negations- und
Intensitätspartikel Lexikonbasiert Komplexe Merkmalssets Kombination
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Klassifikation von Sätzen in gut / schlecht / neutral subjektiv / objektiv
Klassifikationsverfahren / Clusteringverfahren
Sentiment Analysis & Opinion Mining
Sentence Sentiment Classification
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Das Essen war ein Traum.
Es war wie in einem schlechten Film.
Hut ab! So etwas muss man erstmal hinkriegen. ???
Außer den praktischen Check-In Bedingungen (per Code-System) gibt es an diesem Hotel nichts gutes. Häßliche Einrichtung, GEstank, und Autobahnlärm sind die TReffendsten Beschreibungen für dieses Hotel. (..) einiges gewöhnt, aber selbst in Vietnam hätte dieses Hotel die schlechteste Kategorie und ich würde es nicht besser bewerten. → ???
Sentiment Analysis & Opinion Mining
Feature Based Opinion Mining
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Magisterarbeit Text Mining zur Analyse von
Produktbewertungen
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
29%
20%8% 6%
5%5%4%
3%2%
2%16%
Evaluation
Vergleichbarkeit Domänenabhängigkeit Ressourcen Sprachen im Internet
1 Englisch2 Chinesisch3 Spanisch4 Japanisch5 Französisch6 Portugiesisch
7 Deutsch8 Arabisch9 Russisch10 KoreanischRestl. Sprachen
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
* Daten übernommen von Internet World Stats http://www.internetworldstats.com/ (Stand: Mai 2009).
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
System zur Evaluation
Reproduzierbare Rahmenbedinungenfür Experimente
Konfiguration Datenset Merkmalsset Classifier
Erweiterbarkeit Ergebnispräsentation Austauschbarkeit einzelner Module
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Systemarchitektur
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Datenexploration
Spanien
Türkei
Österreich
Italien
USA
Griechenland
Thailand
Frankreich
Schweiz
Großbritannien
Sonstige
0 1000 2000 3000 4000
3419
1810
1798
1300
875
720
710
563
533
425
2015
DigitalkamerasHandys
MP3-PlayerDVD-PlayerNotebooksKopfhörer
CamcorderLCD-Fernseher
ReceiverAutolautsprecher
Beamer
0 2000 4000 6000 8000 10000
83918388
32432425
21731215
846620551
212186
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Autolautsprecher
Beamer
Camcorder
Digitalkameras
DVD-Player
Handys
Kopfhörer
LCD-Fernseher
MP3
Notebooks
Receiver
0% 20% 40% 60% 80% 100%
54321
Spanien
Türkei
Österreich
Italien
USA
Griechenland
Thailand
Frankreich
Schweiz
Großbritannien
Sonstige
0% 20% 40% 60% 80% 100%
10987654321
Sentimentwerte
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Kategorisierung
AutolautsprecherBeamer
CamcorderDigitalkameras
DVD-PlayerHandys
KopfhörerLCD-Fernseher
MP3Notebooks
Receiver
0% 50% 100%
Spanien
Österreich
USA
Thailand
Schweiz
Sonstige
0% 50% 100%
negativ positiv
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Mögliche Settings
Datenset Anzahl der Texte Trainings- und Testset bzw. Cross-Validation Kategorien Verteilung Sentimentwerte im Trainingsset
zufällig normalisiert: 50% positiv / 50% negativ
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Mögliche Settings
Merkmalsberechnung Adjektive Adjektive + Negierte Adjektive Unigramme (Lemmata)
Dimensionsreduktion Häufigkeit Nur die letzten x Wörter eines Textes
Klassifikation Naive Bayes SVM
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Experimenten-Setup
12 Datenset-Konfigurationen
Merkmalsberechnung Nur ADJ ADJ + NEG Unigramme
Klassifikation Naive Bayes SVM
Merkmalsauswahl Alle Merkmale Häufigkeit >= 5 Häufigkeit >= 10 Häufigkeit >= 5 UND
nur die letzten 25 Wörter
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Ergebnisse (Auszug)
Datenset Trainingsset nicht
normalisiert→ ● Accuracy 81% - 92% F-Maß positive Instanzen
deutlich besser Trainingset normalisiert
(50/50) → ● Accuracy 69% - 79% F-Maß positive und
negative Instanzen ähnlich
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Digitalkamera in Trainings-
und Testset → ● Accuracy 79% - 88% F-Maß positive Instanzen
besser Digitalkamera im Trainingsset,
LCD im Testset → ● Accuracy 73% - 92% F-Maß positive Instanzen
besser keine negative Instanz richtig
klassifiziert → ●
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Ergebnisse (Auszug)
Merkmalsset Häufigste Unigramme → ● Negation → ● Nur Adjektive → ● „Letzter Abschnitt“ → ●
Klassifikation Naive Bayes → ●
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven
Sentiment Analysis & Opinion Mining ▪ Sonja Subicin ▪ 5. Mai 2010
Perspektiven
Weiterentwicklung Ressourcen Merkmalsauswahl Classifier
Featurebasierte Ansätze → Informationsextraktion
Verwendung von Ontologien
Sentiment Analysis ▪ Sentiment Classification ▪ System ▪ Experimente ▪ Perspektiven