Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La...

11
Introduzione alla Sentiment Analysis La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico di quei testi non strutturati che contengono dati non fattuali. L’oggetto d’analisi della SA riguarda, dunque, la sfera delle opinioni e delle emozioni espresse linguisticamente. Il contesto che ha favorito la crescita di interesse, accademico e commerciale, attorno al fenomeno della SA può essere descritto in pochi punti: l’espansione dell’e-commerce (Matthews et al., 2001); la crescita dei contenuti generati dagli utenti (forum, discussion group, blog, social media, review website, aggregation site) (Pang and Lee, 2008a), l’esplosione di algoritmi e metodi “learning”, il riconoscimento dell’importanza dell’on-line Word of Mouth (eWOM) (Chu and Kim, 2011); il fenomeno del costumer empowerment (Vollero 2010); le difficoltà nel trattamento automatico dei Big Data. Le stesse precondizioni hanno causato negli ultimi dieci anni una crescita di interesse altrettanto veloce, nell’ambito degli studi economici e di marketing, intorno alle possibili influenze che la condivisione massiccia di opinioni positive o negative on-line possa avere sulle decisioni d’acquisto di (potenziali e reali) clienti, con particolare attenzione alla sfera dei cosiddetti experience goods, ovvero quei beni la cui qualità può essere valutata solamente dopo l’acquisto (Nakayama et al., 2010). In questi studi viene esaminato il problema delle possibili “asimmetrie informative” che riguarda la difficoltà nella condivisione e nella ricerca di informazioni esaustive riguardo a experience e search goods. In questo scenario la SA si presenta come una possibile e auspicabile soluzione rispetto al tanto discusso problema dell’information overload: in un epoca in cui risulta sempre più difficile estrarre valore dal caos dei Big Data, in particolar modo quando il valore è nascosto nella parte non strutturata di questi dati, è indispensabile che le aziende riescano a dotarsi di sistemi in grado di monitorare la reputazione aziendale e che gli utenti (e clienti) possano effettuare le loro scelte d’acquisto solo dopo aver verificato l’effettiva qualità del prodotto o del servizio oggetto del loro interesse. In questa dispensa affronteremo il tema del trattamento automatico delle opinioni espresse negli user generated contents e, dopo una breve disamina dello stato dell’arte sui principali task e problemi aperti nel campo della SA, illustreremo nel dettaglio le risorse costruite ad hoc per la lingua italiana e la metodologia rule-based messa a punto per l’analisi dei sentimenti. Alcune definizioni Sentiment Analysis, Opinion Mining, Subjectivity Analysis, Review Mining, Appraisal Extraction, Affective Computing, sono le espressioni più diffuse in letteratura per riferirsi al trattamento delle emozioni, delle opinioni e, più in generale, della soggettività espresse nei testi liberi ( raw texts). L’obiettivo comune a tutti questi task è mettere la macchina nella condizione di riconoscere, analizzare e “comprendere” le espressioni soggettive e i dati non fattuali escludendo (o semplicemente limitando) l’intervento umano. La soggettività è strettamente connessa con l’espressione di stati psicologici o di convinzioni personali suscitate da specifici eventi, persone o oggetti. La differenza sostanziale rispetto al dato oggettivo riguarda l’impossibilità di una verifica fattuale del contenuto del dato soggettivo. Tuttavia, né il dato fattuale, né il dato soggettivo implica necessariamente il concetto di “verità”, perché ciò esula dall’inter esse e dal campo d’azione della teoria linguistica della soggettività (Wiebe 2004).

Transcript of Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La...

Page 1: Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico

Introduzione alla Sentiment Analysis

La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico di quei testi non

strutturati che contengono dati non fattuali. L’oggetto d’analisi della SA riguarda, dunque, la sfera delle

opinioni e delle emozioni espresse linguisticamente.

Il contesto che ha favorito la crescita di interesse, accademico e commerciale, attorno al fenomeno della SA

può essere descritto in pochi punti: l’espansione dell’e-commerce (Matthews et al., 2001); la crescita dei

contenuti generati dagli utenti (forum, discussion group, blog, social media, review website, aggregation

site) (Pang and Lee, 2008a), l’esplosione di algoritmi e metodi “learning”, il riconoscimento dell’importanza

dell’on-line Word of Mouth (eWOM) (Chu and Kim, 2011); il fenomeno del costumer empowerment

(Vollero 2010); le difficoltà nel trattamento automatico dei Big Data.

Le stesse precondizioni hanno causato negli ultimi dieci anni una crescita di interesse altrettanto veloce,

nell’ambito degli studi economici e di marketing, intorno alle possibili influenze che la condivisione

massiccia di opinioni positive o negative on-line possa avere sulle decisioni d’acquisto di (potenziali e reali)

clienti, con particolare attenzione alla sfera dei cosiddetti experience goods, ovvero quei beni la cui qualità

può essere valutata solamente dopo l’acquisto (Nakayama et al., 2010). In questi studi viene esaminato il

problema delle possibili “asimmetrie informative” che riguarda la difficoltà nella condivisione e nella ricerca

di informazioni esaustive riguardo a experience e search goods.

In questo scenario la SA si presenta come una possibile e auspicabile soluzione rispetto al tanto discusso

problema dell’information overload: in un epoca in cui risulta sempre più difficile estrarre valore dal caos

dei Big Data, in particolar modo quando il valore è nascosto nella parte non strutturata di questi dati, è

indispensabile che le aziende riescano a dotarsi di sistemi in grado di monitorare la reputazione aziendale e

che gli utenti (e clienti) possano effettuare le loro scelte d’acquisto solo dopo aver verificato l’effettiva

qualità del prodotto o del servizio oggetto del loro interesse.

In questa dispensa affronteremo il tema del trattamento automatico delle opinioni espresse negli user

generated contents e, dopo una breve disamina dello stato dell’arte sui principali task e problemi aperti nel

campo della SA, illustreremo nel dettaglio le risorse costruite ad hoc per la lingua italiana e la metodologia

rule-based messa a punto per l’analisi dei sentimenti.

Alcune definizioni

Sentiment Analysis, Opinion Mining, Subjectivity Analysis, Review Mining, Appraisal Extraction, Affective

Computing, sono le espressioni più diffuse in letteratura per riferirsi al trattamento delle emozioni, delle

opinioni e, più in generale, della soggettività espresse nei testi liberi (raw texts). L’obiettivo comune a tutti

questi task è mettere la macchina nella condizione di riconoscere, analizzare e “comprendere” le espressioni

soggettive e i dati non fattuali escludendo (o semplicemente limitando) l’intervento umano.

La soggettività è strettamente connessa con l’espressione di stati psicologici o di convinzioni personali

suscitate da specifici eventi, persone o oggetti. La differenza sostanziale rispetto al dato oggettivo riguarda

l’impossibilità di una verifica fattuale del contenuto del dato soggettivo. Tuttavia, né il dato fattuale, né il

dato soggettivo implica necessariamente il concetto di “verità”, perché ciò esula dall’interesse e dal campo

d’azione della teoria linguistica della soggettività (Wiebe 2004).

Page 2: Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico

Una famosa definizione del concetto di opinione, coerente con gli scopi del Natural Language Processing

(NLP) è quella fornita da Liu (2010), che la descrive come una quintupla:

oj, fjk, ooijkl, hi, tl

In cui:

oj è l’oggetto sul quale viene espressa l’opinione;

fjk rappresenta le caratteristiche (features) dell’oggetto;

ooijkl è l’orientamento (positivo o negativo) dell’opinione;

hi è opinion holder, colui che esprime l’opinione;

tl rappresenta il tempo in cui l’opinione viene espressa.

In questo documento e nella nostra ricerca l’aspetto che riveste il ruolo centrale è l’Orientamento Semantico

(OS) delle espressioni soggettive. Come verrà spiegato più avanti nella Sezione Metodologia, la soluzione

che proponiamo è basata sull’idea che l’OS di un testo sia in qualche modo legato al lessico utilizzato in quel

testo (Taboada 2011). Tuttavia, non si può assolutamente affermare che l’OS di un testo sia coincidente con

la somma del significato delle singole componenti lessicali che lo formano.

Definiremo Prior Polarity la polarità positiva o negativa che caratterizza le parole orientate del lessico di

sentimenti indipendentemente da qualsiasi contesto (Osgood 1952). L’OS delle espressioni di sentimento

(sintagmi, frasi o interi testi) è frutto dell’interazione della Prior Polarity delle parole polarizzate con il

contesto locale e testuale in cui tali parole ricorrono.

Background Teorico

Gli approcci più utilizzati nell’ambito degli studi sulla SA possono essere individuate tre principali linee

d’azione: i metodi basati sul lessico, i metodi basati sul machine learning, e i metodi ibridi.

Per quanto riguarda la prima linea di ricerca, indichiamo, tra i lessici di sentimento più citati in letteratura

quelli elencati nelle Tabelle 1 e 2. Nella prima tabella indichiamo i lessici costruiti manualmente, nella

seconda alcuni tra quelli costruiti più o meno automaticamente. Solitamente i primi hanno una dimensione

più ridotta dei secondi, ma, garantendo una maggiore accuratezza, consentono di raggiungere risultati

migliori, soprattutto nella SA realizzata su differenti domini della conoscenza (Taboada 2011).

L’estensione dei lessici, invece non è sempre sinonimo di qualità, anzi, potrebbe comportare un indesiderato

aumento di falsi positivi.

Tra i contributi più significativi sulle possibili influenze del contesto sulla Prior Polarity dei Contextual

Valence Shifters menzioniamo Pang e Lee (2008), Kennedy e Inkpen (2006); Polanyi e Zaenen (2006),

Neviarouskaya (2009).

Più nel dettaglio, citiamo i lavori di Quirk et al. (1985), Polanyi e Zaenen (2006), Kennedy and Inkpen

(2006), Taboada et al. (2011) per quanto riguarda il problema dell’intensificazione e del downtoning; i lavori

di Meier (2003) e Schwarzschild (2008) sugli Excess Quantifiers; Panf e Lee (2004), Jia (2009), Wiegand e

al. (2010), Wilson (2005, 2009), Moilanen (2007), Benamara (2012), Socher (2013) e ancora Kennedy e

Inkpen (2006); Polanyi e Zaenen (2006) e Taboada (2011) sul problema del Negation Modeling.

Page 3: Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico

Inoltre, nell’ambito della riflessione sulle molteplici facce della “modalità”, sono da ricordare i lavori di

Benamara (2012), Dalianis and Skeppstedt (2010); Desclés et al. (2010); Vincze et al. (2008) sul task

relativo allo Speculative Language Detection, il contributo di Lakoff (1973), di Ganter e Strube, (2009); e di

Zhao et al. (2010) sull’Hedge Detection, l’articolo di Taboada (2011) in tema di Irrealis Bloking, e quello di

Rubin (2010) sull’Uncertainty Detection (Rubin, 2010).

Tabella 1 Lessici di sentimento costruiti manualmente

Tabella 2 Lessici di sentimento costruiti (semi-)automaticamente

Infine, per quanto riguarda il problema delle opinioni comparative, citiamo i lavori di Jindal e Liu (2006a,b),

Fiszman et al. (2007) e Yang e Ko (2011). Di particolare interesse, in questo task, è il contributo di

Ganapathibhotla (2008), che focalizza l’attenzione sulla questione dell’individuazione e nella classificazione

dell’entità preferita nelle frasi comparative.

Per quanto riguarda l’analisi delle forme superlative, menzioniamo l’articolo di Bos (2006), che fonda

l’analisi delle superlative sulla caratterizzazione di un comparison set, ovvero gli insiemi di entità che

vengono confrontate l'una con l'altra rispetto ad una certa dimensione.

Per quanto riguarda i metodi statistici, possiamo dire che gli algoritmi di classificazione più utilizzati in

apprendimento sono Support Vector Machines e Naïve Bayes.

Ricordiamo, tra i tanti, i lavori di Tan et al. (2009) e Kang et al. (2012), Pang et al. (2002), Mullen e Collier

(2004), Ye et al. (2009), Pang and Lee (2004), Bespalov et al. (2011), Nakagawa et al. (2010), Yessenalina e

Cardie (2011), Socher et al. (2013, Turney (2002) e (Liu, 2012).

Tra gli autori che hanno preferito metodi ibridi citiamo, invece, Adreevskaia e Bergler (2008), Dasgupta e

Ng (2009), Goldberg e Zhu (2006) e Prabowo e Thelwall (2009).

Page 4: Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico

Un esempio di analisi linguistica di un testo orientato semanticamente

In basso mostriamo un esempio di Sentiment Analysis (basata sulle risorse e sulle regole presentate in questo

documento) di un breve testo che si sviluppa a partire dal livello morfologico, fino ad arrivare al computo

della polarità dell’intero documento:

«È indiscutibile la bellezza della protagonista. Non è affatto male l’interpretazione degli attori. Questo

film poteva essere di gran lunga migliore del precedente, ma, nel complesso, è stato noiosissimo.»

Fase 1: Individuazione degli indicatori morfologici e lessicali

Come mostrato nella Tabella 3, il primo livello d’analisi è rappresentato dal matching nel testo delle parole

contenute nel lessico. Se il calcolo dell’orientamento del testo fosse basato soltanto dalla somma delle Prior

Polarities delle parole polarizzate, l’OS riceverebbe un punteggio di -1 (+2,-2,-3,+2), che come è facile

osservare da una veloce lettura del testo, non coincide assolutamente con il giudizio espresso dall’opinion

holder.

Tabella 3 Indicatori Sentiment Analysis

Indizi morfologici e lessicali Tag Esempi

PAROLE POLARIZZATE [da -3 a +3] 𝒃𝒆𝒍𝒍𝒆𝒛𝒛𝒂[+𝟐], 𝒎𝒂𝒍𝒆[−𝟐], 𝒏𝒐𝒊𝒐𝒔𝒐[−𝟏] , 𝒎𝒊𝒈𝒍𝒊𝒐𝒓𝒆[+𝟐]

INTENSIFICATORI (PAROLE) [+, -] 𝒅𝒊𝒔𝒄𝒖𝒕𝒊𝒃𝒊𝒍𝒆[−], 𝒂𝒇𝒇𝒂𝒕𝒕𝒐[+], 𝒅𝒊 𝒈𝒓𝒂𝒏 𝒍𝒖𝒏𝒈𝒂[+]

CONTEXTUAL VALENCE

SHIFTER (PAROLE)

[NEGAZIONE,

COMPARAZIONE,

MODALITÀ ]

𝒏𝒐𝒏[NEGAZIONE], 𝒂f𝒇𝒂𝒕𝒕𝒐[NEGAZIONE], 𝒎𝒊𝒈𝒍𝒊𝒐𝒓𝒆 𝒅𝒊[COMPARAZIONE], 𝒑𝒐𝒕𝒆𝒗𝒂[MODALITÀ]

DISCOURSE MARKERS [INVERTI, SINTETIZZA,

CONFERMA] 𝒎𝒂[INVERTI], 𝒏𝒆𝒍 𝒄𝒐𝒎𝒑𝒍𝒆𝒔𝒔𝒐[SINTETIZZA]

INDICATORI DI NEGAZIONE

(MORFEMI) [NEGAZIONE] 𝒊𝒏−[NEGAZIONE]

INDICATORI DI INTENSITÀ

(MORFEMI) [+,-] −𝒊𝒔𝒔𝒊𝒎𝒐[+]

Fase 2: Analisi morfologica: valutazione delle co-occorrenze tra morfemi

Le risorse che prendiamo in considerazione in questa documento includono l’analisi dei morfemi, come è

possibile verificare negli esempi in basso:

a) (𝑁𝐸𝐺𝐴𝑇𝐼𝑂𝑁 + 𝐼𝑁𝑇𝐸𝑁𝑆𝐼𝐹𝐼𝐸𝑅[−])[+]

→ 𝒆. 𝒈. (𝒊𝒏[𝑵𝑬𝑮𝑨𝑻𝑰𝑶𝑵] − 𝒅𝒊𝒔𝒄𝒖𝒕𝒊𝒃𝒊𝒍𝒆[−])[+]

b) (𝑃𝑂𝐿𝐴𝑅𝐼𝑍𝐸𝐷 𝑊𝑂𝑅𝐷[+2] + 𝐼𝑁𝑇𝐸𝑁𝑆𝐼𝐹𝐼𝐸𝑅[+])[+3]

→ 𝒆. 𝒈. (𝒃𝒆𝒍𝒍[+𝟐] − 𝒊𝒔𝒔𝒊𝒎𝒐[+])[+𝟑]

Fase 3: Sentence-level sentiment analysis:

Una delle fasi più delicate è rappresentata dall’analisi delle co-occorrenze tra lemmi (o sintagmi)

appartenenti a diverse classi di indicatori. L’ordine di applicazione delle regole non è né casuale, né banale e,

soprattutto, non è sempre legato ad un discorso di dipendenze sintattiche (vedi Figura 1).

Page 5: Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico

Ad esempio, nel sintagama “non è affatto male”, la cui annotazione sentiment è descritta in (c), affinché la

valutazione del gruppo di parole sia corretta (in questo caso, positiva con punteggio +2), l’ordine di

applicazione delle regole NON deve seguire la vicinanza/lontananza delle dipendenze (come si può notare

nell’esempio (c.1) in cui negando un sintagma +1 otteniamo un punteggio sbagliato (per consultare tutte le

regole di negazione, vedi Appendice 1). Nel caso della negazione, per la lingua italiana, deve

necessariamente essere valutata prima la co-occorrenza tra diversi indicatori di negazione, dato che la doppia

negazione ha natura intensiva. Come si può verificare nelle Regole di negazione 7 e 8 (vedi Tabella 4),

infatti, la negazione produce effetti differenti sulle parole (o sintagmi) polarizzati a seconda che sia più o

meno intensa, vedi esempio (c.2).

𝑐) ((𝑁𝐸𝐺𝐴𝑇𝐼𝑂𝑁 + 𝑁𝐸𝐺𝐴𝑇𝐼𝑂𝑁)[𝑆𝑇𝑅𝑂𝑁𝐺 𝑁𝐸𝐺𝐴𝑇𝐼𝑂𝑁] + 𝑃𝑂𝐿𝐴𝑅𝐼𝑍𝐸𝐷 𝑊𝑂𝑅𝐷[−2])[+2]

→ 𝒆. 𝒈. ((𝒏𝒐𝒏[𝑵𝑬𝑮𝑨𝑻𝑰𝑶𝑵] + è 𝒂𝒇𝒇𝒂𝒕𝒕𝒐[𝑵𝑬𝑮𝑨𝑻𝑰𝑶𝑵])[𝑺𝑻𝑹𝑶𝑵𝑮 𝑵𝑬𝑮𝑨𝑻𝑰𝑶𝑵]

+ 𝒎𝒂𝒍𝒆[−𝟐])[+𝟐]

Figura 1 analisi delle dipendenze sintattiche di una doppia negazione

c.1) valutazione errata: (Non[NEGAZIONE] è (affatto[NEGAZIONE] male[-2])[+1])[-2]

c.2) valutazione corretta: ((Non[NEGAZIONE] è affatto[NEGAZIONE])[NEGAZIONE INTENSA] male[-2])[+2]

Tabella 4 Regole di negazione 7 e 8

Regol

a N.

Esempio CVS

Indicatori polarizzati

Parole negative Parole

neutrali Parole positive

osceno cafone distratto colorato carino buono prodigioso

1 PRIOR POLARITY -3 -2 -1 0 1 2 3

7 non + affatto 1 2 2 0 -3 -3 -2

8 non + molto -1 -1 1 0 -2 -1 -1

Nell’esempio (d) mostriamo, invece, un esempio di combinazione di Contextual Valence Shifters che segue

le regole n. 11 (che modifica la Prior Polarity di migliore da +2 a +3) e la regola n.24, che sposta

ulteriormente il punteggio da +3 a -1 (Vedi Tabella 5).

𝑑) (𝑀𝑂𝐷𝐴𝐿[𝑝𝑜𝑡𝑒𝑟𝑒] + 𝑇𝐸𝑁𝑆𝐸[𝑖𝑛𝑑𝑖𝑐𝑎𝑡𝑖𝑣𝑒 𝑖𝑚𝑝𝑒𝑟𝑓𝑒𝑐𝑡] + (𝐼𝑁𝑇𝐸𝑁𝑆𝐼𝐹𝐼𝐸𝑅[+] + (𝐶𝑂𝑀𝑃𝐴𝑅𝐴𝑇𝐼𝑉𝐸[𝑖𝑛𝑐𝑟𝑒𝑎𝑠𝑖𝑛𝑔] + 𝑃𝑂𝐿𝐴𝑅𝐼𝑍𝐸𝐷 𝐸𝑋𝑃𝑅𝐸𝑆𝑆𝐼𝑂𝑁 [+2] )[+2 𝑒𝑛𝑡𝑖𝑡𝑦1]

)[+3 𝑒𝑛𝑡𝑖𝑡𝑦1]

)

[−1 𝑒𝑛𝑡𝑖𝑡𝑦1]

→ 𝒆. 𝒈. (𝒑𝒐𝒕𝒆𝒗𝒂[𝑴𝑶𝑫𝑨𝑳 𝑰𝒏𝒅𝒊𝒄𝒂𝒕𝒊𝒗𝒆 𝑰𝒎𝒑𝒆𝒓𝒇𝒆𝒄𝒕]𝒆𝒔𝒔𝒆𝒓𝒆 ((𝒅𝒊 𝒈𝒓𝒂𝒛𝒊𝒆 𝒍𝒖𝒏𝒈𝒂)[+](𝒎𝒊𝒈𝒍𝒊𝒐𝒓𝒆 𝒅𝒊[𝑪𝑶𝑴𝑷𝑨𝑹𝑨𝑻𝑰𝑽𝑬 +𝟐] 𝒊𝒍 𝒑𝒓𝒆𝒄𝒆𝒅𝒆𝒏𝒕𝒆)[+𝟐 𝒆𝒏𝒕𝒊𝒕𝒚𝟏]

)[+𝟑 𝒆𝒏𝒕𝒊𝒕𝒚𝟏]

)

[−𝟏 𝒆𝒏𝒕𝒊𝒕𝒚𝟏]

Page 6: Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico

Tabella 5 Regole 11 e 25

Regol

a N.

Esempio CVS

Indicatori polarizzati

Parole negative Parole

neutrali Parole positive

osceno cafone distratto colorato carino buono prodigioso

1 PRIOR POLARITY -3 -2 -1 0 1 2 3

11 molto + più -3 -3 -2 0 2 3 3

25 poteva essere più -1 -1 1 0 -1 -2 -1

In quest ultimo esempio esiste una gerarchia nell’applicazione delle regole, che si rifà al numero delle regole

(i.e. viene applicata prima la regola indicata da un numero con un valore più basso, in questo caso, prima la

11 e poi la 25).

Fase 3: document-level analysis

In questa fase si effettua un matching nel testo dei cosiddetti Discourse Markers, ovvero quegli indicatori

lessicali in grado di modificare l’orientamento semantico di gruppi di frasi o di interi testi. Se il calcolo

dell’orientamento semantico si basasse soltanto sulla mera somma degli orientamenti posseduti dalle frasi e

dai sintagmi orientati localizzati nel testo, il risultato sarebbe di nuovo fallace (+1 dato dai punteggi +3,+2,-

1,-3). Invece, l’applicazione delle regole 34 e 35 (vedi Tabella 6) porta l’OS da +1 -2.

(𝑃𝑂𝐿𝐴𝑅𝐼𝑍𝐸𝐷 𝑇𝐸𝑋𝑇[+1] + 𝐷𝐼𝑆𝐶𝑂𝑈𝑅𝑆𝐸 𝑀𝐴𝑅𝐾𝐸𝑅[𝑅𝐸𝑉𝐸𝑅𝑆𝐸] + 𝐷𝐼𝑆𝐶𝑂𝑈𝑅𝑆𝐸 𝑀𝐴𝑅𝐾𝐸𝑅[𝑆𝑈𝑀𝑀𝐴𝑅𝐼𝑍𝐸])[−2]

Tabella 6 Regole 34 e 35

Regol

a N.

Esempio CVS

Indicatori polarizzati

Parole negative Parole

neutrali Parole positive

osceno cafone distratto colorato carino buono prodigioso

1 PRIOR POLARITY -3 -2 -1 0 1 2 3

34 però -1 1 1 0 -2 -2 -1

35 in conclusione -3 -2 -1 0 1 2 3

Page 7: Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico

Bibliografia Sentiment Analysis

Agerri, R. and García-Serrano, A. (2010). Q-WordNet: Extracting polarity fromWordNet senses. In

Proceedings of the International Conference on Language Resources and Evaluation, pages 2300–2305.

Benamara, F., Chardon, B., Mathieu, Y., Popescu, V., and Asher, N. (2012). How do negation and

modality impact on opinions? In Proceedings of theWorkshop on Extra-Propositional Aspects

ofMeaning in Computational Linguistics, pages 10–18. Association for Computational

Linguistics.

Bos, J. andNissim, M. (2006). An empirical approach to the interpretation of superlatives. In Proceedings

of the 2006 conference on empirical methods in natural language processing, pages 9–17. Association

for Computational Linguistics.

Chu, S.-C. and Kim, Y. (2011). Determinants of consumer engagement in electronic word-of-mouth

(ewom) in social networking sites. In International journal of Advertising, volume 30, pages 47–75.

Taylor & Francis.

Esuli, A. and Sebastiani, F. (2006a). Determining termsubjectivity and termorientation for

opinionmining. In EACL, volume 6, page 2006.

Ganapathibhotla, M. and Liu, B. (2008). Mining opinions in comparative sentences. In Proceedings of

the 22nd International Conference on Computational Linguistics-Volume 1, pages 241–248. Association

for Computational Linguistics.

Hansen, L. K., Arvidsson, A., Nielsen, F. Å., Colleoni, E., and Etter, M. (2011). Good friends, bad news-

affect and virality in twitter. In Future information technology, pages 34–43. Springer.

Hatzivassiloglou, V. andMcKeown, K. R. (1997). Predicting the semantic orientation of adjectives. In

Proceedings of the 35th annual meeting of the association for computational linguistics and eighth

conference of the european chapter of the association for computational linguistics, pages 174–181.

Association for Computational Linguistics.

Hu, M. and Liu, B. (2004). Mining opinion features in customer reviews. In AAAI, volume 4, pages

755–760.

Le Pesant, D. and Mathieu-Colas, M. (1998). Introduction aux classes d’objets. In Langages, pages 6–33.

JSTOR.

Jia, L., Yu, C., and Meng, W. (2009). The effect of negation on sentiment analysis and retrieval

effectiveness. In Proceedings of the 18th ACM conference on Information and knowledge management,

pages 1827–1830. ACM.

Liu, B. (2010). Sentiment analysis and subjectivity. In Handbook of natural language processing, volume

2, pages 627–666. Chapman & Hall Goshen, CT.

Matthews, H., Hendrickson, C., and Soh, D. (2001). Environmental and economic effects of e-

commerce: A case study of book publishing and retail logistics. In Transportation Research Record:

Page 8: Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico

Journal of the Transportation Research Board, number 1763, pages 6–12. Transportation Research Board

of the National Academies.

Meier, C. (2003). The meaning of too, enough, and so... that. In Natural Language Semantics, volume

11, pages 69–107. Springer.

Mohammad, S., Dunne, C., and Dorr, B. (2009). Generating highcoverage semantic orientation lexicons

from overtly marked words and a thesaurus. In Proceedings of the 2009 Conference on Empirical

Methods in Natural Language Processing: Volume 2-Volume 2, pages 599–608. Association for

Computational Linguistics.

Moilanen, K. and Pulman, S. (2007). Sentiment composition. In Proceedings of the Recent Advances in

Natural Language Processing International Conference, pages 378–382.

Nakayama, M., Sutcliffe, N., and Wan, Y. (2010). Has the web transformed experience goods into search

goods? In Electronic Markets, volume 20, pages 251–262. Springer.

Neviarouskaya, A., Prendinger, H., and Ishizuka, M. (2009a). Compositionality principle in recognition

of fine-grained emotions from text. In ICWSM.

Osgood, C. E. (1952). The nature and measurement of meaning. In Psychological bulletin, volume49,

page 197. American Psychological Association.

Pang, B. and Lee, L. (2004). A sentimental education: Sentiment analysis using subjectivity

summarization based on minimum cuts. In Proceedings of the 42nd annual meeting on Association for

Computational Linguistics, page 271. Association for Computational Linguistics.

Pang, B. and Lee, L. (2008a). Opinion mining and sentiment analysis. In Foundations and trends in

information retrieval, volume 2, pages 1–135. Now Publishers Inc.

Schwarzschild, R. (2008). The semantics of comparatives and other degree constructions. In Language

and Linguistics Compass, volume 2, pages 308–331.Wiley Online Library.

Socher, R., Perelygin, A.,Wu, J. Y., Chuang, J.,Manning, C. D., Ng, A. Y., and Potts, C. (2013).

Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the

conference on empirical methods in natural language processing (EMNLP), volume

1631, page 1642.

Stone, P. J., Dunphy, D. C., and Smith, M. S. (1966). The General Inquirer: A Computer Approach to

Content Analysis. MIT press.

Taboada, M., Brooke, J., Tofiloski, M., Voll, K., and Stede, M. (2011). Lexicon-based methods for

sentiment analysis. In Computational linguistics, volume 37, pages 267–307. MIT Press.

Velikovich, L., Blair-Goldensohn, S., Hannan, K., and McDonald, R. (2010). The viability of web-

derived polarity lexicons. In Human Language Technologies: The 2010 Annual Conference of the North

American Chapter of the Association for Computational Linguistics, pages 777–785. Association for

Computational Linguistics.

Page 9: Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico

Vollero, A. (2010). E-marketing eWeb communication. Verso la gestione della corporate reputation

online. Giappichelli, Torino.

Whissel, C. (1989). The dictionary of affect in language, emotion: Theory, research and experience: vol.

4, the measurement of emotions, r. In Plutchik and H. Kellerman, Eds., New York: Academic.

Wiebe, J.,Wilson, T., Bruce, R., Bell,M., andMartin,M. (2004). Learning subjective language. In

Computational linguistics, volume 30, pages 277–308.MIT Press.

Wiebe, J.,Wilson, T., Bruce, R., Bell,M., andMartin,M. (2004). Learning subjective language. In

Computational linguistics, volume 30, pages 277–308.MIT Press.

Wiegand,M., Balahur, A., Roth, B., Klakow, D., andMontoyo, A. (2010). A survey on the role of

negation in sentiment analysis. In Proceedings of the workshop on negation and speculation in natural

language processing, pages 60–68. Association for Computational Linguistics.

Wilson, T., Wiebe, J., and Hoffmann, P. (2005). Recognizing contextual polarity in phrase-level

sentiment analysis. In Proceedings of the conference on human language technology and empirical

methods in natural language processing, pages 347–354. Association for Computational Linguistics.

Wilson, T.,Wiebe, J., and Hoffmann, P. (2009). Recognizing contextual polarity: An exploration of

features for phrase-level sentiment analysis. In Computational linguistics, volume 35, pages 399–433.

MIT Press.

Gross, G. (1992a). Un outil pour le FLE: les classes d ‘objets. In Actesdu colloque FLE, pages 169–192.

De Bueriis, G. and Elia, A. (2008). Lessici elettronici e descrizioni lessicali, sintattiche, morfologiche ed

ortografiche. Plectica.

Gross, M. (1975). Méthodes en syntaxe. Hermann.

Buvet, P.-A., Girardin, C., Gross, G., and Groud, C. (2005). Les prédicats d’affect. In LIDIL, number 32,

pages pp–125.

Elia, A. (2014a). Lessico e sintassi tra tempo e massa parlante. In Marchese M.P., Nocentini A., Il

lessico nella teoria e nella storia linguistica, pages 15–47. Edizioni il Calamo.

Gross, M. (1995). Une grammaire locale de l’expression des sentiments. In Langue française, pages 70–

87. JSTOR.

D’Agostino, E. (2005). Grammatiche lessicalmente esaustive delle passioni il caso dell’io collerico. le

forme nominali. InQuaderns d’Italià, pages 149–169.

D’Agostino, E., De Bueriis, G., Cicalese, A., Monteleone, M., Vellutino, D., Messina, S., Langella, A.,

Santonicola, S., Longobardi, F., and Guglielmo, D. (2007). Lexicon-grammar classifications. or better: to

get rid of anguish. In 26th International Conference on Lexis and Grammar (LGC’07).

D’Agostino, E. (1992). Analisi del discorso: metodi descrittivi dell’italiano d’uso. Loffredo.

Page 10: Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico

Tan, S., Cheng, X., Wang, Y., and Xu, H. (2009). Adapting naive bayes to domain adaptation for

sentiment analysis. In Advances in Information

Retrieval, pages 337–349. Springer.

Kang, H., Yoo, S. J., and Han, D. (2012). Senti-lexicon and improvednaïve bayes algorithms for

sentiment analysis of restaurant reviews.

Pang, B., Lee, L., and Vaithyanathan, S. (2002). Thumbs up?: sentiment classification using machine

learning techniques. In Proceedings of the ACL-02 conference on Empirical methods in natural language

processing-Volume 10, pages 79–86. Association for Computational Linguistics.

Mullen, T. and Collier, N. (2004). Sentiment analysis using support vector machines with diverse

information sources. In EMNLP, volume 4, pages 412–418.

Ye, Q., Zhang, Z., and Law, R. (2009). Sentiment classification of online reviews to travel destinations

by supervised machine learning approaches. In Expert Systems with Applications, volume 36, pages

6527–6535. Elsevier.

Pang, B. and Lee, L. (2004). A sentimental education: Sentiment analysis using subjectivity

summarization based on minimum cuts. In Proceedings of the 42nd annual meeting on Association for

Computational Linguistics, page 271. Association for Computational Linguistics.

Bespalov, D., Bai, B., Qi, Y., and Shokoufandeh, A. (2011). Sentiment classification based on

supervised latent n-gram analysis. In Proceedings of the 20th ACM international conference on

Information and knowledge management, pages 375–382. ACM.

Nakagawa, T., Inui, K., and Kurohashi, S. (2010). Dependency treebased sentiment classification using

crfs with hidden variables. In Human Language Technologies: The 2010 Annual Conference of the

North American Chapter of the Association for Computational Linguistics, pages 786–794. Association

for Computational Linguistics.

Yessenalina, A. and Cardie, C. (2011). Compositional matrix-space models for sentiment analysis. In

Proceedings of the Conference on Empirical Methods in Natural Language Processing, pages 172–182.

Association for Computational Linguistics.

Socher, R., Perelygin, A.,Wu, J. Y., Chuang, J.,Manning, C. D., Ng, A. Y., and Potts, C. (2013).

Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the

conference on empirical methods in natural language processing (EMNLP), volume 1631, page 1642.

Turney, P. D. (2002). Thumbs up or thumbs down?: semantic orientation applied to unsupervised

classification of reviews. In Proceedings of the 40th annual meeting on association for computational

linguistics, pages 417–424.

Liu, B. (2012). Sentiment analysis and opinion mining. In Synthesis Lectures on Human Language

Technologies, volume 5, pages 1–167. Morgan & Claypool Publishers.

Andreevskaia, A. and Bergler, S. (2008). When specialists and generalists work together: Overcoming

domain dependence in sentiment tagging. In ACL, pages 290–298.

Page 11: Introduzione alla Sentiment Analysis - WordPress.com · Introduzione alla Sentiment Analysis La Sentiment Analysis (SA) viene definita in letteratura come il trattamento automatico

Aue, A. and Gamon, M. Customizing sentiment classifiers to new domains: A case study. In Proceedings

of recent advances in natural language processing (RANLP).

Dasgupta, S. and Ng, V. (2009). Mine the easy, classify the hard: a semi-supervised approach to

automatic sentiment classification. In

Proceedings of the Joint Conference of the 47th AnnualMeeting of the ACL and the 4th International

Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2, pages 701–709.

Association for Computational Linguistics.

Goldberg, A. B. and Zhu, X. (2006). Seeing starswhen there aren’t many stars: graph-based semi-

supervised learning for sentiment categorization. In Proceedings of the FirstWorkshop on Graph

BasedMethods for Natural Language Processing, pages 45–52. Association for Computational

Linguistics.

Prabowo, R. and Thelwall, M. (2009). Sentiment analysis: A combined approach. In Journal of

Informetrics, volume 3, pages 143–157. Elsevier.

Elia, A. (2014b). Operatori, argomenti e il sistema leg-semantic role labelling dell’italiano. In Mirto I., a

cura di, Le relazioni irresistibili, pages 105–118. Edizioni Ets.