Ulanov nlp-7

33
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Обработка текстов на естественном языке Александр Уланов

description

 

Transcript of Ulanov nlp-7

Page 1: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обработка текстов на естественном языке Александр Уланов

Page 2: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 2

Оглавление курса

1. Основы лингвистики. Слова, фразы, предложения, наборы текстов

2. Статистики, языковые модели

3. Марковские модели. Разбор текстов по частям речи

4. Извлечение отношений из текстов

5. Поиск дубликатов в тексте

6. Кластеризация и классификация текстов

7. Анализ мнений

8. Введение в статистический машинный перевод

Литература

• Chris Manning and Hinrich Schuetze. Foundations of Statistical Natural Language Processing, MIT Press, 1999

• Philipp Koehn. Statistical Machine Translation, Cambridge Univ. Press, 2010

• Научные статьи по теме, видеолекции Stanford и Coursera (Manning)

Page 3: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 3

АНАЛИЗ МНЕНИЙ Лекция 7

Page 4: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 4

Оглавление

Введение

Задачи анализа мнений

Определение тональности текста

Определение обсуждаемых аспектов и их тональности

Page 5: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 5

Введение

Анализ мнений

Sentiment Analysis, Opinion Mining

• Численный анализ мнений, настроений, субъективности, оценок, отношения, эмоций и т.д,

которые выражены в текстовом виде

– Обзоры, отзывы, блоги, твиты, комментарии…

• Терминология

– Sentiment Analysis используется чаще

– Opinion Mining в сообществе Data Mining

• Важность

– Люди опираются на мнения и отзывы других людей

– Организации используют фокус-группы, консультантов и т.д.

Page 6: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 6

Приложения

Анализ мнений

• В бизнесе

– Анализ товаров и рынка

• Персонально

– Покупка продуктов и сервисов

– Советы

– Политические мнения

• Реклама

– Рекламировать товар, который хвалят в данном тексте

• Поиск мнений

Page 7: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 7

Основные задачи

Анализ мнений

• Классификация документов на основе мнений

– Отзывы, твиты, блоги: положительный, отрицательный, нейтральный

• Классификация аспектов на основе мнений

– Какая тональность у заданной сущности

– Какие аспекты данного товара обсуждаются и какова их тональность

• Создание словарей оценочных слов

• Поиск сравнений

• Поиск спама в отзывах

• Анализ полезности отзывов

• Другие задачи…

Page 8: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 8

Пример отзыва

Анализ мнений

• На уровне продукта

• На уровне отзыва

• На уровне предложения

• На уровне аспектов товара

User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что

касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что

касается корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь,

а тут мало того что алюминий, так он еще и хрупкий.

Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по

сравнению с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено

в это сфере.

В тексте:

• Объекты мнений

• Отношение: позитивное, негативное, нейтральное

• Сравнение

• Субъект, высказывающий мнение

• Время: когда было высказано мнение

• Ирония?

Page 9: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 9

Подзадачи анализа мнений

В общем случае

• Распознавание именных сущностей (Named Entity Recognition)

• Поиск отношений (Relationship Extraction)

• Поиск мнений (Sentiment Identification)

• Распознавание ссылок ( Co-reference resolution)

• Извлечение синонимов (Synonym extraction)

• И другие задачи извлечения информации (Information Extraction)

• Решения всех этих задач должны подходить друг к другу

Подзадачи подзадач

• Все задачи обработки текстов на естественном языке (NLP)

– Разбивка текста на предложения, предложения на слова, определение частей речи,

структуры предложения…

Page 10: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 10

Классификация документов

Классификация без учителя

• Использование словарей оценочных слов, классификация по разнице положительных и

отрицательных слов в документе, бутстраппинг

• Словари: General Inquirer (1045pos, 1160neg), Bing Liu (2007pos, 4784neg), MPQA (2718pos, 4913neg)

Классификация с учителем

• Набор данных для обучения (обычно – бинарная классификация, без нейтрального класса)

– Отзывы: 1,2 звезды – отрицательные, 4,5 – положительные

• Признаки – отдельные слова (+ конкатенация отрицаний). Части речи, фразы не эффективны

– Вес слова – 0/1 [Pang & Lee 2002]

– 𝑡𝑓𝑖𝑑𝑓(𝑡𝑘, 𝑑𝑗)= 𝑁(𝑡𝑘, 𝑑𝑗) ∙ log𝐷

𝑁 𝐷 𝑤𝑖𝑡ℎ 𝑡𝑘 c норм. 𝑤𝑗𝑘 =

𝑡𝑓𝑖𝑑𝑓(𝑡𝑘,𝑑𝑗)

𝑡𝑓𝑖𝑑𝑓(𝑡𝑠,𝑑𝑗)2𝑇

𝑠=1

– delta𝑡𝑓𝑖𝑑𝑓(𝑡𝑘, 𝑑𝑗)= 𝑁(𝑡𝑘, 𝑑𝑗 )∙ log𝐷𝑝𝑜𝑠 ∙𝑁 𝐷𝑛𝑒𝑔 𝑤𝑖𝑡ℎ 𝑡𝑘

𝐷𝑛𝑒𝑔 ∙𝑁 𝐷𝑝𝑜𝑠 𝑤𝑖𝑡ℎ𝑡𝑘

• NaiveBayes, SVM, Decision Trees

• ~83% F-мера

Martineau, Justin, and Tim Finin. "Delta

TFIDF: An Improved Feature Space for

Sentiment Analysis." ICWSM. 2009.

Pang, Bo, Lillian Lee, and Shivakumar

Vaithyanathan. "Thumbs up?: sentiment

classification using machine learning

techniques." Proceedings of the ACL-02

Page 11: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 11

Обучение с учителем и словарь РОМИП 2011

• Набор отзывов по книгам, фильмам и камерам

• Бинарная классификация: 750 положительных и 124 отрицательных

• Обучение с учителем: персептрон

• Классификация по словарю:

– Бинарные и частотные веса слов из словаря

*A. Ulanov, G. Sapozhnikov. CONTEXT-DEPENDENT OPINION LEXICON TRANSLATION WITH THE USE OF A

PARALLEL CORPUS. Dialog 2013

MicroP MicroR

(Accuracy) MacroR MacroF1

Обучение

с учителем

Perceptron 0,84 0,84 0,59 0,60

Perceptron

+ delta-tf-idf 0,84 0,84 0,62 0,63

Словарь Бинарный 0,84 0,80 0,59 0,61

Частотный 0,86 0,82 0,59 0,61

Page 12: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 12

Сравнение эффективности

Набор

данных

Кол-во

документов

Средняя

длина

Бинарный bTFIDF

(norm)

dTFIDF adTFIDFs

Movie

Review

2000 668 87.85 88.20 91.60 96.60

Multi-

Domain

8000 217 86.96 88.25 92.25 96.36

BLOGS06 17898 2832 77.39 78.55 80.58 85.04

Классификация с учителем

• Бинарная классификация SVM (liblinear)

• Сравнение вариантов весов (на базе Accuracy)

– Наиболее эффективный: 𝑎𝑑𝑒𝑙𝑡𝑎𝑇𝐹𝐼𝐷𝐹𝑠(𝑡𝑘, 𝑑𝑗 )= 0.5 +0.5𝑁(𝑡𝑘,𝑑𝑗 )

𝑁𝑚𝑎𝑥 𝑡,𝑑𝑗log

𝐷𝑝𝑜𝑠 ∙𝑁 𝐷𝑛𝑒𝑔 𝑤𝑖𝑡ℎ 𝑡𝑘 +0.5

𝐷𝑛𝑒𝑔 ∙𝑁 𝐷𝑝𝑜𝑠 𝑤𝑖𝑡ℎ𝑡𝑘 +0.5

Paltoglou, Georgios, and Mike Thelwall. "A study of information retrieval weighting schemes for sentiment analysis." Proceedings

of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010.

Page 13: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 13

Классификация полярности в Твиттере

Особенности классификации в Твиттере

• Набор данных для обучения можно получить по запросам «:)» и «:(» [Go et al. 2009]

• Очень большое пространство признаков (токенов)

– Убирают имя пользователя, ссылки, повторяющиеся буквы в слове – около 50% всех признаков

• В отличие от отзывов, твиты явно не привязаны к продукту или компании

– Тональность компании или продукта считают по кол-ву положительных и отрицательных твитов

– Это далеко не всегда верно (неверно в 40% случаях по данным [Jiang et al. 2011])

• Дальше все стандартно: SVM классификатор

– Части речи и фразы не помогают (биграммы – чуть-чуть по некоторым данным)

• 82% точность классификации

Jiang, Long, et al. "Target-dependent Twitter Sentiment Classification." ACL. 2011.

Go, Alec, Richa Bhayani, and Lei Huang. "Twitter sentiment classification using distant supervision." CS224N Project

Report, Stanford (2009): 1-12.

Page 14: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 14

Классификация документов. Адаптация

Проблема адаптации к различным областям

• Классификатор, обученный на отзывах на ноутбуки, не будет хорошо работать на отзывах на книги

• Необходим размеченные отзывы на данный тип товара, но есть варианты:

– Наличие неразмеченных текстов из интересуемой области

• Используются простые оценочные слова («плохой», «хороший»)

• Вычисляется корреляция между этими словами и словами в наборе текстов из данной области.

Значение используется в качестве веса слова при обучении и классификации

– Наличие размеченных текстов на несколько других типов товаров

• Delta-tf-idf (насколько специфично данное слово)

– Использование признаков, не зависящих от типа товара

• Низкая точность классификации

Page 15: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 15

Классификация документов. Адаптация

Неразмеченные тексты

• Выбор основных признаков по PMI

• Вычисляется корреляция между

основными признаками и всеми

остальными

– J. Blitzer, M. Dredze, and F. Pereira. 2007.

Biographies, bollywood, boom-boxes and

blenders: Domain adaptation for sentiment

classification. In ACL.

Page 16: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 16

Классификация документов на разных

языках Классификация с учителем

• Разметка набора данных на нужном языке

• Автоматический перевод текстов [Banea et al. 2011]

– Существующих размеченных данных на нужный язык, затем обучение классификатора

– С нужного языка на тот язык, в котором есть классификатор

Классификация без учителя

• Составление списка оценочных слов в нужном языке (далее)

• Автоматический перевод списка оценочных слов (например, с английского)

– Работает хуже всего, если делать прямолинейно (через словарь или Google Translate)

– Но есть остроумные варианты

• Если есть словари в двух языках – выбор такого перевода, который одинаков из языка#1 и

языка#2 [Steinberger et al. 2012]

• Слово должно переводиться через Google Translate туда и обратно одинаково [Ulanov &

Sapozhnikov 2013]

• При помощи неразмеченных параллельных текстов [Ulanov & Sapozhnikov 2013]

Page 17: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 17

Классификация: самообучение

Извлечение всех фраз с существительными

• Разбор текстов по частям речи

• Паттерны для фраз

– JJ- прилагательное

– NN – существительное

– RB* – наречие

– VB* - глагол

Определение тональности фраз

• При помощи поисковой машины и PMI по кол-ву ее ответов на соотв. запросы

Определение тональности документа

• Среднее по фразам

*Turney, P. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. In

Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL-2002), 2002.

)"",()"",( poorphrasePMIexcellentphrasePMIphraseSO

bhitsahits

bahitsbaPMI

,

bootstrapping

Page 18: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 18

Создание словаря оценочных слов

Классический поиск паттернов и извлечение информации

• На основе небольшого изначального набора слов и паттернов [Hatzivassiloglou & McKeown 1997]

– Только прилагательные (and, or, but, either-or, neither-nor)

– Похожие формы, классификатор (до 90% F1 в зависимости от размера тренировочной выборки)

• На основе небольшого изначального набора слов и PMI [Turney 2002]

– PMI(“best”,”candidate”)-PMI(“worst”,”candidate”)

Hatzivassiloglou, Vasileios, and Kathleen R. McKeown. "Predicting the semantic orientation of adjectives." ACL, 1997.

Page 19: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 19

Создание словаря оценочных слов

Подходы

• На основе размеченных отзывов (положительный/отрицательный)

– По хи-квадрат, PMI, IG...

• Double propagation [Qiu et al 2009, 2011]

– Дан изначальный набор оценочных слов

– Находим все аспекты

– Находим все оценочные слова этих аспектов

– Дополняем изначальный набор и начинаем сначала

• Словарь должен иметь высокую точность, поэтому необходима проверка

словаря человеком

Page 20: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 20

Классификация аспектов на основе мнений

Аспект – сущность, тональность которой требуется узнать

• Актуальность

– Какая тональность у заданной сущности (бренд-мониторинг)

– Какие аспекты данного товара обсуждаются и какова их тональность (анализ отзывов)

• Ранжирование аспектов

• Тональность заданной сущности

– В случае отзывов на сущность – равна тональности отзыва

– В случае короткого текста (предложение, твит, статус) - равна тональности текста

• Для Твиттера неверно в 40% случаях по данным [Jiang et al. 2011]

• В качестве альтернативы – тональность считается обратно пропорциональной расстоянию до

оценочных слов

• Для более точного определения используется дерево зависимостей

i i

i

awd

wsoaso

,

Page 21: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 21

Извлечение аспектов

Как задача поиска паттернов и извлечения информации

• [Hu & Liu 2004]

– Извлечение «частых» аспектов при помощи ассоциативных правил на наборе именных фраз (в

работе – последовательность из 1 и более существительных). Должны встречаться в 1% отзывов

– Прилагательное перед «частым» аспектом считается оценочным

– Полярность оценочного слова определяется при помощи бутстрапинга и WordNet

– Если в предложении нет «частого» аспекта, то «редкий» аспект определяется как именная фраза,

ближайшая к оценочному слову (если оно есть)

– Ранжирование аспектов по кол-ву встречаний отдельно и в составе более длинной фразы

– Тестирование на наборе из отзывов на 5 продуктов

– Точность и полнота порядка 80%

Page 22: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 22

Извлечение аспектов

Как задача поиска паттернов и извлечения информации

• OPINE [Popescu & Etzioni 2005]

– На основе системы извлечения отношений KnowItAll (лекция 4) извлекаются части и свойства

данного класса продукта, а также атрибуты частей

– Вычисляется PMI между аспектом и меронимичной фразой (“scanner comes with”, “of scanner”) в

тексте и в Интернете (два разных PMI – это дало большой прирост точности)

– У аспектов по дереву зависимостей извлекается модификатор (обычно прилагательное) и головное

слово (обычно глагол), для этого составлены правила

– Тональность фразы определяется аналогично [Hatzivassiloglou & McKeown 1997] (начальному

набору оценочных слов и паттернам), но с доп. набором признаков, типа PMI как у [Turney 2002]

(между фразой и известным оценочным словом)

P R

Hu & Liu 0.72 0.80

OPINE 0.94 0.77

Page 23: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 23

KnowItAll [Etzioni et al. 2005]

Особенности подхода

• Используется разпознавание частей речи

• Вид паттернов

• Один проход

• Надежность паттерна и извлеченного отношения

– Запрос на встречаемость данного (данных) объектов

вместе с данным паттерном и отдельно

– Байесовский классификатор для отношений

Etzioni, Oren, et al. "Unsupervised named-entity extraction from the web: An experimental study." Artificial Intelligence 165.1 (2005): 91-134.

Page 24: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 24

Извлечение аспектов

Как обучение с учителем

• [Wu et al. 2009]

– Кандидаты в аспекты – все именные фразы + фильтрация по языковой модели отзывов

– Должна быть связь между оценочным словом из словаря и аспектом (по дереву зависимостей < 5)

– Обычная классификация и со строковым ядром (лекция 4)

– Атрибуты обычной классификации: позиция (начало, конец, другое), дистанция между аспектом и

ос, есть ли прямая связь между аспектом и ос, что идет сначала, часть речи

– Строковое ядро: дерево зависимостей, слова и части речи

– F-мера в районе 40-50%, что ненамного больше тривиального метода, когда аспект определяется

как ближайщая к ос именная фраза (40%)

– Зато не зависит от области отзывов (теоретически), так как используются только лингвистические

признаки

• [Jacob & Gurevich 2010]

– CRF с использованием токенов, по сути необходимо, чтобы аспекты оказались в тренировочной

выборке, а CRF решает, в каком качестве они используются в данном отрывке текста

Page 25: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 25

Извлечение аспектов

Как обучение с учителем

• Поиск аспектов в отзывах на ноутбуки на руссом языке [Marchuk, Ulanov et al. 2013]

– Кандидаты в аспекты – все существительные

– Бинарная классификация кандидатов

• Не каждое упоминание в тексте, а вообще как слово

– Признаки: странность (корпус отзывов и худ литература), PMI (между кандидатом и классом

товара), TFIDF, TF, расстояние до оценочного слова

– Проблемы:

• плохое согласие между ассесорами, что же такое аспект (60%)

• не-аспектов примерно втрое больше, дисбаланс

Dataset P R F1

Vote-strong 0.757 0.711 0.733

Vote-negative 0.509 0.316 0.39

Vote-positive 0.79 0.728 0.758

Page 26: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 26

Извлечение аспектов

Ранжирование аспектов

• [Yu et al. 2011]

– Тональность отзыва линейно зависит от

обсуждаемых аспектов продукта.

– Небольшая разница между частотным и

корреляционным методом на @5-@15.

NDCG в пределах 0.68-0.96

– Предложенный метод ранжирование дает

преимущество на @5 (около 0.13)

Yu, Jianxing, et al. "Aspect Ranking: Identifying Important Product Aspects from Online Consumer Reviews." ACL. 2011.

Page 27: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 27

Другие задачи

Релевантные задачи

• Определение субъективности [Riloff & Wiebe 2003] (по паттернам, как извлечение информации)

– Используется для фильтрации предложений перед анализом мнений

• Разрешение анафоры

– Около 10-15% аспектов – местоимения

Задачи анализа мнений

• Предсказание рейтинга товара по отзыву

– Как задача регрессии (не особо успешно, проще делать положительно/отрицательно)

• Определение полезности отзывов [Zhang & Varadarajan 2006]

– Как задача классификации по остроумным признакам

• Определение спама в отзывах [Lim et al. 2010]

• Реферирование отзывов

– Выделить аспекты, мнения, тональности, представить все вместе

Page 28: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 28

Содержание

Введение

Задачи анализа мнений

Определение тональности текста

Определение обсуждаемых аспектов и их тональности

Page 29: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 29

Google products

Page 30: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 30

Amazon

Page 31: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 31

Яндекс маркет

Page 32: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 32

Отзывной ру

Page 33: Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 33

Спасибо!

[email protected]