Ulanov nlp-7

Post on 18-Dec-2014

166 views 0 download

description

 

Transcript of Ulanov nlp-7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обработка текстов на естественном языке Александр Уланов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 2

Оглавление курса

1. Основы лингвистики. Слова, фразы, предложения, наборы текстов

2. Статистики, языковые модели

3. Марковские модели. Разбор текстов по частям речи

4. Извлечение отношений из текстов

5. Поиск дубликатов в тексте

6. Кластеризация и классификация текстов

7. Анализ мнений

8. Введение в статистический машинный перевод

Литература

• Chris Manning and Hinrich Schuetze. Foundations of Statistical Natural Language Processing, MIT Press, 1999

• Philipp Koehn. Statistical Machine Translation, Cambridge Univ. Press, 2010

• Научные статьи по теме, видеолекции Stanford и Coursera (Manning)

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 3

АНАЛИЗ МНЕНИЙ Лекция 7

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 4

Оглавление

Введение

Задачи анализа мнений

Определение тональности текста

Определение обсуждаемых аспектов и их тональности

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 5

Введение

Анализ мнений

Sentiment Analysis, Opinion Mining

• Численный анализ мнений, настроений, субъективности, оценок, отношения, эмоций и т.д,

которые выражены в текстовом виде

– Обзоры, отзывы, блоги, твиты, комментарии…

• Терминология

– Sentiment Analysis используется чаще

– Opinion Mining в сообществе Data Mining

• Важность

– Люди опираются на мнения и отзывы других людей

– Организации используют фокус-группы, консультантов и т.д.

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 6

Приложения

Анализ мнений

• В бизнесе

– Анализ товаров и рынка

• Персонально

– Покупка продуктов и сервисов

– Советы

– Политические мнения

• Реклама

– Рекламировать товар, который хвалят в данном тексте

• Поиск мнений

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 7

Основные задачи

Анализ мнений

• Классификация документов на основе мнений

– Отзывы, твиты, блоги: положительный, отрицательный, нейтральный

• Классификация аспектов на основе мнений

– Какая тональность у заданной сущности

– Какие аспекты данного товара обсуждаются и какова их тональность

• Создание словарей оценочных слов

• Поиск сравнений

• Поиск спама в отзывах

• Анализ полезности отзывов

• Другие задачи…

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 8

Пример отзыва

Анализ мнений

• На уровне продукта

• На уровне отзыва

• На уровне предложения

• На уровне аспектов товара

User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что

касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что

касается корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь,

а тут мало того что алюминий, так он еще и хрупкий.

Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по

сравнению с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено

в это сфере.

В тексте:

• Объекты мнений

• Отношение: позитивное, негативное, нейтральное

• Сравнение

• Субъект, высказывающий мнение

• Время: когда было высказано мнение

• Ирония?

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 9

Подзадачи анализа мнений

В общем случае

• Распознавание именных сущностей (Named Entity Recognition)

• Поиск отношений (Relationship Extraction)

• Поиск мнений (Sentiment Identification)

• Распознавание ссылок ( Co-reference resolution)

• Извлечение синонимов (Synonym extraction)

• И другие задачи извлечения информации (Information Extraction)

• Решения всех этих задач должны подходить друг к другу

Подзадачи подзадач

• Все задачи обработки текстов на естественном языке (NLP)

– Разбивка текста на предложения, предложения на слова, определение частей речи,

структуры предложения…

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 10

Классификация документов

Классификация без учителя

• Использование словарей оценочных слов, классификация по разнице положительных и

отрицательных слов в документе, бутстраппинг

• Словари: General Inquirer (1045pos, 1160neg), Bing Liu (2007pos, 4784neg), MPQA (2718pos, 4913neg)

Классификация с учителем

• Набор данных для обучения (обычно – бинарная классификация, без нейтрального класса)

– Отзывы: 1,2 звезды – отрицательные, 4,5 – положительные

• Признаки – отдельные слова (+ конкатенация отрицаний). Части речи, фразы не эффективны

– Вес слова – 0/1 [Pang & Lee 2002]

– 𝑡𝑓𝑖𝑑𝑓(𝑡𝑘, 𝑑𝑗)= 𝑁(𝑡𝑘, 𝑑𝑗) ∙ log𝐷

𝑁 𝐷 𝑤𝑖𝑡ℎ 𝑡𝑘 c норм. 𝑤𝑗𝑘 =

𝑡𝑓𝑖𝑑𝑓(𝑡𝑘,𝑑𝑗)

𝑡𝑓𝑖𝑑𝑓(𝑡𝑠,𝑑𝑗)2𝑇

𝑠=1

– delta𝑡𝑓𝑖𝑑𝑓(𝑡𝑘, 𝑑𝑗)= 𝑁(𝑡𝑘, 𝑑𝑗 )∙ log𝐷𝑝𝑜𝑠 ∙𝑁 𝐷𝑛𝑒𝑔 𝑤𝑖𝑡ℎ 𝑡𝑘

𝐷𝑛𝑒𝑔 ∙𝑁 𝐷𝑝𝑜𝑠 𝑤𝑖𝑡ℎ𝑡𝑘

• NaiveBayes, SVM, Decision Trees

• ~83% F-мера

Martineau, Justin, and Tim Finin. "Delta

TFIDF: An Improved Feature Space for

Sentiment Analysis." ICWSM. 2009.

Pang, Bo, Lillian Lee, and Shivakumar

Vaithyanathan. "Thumbs up?: sentiment

classification using machine learning

techniques." Proceedings of the ACL-02

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 11

Обучение с учителем и словарь РОМИП 2011

• Набор отзывов по книгам, фильмам и камерам

• Бинарная классификация: 750 положительных и 124 отрицательных

• Обучение с учителем: персептрон

• Классификация по словарю:

– Бинарные и частотные веса слов из словаря

*A. Ulanov, G. Sapozhnikov. CONTEXT-DEPENDENT OPINION LEXICON TRANSLATION WITH THE USE OF A

PARALLEL CORPUS. Dialog 2013

MicroP MicroR

(Accuracy) MacroR MacroF1

Обучение

с учителем

Perceptron 0,84 0,84 0,59 0,60

Perceptron

+ delta-tf-idf 0,84 0,84 0,62 0,63

Словарь Бинарный 0,84 0,80 0,59 0,61

Частотный 0,86 0,82 0,59 0,61

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 12

Сравнение эффективности

Набор

данных

Кол-во

документов

Средняя

длина

Бинарный bTFIDF

(norm)

dTFIDF adTFIDFs

Movie

Review

2000 668 87.85 88.20 91.60 96.60

Multi-

Domain

8000 217 86.96 88.25 92.25 96.36

BLOGS06 17898 2832 77.39 78.55 80.58 85.04

Классификация с учителем

• Бинарная классификация SVM (liblinear)

• Сравнение вариантов весов (на базе Accuracy)

– Наиболее эффективный: 𝑎𝑑𝑒𝑙𝑡𝑎𝑇𝐹𝐼𝐷𝐹𝑠(𝑡𝑘, 𝑑𝑗 )= 0.5 +0.5𝑁(𝑡𝑘,𝑑𝑗 )

𝑁𝑚𝑎𝑥 𝑡,𝑑𝑗log

𝐷𝑝𝑜𝑠 ∙𝑁 𝐷𝑛𝑒𝑔 𝑤𝑖𝑡ℎ 𝑡𝑘 +0.5

𝐷𝑛𝑒𝑔 ∙𝑁 𝐷𝑝𝑜𝑠 𝑤𝑖𝑡ℎ𝑡𝑘 +0.5

Paltoglou, Georgios, and Mike Thelwall. "A study of information retrieval weighting schemes for sentiment analysis." Proceedings

of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010.

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 13

Классификация полярности в Твиттере

Особенности классификации в Твиттере

• Набор данных для обучения можно получить по запросам «:)» и «:(» [Go et al. 2009]

• Очень большое пространство признаков (токенов)

– Убирают имя пользователя, ссылки, повторяющиеся буквы в слове – около 50% всех признаков

• В отличие от отзывов, твиты явно не привязаны к продукту или компании

– Тональность компании или продукта считают по кол-ву положительных и отрицательных твитов

– Это далеко не всегда верно (неверно в 40% случаях по данным [Jiang et al. 2011])

• Дальше все стандартно: SVM классификатор

– Части речи и фразы не помогают (биграммы – чуть-чуть по некоторым данным)

• 82% точность классификации

Jiang, Long, et al. "Target-dependent Twitter Sentiment Classification." ACL. 2011.

Go, Alec, Richa Bhayani, and Lei Huang. "Twitter sentiment classification using distant supervision." CS224N Project

Report, Stanford (2009): 1-12.

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 14

Классификация документов. Адаптация

Проблема адаптации к различным областям

• Классификатор, обученный на отзывах на ноутбуки, не будет хорошо работать на отзывах на книги

• Необходим размеченные отзывы на данный тип товара, но есть варианты:

– Наличие неразмеченных текстов из интересуемой области

• Используются простые оценочные слова («плохой», «хороший»)

• Вычисляется корреляция между этими словами и словами в наборе текстов из данной области.

Значение используется в качестве веса слова при обучении и классификации

– Наличие размеченных текстов на несколько других типов товаров

• Delta-tf-idf (насколько специфично данное слово)

– Использование признаков, не зависящих от типа товара

• Низкая точность классификации

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 15

Классификация документов. Адаптация

Неразмеченные тексты

• Выбор основных признаков по PMI

• Вычисляется корреляция между

основными признаками и всеми

остальными

– J. Blitzer, M. Dredze, and F. Pereira. 2007.

Biographies, bollywood, boom-boxes and

blenders: Domain adaptation for sentiment

classification. In ACL.

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 16

Классификация документов на разных

языках Классификация с учителем

• Разметка набора данных на нужном языке

• Автоматический перевод текстов [Banea et al. 2011]

– Существующих размеченных данных на нужный язык, затем обучение классификатора

– С нужного языка на тот язык, в котором есть классификатор

Классификация без учителя

• Составление списка оценочных слов в нужном языке (далее)

• Автоматический перевод списка оценочных слов (например, с английского)

– Работает хуже всего, если делать прямолинейно (через словарь или Google Translate)

– Но есть остроумные варианты

• Если есть словари в двух языках – выбор такого перевода, который одинаков из языка#1 и

языка#2 [Steinberger et al. 2012]

• Слово должно переводиться через Google Translate туда и обратно одинаково [Ulanov &

Sapozhnikov 2013]

• При помощи неразмеченных параллельных текстов [Ulanov & Sapozhnikov 2013]

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 17

Классификация: самообучение

Извлечение всех фраз с существительными

• Разбор текстов по частям речи

• Паттерны для фраз

– JJ- прилагательное

– NN – существительное

– RB* – наречие

– VB* - глагол

Определение тональности фраз

• При помощи поисковой машины и PMI по кол-ву ее ответов на соотв. запросы

Определение тональности документа

• Среднее по фразам

*Turney, P. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. In

Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL-2002), 2002.

)"",()"",( poorphrasePMIexcellentphrasePMIphraseSO

bhitsahits

bahitsbaPMI

,

bootstrapping

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 18

Создание словаря оценочных слов

Классический поиск паттернов и извлечение информации

• На основе небольшого изначального набора слов и паттернов [Hatzivassiloglou & McKeown 1997]

– Только прилагательные (and, or, but, either-or, neither-nor)

– Похожие формы, классификатор (до 90% F1 в зависимости от размера тренировочной выборки)

• На основе небольшого изначального набора слов и PMI [Turney 2002]

– PMI(“best”,”candidate”)-PMI(“worst”,”candidate”)

Hatzivassiloglou, Vasileios, and Kathleen R. McKeown. "Predicting the semantic orientation of adjectives." ACL, 1997.

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 19

Создание словаря оценочных слов

Подходы

• На основе размеченных отзывов (положительный/отрицательный)

– По хи-квадрат, PMI, IG...

• Double propagation [Qiu et al 2009, 2011]

– Дан изначальный набор оценочных слов

– Находим все аспекты

– Находим все оценочные слова этих аспектов

– Дополняем изначальный набор и начинаем сначала

• Словарь должен иметь высокую точность, поэтому необходима проверка

словаря человеком

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 20

Классификация аспектов на основе мнений

Аспект – сущность, тональность которой требуется узнать

• Актуальность

– Какая тональность у заданной сущности (бренд-мониторинг)

– Какие аспекты данного товара обсуждаются и какова их тональность (анализ отзывов)

• Ранжирование аспектов

• Тональность заданной сущности

– В случае отзывов на сущность – равна тональности отзыва

– В случае короткого текста (предложение, твит, статус) - равна тональности текста

• Для Твиттера неверно в 40% случаях по данным [Jiang et al. 2011]

• В качестве альтернативы – тональность считается обратно пропорциональной расстоянию до

оценочных слов

• Для более точного определения используется дерево зависимостей

i i

i

awd

wsoaso

,

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 21

Извлечение аспектов

Как задача поиска паттернов и извлечения информации

• [Hu & Liu 2004]

– Извлечение «частых» аспектов при помощи ассоциативных правил на наборе именных фраз (в

работе – последовательность из 1 и более существительных). Должны встречаться в 1% отзывов

– Прилагательное перед «частым» аспектом считается оценочным

– Полярность оценочного слова определяется при помощи бутстрапинга и WordNet

– Если в предложении нет «частого» аспекта, то «редкий» аспект определяется как именная фраза,

ближайшая к оценочному слову (если оно есть)

– Ранжирование аспектов по кол-ву встречаний отдельно и в составе более длинной фразы

– Тестирование на наборе из отзывов на 5 продуктов

– Точность и полнота порядка 80%

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 22

Извлечение аспектов

Как задача поиска паттернов и извлечения информации

• OPINE [Popescu & Etzioni 2005]

– На основе системы извлечения отношений KnowItAll (лекция 4) извлекаются части и свойства

данного класса продукта, а также атрибуты частей

– Вычисляется PMI между аспектом и меронимичной фразой (“scanner comes with”, “of scanner”) в

тексте и в Интернете (два разных PMI – это дало большой прирост точности)

– У аспектов по дереву зависимостей извлекается модификатор (обычно прилагательное) и головное

слово (обычно глагол), для этого составлены правила

– Тональность фразы определяется аналогично [Hatzivassiloglou & McKeown 1997] (начальному

набору оценочных слов и паттернам), но с доп. набором признаков, типа PMI как у [Turney 2002]

(между фразой и известным оценочным словом)

P R

Hu & Liu 0.72 0.80

OPINE 0.94 0.77

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 23

KnowItAll [Etzioni et al. 2005]

Особенности подхода

• Используется разпознавание частей речи

• Вид паттернов

• Один проход

• Надежность паттерна и извлеченного отношения

– Запрос на встречаемость данного (данных) объектов

вместе с данным паттерном и отдельно

– Байесовский классификатор для отношений

Etzioni, Oren, et al. "Unsupervised named-entity extraction from the web: An experimental study." Artificial Intelligence 165.1 (2005): 91-134.

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 24

Извлечение аспектов

Как обучение с учителем

• [Wu et al. 2009]

– Кандидаты в аспекты – все именные фразы + фильтрация по языковой модели отзывов

– Должна быть связь между оценочным словом из словаря и аспектом (по дереву зависимостей < 5)

– Обычная классификация и со строковым ядром (лекция 4)

– Атрибуты обычной классификации: позиция (начало, конец, другое), дистанция между аспектом и

ос, есть ли прямая связь между аспектом и ос, что идет сначала, часть речи

– Строковое ядро: дерево зависимостей, слова и части речи

– F-мера в районе 40-50%, что ненамного больше тривиального метода, когда аспект определяется

как ближайщая к ос именная фраза (40%)

– Зато не зависит от области отзывов (теоретически), так как используются только лингвистические

признаки

• [Jacob & Gurevich 2010]

– CRF с использованием токенов, по сути необходимо, чтобы аспекты оказались в тренировочной

выборке, а CRF решает, в каком качестве они используются в данном отрывке текста

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 25

Извлечение аспектов

Как обучение с учителем

• Поиск аспектов в отзывах на ноутбуки на руссом языке [Marchuk, Ulanov et al. 2013]

– Кандидаты в аспекты – все существительные

– Бинарная классификация кандидатов

• Не каждое упоминание в тексте, а вообще как слово

– Признаки: странность (корпус отзывов и худ литература), PMI (между кандидатом и классом

товара), TFIDF, TF, расстояние до оценочного слова

– Проблемы:

• плохое согласие между ассесорами, что же такое аспект (60%)

• не-аспектов примерно втрое больше, дисбаланс

Dataset P R F1

Vote-strong 0.757 0.711 0.733

Vote-negative 0.509 0.316 0.39

Vote-positive 0.79 0.728 0.758

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 26

Извлечение аспектов

Ранжирование аспектов

• [Yu et al. 2011]

– Тональность отзыва линейно зависит от

обсуждаемых аспектов продукта.

– Небольшая разница между частотным и

корреляционным методом на @5-@15.

NDCG в пределах 0.68-0.96

– Предложенный метод ранжирование дает

преимущество на @5 (около 0.13)

Yu, Jianxing, et al. "Aspect Ranking: Identifying Important Product Aspects from Online Consumer Reviews." ACL. 2011.

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 27

Другие задачи

Релевантные задачи

• Определение субъективности [Riloff & Wiebe 2003] (по паттернам, как извлечение информации)

– Используется для фильтрации предложений перед анализом мнений

• Разрешение анафоры

– Около 10-15% аспектов – местоимения

Задачи анализа мнений

• Предсказание рейтинга товара по отзыву

– Как задача регрессии (не особо успешно, проще делать положительно/отрицательно)

• Определение полезности отзывов [Zhang & Varadarajan 2006]

– Как задача классификации по остроумным признакам

• Определение спама в отзывах [Lim et al. 2010]

• Реферирование отзывов

– Выделить аспекты, мнения, тональности, представить все вместе

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 28

Содержание

Введение

Задачи анализа мнений

Определение тональности текста

Определение обсуждаемых аспектов и их тональности

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 29

Google products

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 30

Amazon

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 31

Яндекс маркет

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 32

Отзывной ру

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 33

Спасибо!

nashb@yandex.ru