Евгений Свердлов

19
1 Верификация авторов, используя "Многомерный подход" • Authorship Attribution. • Решение задачи верификации (один из подходов). Е. Свердлов

Transcript of Евгений Свердлов

Page 1: Евгений Свердлов

1

Верификация авторов, используя

"Многомерный подход"

• Authorship Attribution.

• Решение задачи верификации (один из подходов).

Е. Свердлов

Page 2: Евгений Свердлов

2

Authorship Attribution

• Что можно сказать о человеке, по им написанному тексту(ам)? Анализ текста необходим в таких областях как WWW, судебная экспертиза и т.д.

• Возможных задач может быть бесконечно много (выяснить социальное положение автора, пол, родной язык, возраст, цвет глаз и т.д.)

Page 3: Евгений Свердлов

3

Authorship Attribution

• Актуальные задачи (одни из)1. Идентификация - кто именно написал текст(ы)

(имеем несколько вариантов имен)?

2. Верификация - написан ли текст(ы) «подписавшимся» автором?

3. Плагиаризм – написан ли текст одним автором (наличие плагиата)?

Page 4: Евгений Свердлов

4

Authorship Attribution

Для решения вопросов из Authorship Attribution (в основном) используются следующие инструменты:

1. Unitary Invariant Approach.(например, анализ расстояния Кульбака-Лейблера между распределениями букв).

2. Naïve Bayes (наивный байесовский классификатор , теория проверки гипотез).

3. Multivariate analysis (многомерный анализ, оценка нескольких характеристик).

4. ANOVA (дисперсионный анализ)

Page 5: Евгений Свердлов

5

Authorship Attribution5. Principle component analysis (метод главных

компонент. Выделение наиболее «важных» характеристик. Например, рассмотрение наиболее частотных букв. Понижение размерности.).

6. Markov Model (Марковские модели).7. Machine Learning Approach, NN-neural nets, SVM

(Самообучающиеся системы).8. Linear discriminant analysis (линейный

дискриминантный анализ)9. Комбинация описанных инструментов. 10. …

Page 6: Евгений Свердлов

6

Authorship Attribution

Для решения вопросов из Authorship Attribution (в основном) используются следующие характеристики:

1. Буквы и их n-граммы.2. Слова (длины, части речи, общие характеристики

слов) и их n-граммы.3. Предложения.4. Абзацы.5. Стили.6. Ключевые, выделенные, слова.7. Комбинация описанных выше характеристик.8. …

Page 7: Евгений Свердлов

7

Authorship Attribution

История методов решения:• Unitary Invariant Approach (Одномерный подход).

Анализируется одно качество текстов с целью решить поставленную задачу. Был предложен в конце 19-го века в работе Mendenhall (1887), изучавшего работы Bacon, Marlowe и Shakespeare; Mascol (1888), «изучавшего» Новый Завет. Анализируется одна характеристика текстов с целью решить вопрос. Сперва это был анализ расстояния между распределениями длин слов. Строго, подход был обоснован Ципфом (1932). Yule(1944) решал аналогичные задачи, анализируя длины предложений …

Page 8: Евгений Свердлов

8

Authorship Attribution

Multivariate Analysis Approach (Многомерный подход). Был предложен Mosteller и Wallace

(на основе “Naïve Bayes”) в работе Mosteller, F., Wallace, D. L. (1964), Inference and Disputed Authorship: The Federalist. Reading, Mass. Addison Wesley.

Анализируется несколько характеристик текстов с целью разрешить вопрос.

Page 9: Евгений Свердлов

9

Authorship Attribution

• Principle component analysisБыл предложен Burrows 1987 г. Burrows, J.F. , "Word Patterns and Story Shapes: The Statistical Analysis of Narrative Style", Literary

and Linguistic Computing, 2, 61-70.Идея заключалась в том, чтобы отделить авторов, выделив наиболее «важные» характеристики.

Page 10: Евгений Свердлов

10

Authorship Attribution

• ANOVA

Применение ANOVA (Дисперсионного анализа)

Было предложено Burrows в 1992 в

Burrows, J. F. , Computers and the study of literature. In C. Butler, editor, Computers and Written Text, Applied Language Studies, pages 167-204. Blackwell, Oxford.

Проверятся статистическая зависимость между характеристиками текстами, используя дисперсионный анализ.

Page 11: Евгений Свердлов

11

Authorship Attribution

• Markov ModelМоделирует порядок слов в документе.

Keyword Query Cleaning Using Hidden Markov Models. Ken Q Pu. University of Ontario Inst. of Technology Oshawa, Ontario

Juola, P. (1998). Cross-entropy and linguistic typology. In Proceedings of New Methods in Language Processing 3. Sydney, Australia.

Khmelev D.V. (2001) Disputed Authorship Resolution through Using Relative Empirical Entropy for MarkovChains of Letters in Human Language Text, Journal of Quantitative Linguistics, 7(3), 201-207

Page 12: Евгений Свердлов

12

Authorship Attribution

• Machine Learning ApproachИспользуется техника поиска «наилучшего»решения, исходя из имеющихся данных.(Vapnik, Chervonenkis)Теория обучения описана, например, в Vladimir N. Vapnik. The Nature of Statistical Learning Theory. Second Edition. Springer-Verlag New York, Inc. 1999.Применеие к Authorship Attribution можно прочитать, например, в Koppel, M., Argamon, S. Shimoni, A. (2002), Automatically categorizing written texts by author gender,Literary and Linguistic Computing 17(4), pp. 401-412

Page 13: Евгений Свердлов

13

Решение задачи верификации

• Нужно проверить авторство пришедшего текста, т.е. выяснить, написал ли подписавший этот текст или нет? Пусть T – пришедший текст. S – «известный» текст подписавшегося автора. Есть функция D(X,Y), которая является «мерой близости» текстов X и Y. Предположим, у текстов одного автора значения D «малы», а у разных «велики».

• Найти критерий, использующий D(X,Y), при помощи которого можно отделить пары текстов, написанных одним и тем же автором от пар, написанных разными авторами.

Page 14: Евгений Свердлов

14

Решение задачи верификации

• Точное решение задачи невозможно, т.к. само понятие «автор» «размыто», поэтому все решения могут быть только с некоторой ошибкой.

• Для решения задачи необходимо набрать корпус текстов для некоторого количества авторов, а так же собрать необходимую информацию для подобных текстов. (Для каждого автора нужно иметь не меньше двух текстов).

• Здесь – 261 текст (русский язык, фантастика). 200 – для 100 авторов. 61 – для получения необходимой информации о подобных текстах.

Page 15: Евгений Свердлов

15

Решение задачи верификации

• В текстах отсутствуют заголовки, а также тексты имеют около 25 стр., около 15000 слов.

• MultAnApp[2.3].• Нужно (в идеале), найти такое C, что D(X,Y) < C,

только если X,Y – написаны одним автором.• Возьмем значения D(X,Y) на всех парах текстов.

Полученные числа (всего 10000) разобьются на два множества. В первом – значения D(X,Y) на текстах, написанных одним автором. Во втором – значения D(X,Y) на текстах, написанных разными автором. Если метод «работает», первое множество должно быть сдвинуто, т.е. значения D(X,Y) на них должны выглядеть примерно так:

Page 16: Евгений Свердлов

16

Решение задачи верификации

Page 17: Евгений Свердлов

17

Решение задачи верификации

• Изменяя порог С, изменяется отношение ошибок. Цель – отношение вероятностей ошибок (т.е. площадей кусков гистограмм) должно быть равно обратному отношению рисков неправильного определения (критерий отношения правдоподобия).

Для оценки метода, как правило, берутся одинаковые риски, т.е. вероятности ошибок равны и оценивается EER. MultAnApp[11]. MultAnApp[ROC].

• Здесь, подразумевалось, что метод «работает».

Page 18: Евгений Свердлов

18

Решение задачи верификации

• Если брать другие наборы текстов и пороги С, EER будут сильно колебаться, то скорее всего метод «плох».Хотелось бы выяснить (косвенно) качество метода.

• Можно сделать так:Вместо одного множества {D(X,Y), где X,Y написаны разными авторами}, 100 раз переставляем случайным образом авторов так, чтобы каждый поменял свое место. Создаем 100 множеств {D(X,Y), где X текст (из первого набора) автора до перестановки, Y – текст автора (из второго набора) после перестановки}(StatText[2.1]).Обычным образом образом находим пороги С и EER(всего 100 пар), используя приближенное оценивание, MultAnApp[3]

Page 19: Евгений Свердлов

19

Решение задачи верификации

• MultAnApp[ROC]• MultAnApp[4]