Евгений Свердлов

1

Верификация авторов, используя

"Многомерный подход"

• Authorship Attribution.

• Решение задачи верификации (один из подходов).

Е. Свердлов

2

Authorship Attribution

• Что можно сказать о человеке, по им написанному тексту(ам)? Анализ текста необходим в таких областях как WWW, судебная экспертиза и т.д.

• Возможных задач может быть бесконечно много (выяснить социальное положение автора, пол, родной язык, возраст, цвет глаз и т.д.)

3


• Актуальные задачи (одни из)1. Идентификация - кто именно написал текст(ы)

(имеем несколько вариантов имен)?

2. Верификация - написан ли текст(ы) «подписавшимся» автором?

3. Плагиаризм – написан ли текст одним автором (наличие плагиата)?

4


Для решения вопросов из Authorship Attribution (в основном) используются следующие инструменты:

1. Unitary Invariant Approach.(например, анализ расстояния Кульбака-Лейблера между распределениями букв).

2. Naïve Bayes (наивный байесовский классификатор , теория проверки гипотез).

3. Multivariate analysis (многомерный анализ, оценка нескольких характеристик).

4. ANOVA (дисперсионный анализ)

5

Authorship Attribution5. Principle component analysis (метод главных

компонент. Выделение наиболее «важных» характеристик. Например, рассмотрение наиболее частотных букв. Понижение размерности.).

6. Markov Model (Марковские модели).7. Machine Learning Approach, NN-neural nets, SVM

(Самообучающиеся системы).8. Linear discriminant analysis (линейный

дискриминантный анализ)9. Комбинация описанных инструментов. 10. …

6


Для решения вопросов из Authorship Attribution (в основном) используются следующие характеристики:

1. Буквы и их n-граммы.2. Слова (длины, части речи, общие характеристики

слов) и их n-граммы.3. Предложения.4. Абзацы.5. Стили.6. Ключевые, выделенные, слова.7. Комбинация описанных выше характеристик.8. …

7


История методов решения:• Unitary Invariant Approach (Одномерный подход).

Анализируется одно качество текстов с целью решить поставленную задачу. Был предложен в конце 19-го века в работе Mendenhall (1887), изучавшего работы Bacon, Marlowe и Shakespeare; Mascol (1888), «изучавшего» Новый Завет. Анализируется одна характеристика текстов с целью решить вопрос. Сперва это был анализ расстояния между распределениями длин слов. Строго, подход был обоснован Ципфом (1932). Yule(1944) решал аналогичные задачи, анализируя длины предложений …

8


Multivariate Analysis Approach (Многомерный подход). Был предложен Mosteller и Wallace

(на основе “Naïve Bayes”) в работе Mosteller, F., Wallace, D. L. (1964), Inference and Disputed Authorship: The Federalist. Reading, Mass. Addison Wesley.

Анализируется несколько характеристик текстов с целью разрешить вопрос.

9


• Principle component analysisБыл предложен Burrows 1987 г. Burrows, J.F. , "Word Patterns and Story Shapes: The Statistical Analysis of Narrative Style", Literary

and Linguistic Computing, 2, 61-70.Идея заключалась в том, чтобы отделить авторов, выделив наиболее «важные» характеристики.

10


• ANOVA

Применение ANOVA (Дисперсионного анализа)

Было предложено Burrows в 1992 в

Burrows, J. F. , Computers and the study of literature. In C. Butler, editor, Computers and Written Text, Applied Language Studies, pages 167-204. Blackwell, Oxford.

Проверятся статистическая зависимость между характеристиками текстами, используя дисперсионный анализ.

11


• Markov ModelМоделирует порядок слов в документе.

Keyword Query Cleaning Using Hidden Markov Models. Ken Q Pu. University of Ontario Inst. of Technology Oshawa, Ontario

Juola, P. (1998). Cross-entropy and linguistic typology. In Proceedings of New Methods in Language Processing 3. Sydney, Australia.

Khmelev D.V. (2001) Disputed Authorship Resolution through Using Relative Empirical Entropy for MarkovChains of Letters in Human Language Text, Journal of Quantitative Linguistics, 7(3), 201-207

12


• Machine Learning ApproachИспользуется техника поиска «наилучшего»решения, исходя из имеющихся данных.(Vapnik, Chervonenkis)Теория обучения описана, например, в Vladimir N. Vapnik. The Nature of Statistical Learning Theory. Second Edition. Springer-Verlag New York, Inc. 1999.Применеие к Authorship Attribution можно прочитать, например, в Koppel, M., Argamon, S. Shimoni, A. (2002), Automatically categorizing written texts by author gender,Literary and Linguistic Computing 17(4), pp. 401-412

13

Решение задачи верификации

• Нужно проверить авторство пришедшего текста, т.е. выяснить, написал ли подписавший этот текст или нет? Пусть T – пришедший текст. S – «известный» текст подписавшегося автора. Есть функция D(X,Y), которая является «мерой близости» текстов X и Y. Предположим, у текстов одного автора значения D «малы», а у разных «велики».

• Найти критерий, использующий D(X,Y), при помощи которого можно отделить пары текстов, написанных одним и тем же автором от пар, написанных разными авторами.

14


• Точное решение задачи невозможно, т.к. само понятие «автор» «размыто», поэтому все решения могут быть только с некоторой ошибкой.

• Для решения задачи необходимо набрать корпус текстов для некоторого количества авторов, а так же собрать необходимую информацию для подобных текстов. (Для каждого автора нужно иметь не меньше двух текстов).

• Здесь – 261 текст (русский язык, фантастика). 200 – для 100 авторов. 61 – для получения необходимой информации о подобных текстах.

15


• В текстах отсутствуют заголовки, а также тексты имеют около 25 стр., около 15000 слов.

• MultAnApp[2.3].• Нужно (в идеале), найти такое C, что D(X,Y) < C,

только если X,Y – написаны одним автором.• Возьмем значения D(X,Y) на всех парах текстов.

Полученные числа (всего 10000) разобьются на два множества. В первом – значения D(X,Y) на текстах, написанных одним автором. Во втором – значения D(X,Y) на текстах, написанных разными автором. Если метод «работает», первое множество должно быть сдвинуто, т.е. значения D(X,Y) на них должны выглядеть примерно так:

16


17


• Изменяя порог С, изменяется отношение ошибок. Цель – отношение вероятностей ошибок (т.е. площадей кусков гистограмм) должно быть равно обратному отношению рисков неправильного определения (критерий отношения правдоподобия).

Для оценки метода, как правило, берутся одинаковые риски, т.е. вероятности ошибок равны и оценивается EER. MultAnApp[11]. MultAnApp[ROC].

• Здесь, подразумевалось, что метод «работает».

18


• Если брать другие наборы текстов и пороги С, EER будут сильно колебаться, то скорее всего метод «плох».Хотелось бы выяснить (косвенно) качество метода.

• Можно сделать так:Вместо одного множества {D(X,Y), где X,Y написаны разными авторами}, 100 раз переставляем случайным образом авторов так, чтобы каждый поменял свое место. Создаем 100 множеств {D(X,Y), где X текст (из первого набора) автора до перестановки, Y – текст автора (из второго набора) после перестановки}(StatText[2.1]).Обычным образом образом находим пороги С и EER(всего 100 пар), используя приближенное оценивание, MultAnApp[3]

19


• MultAnApp[ROC]• MultAnApp[4]

Евгений Свердлов

Documents

Transcript of Евгений Свердлов