Семинар “Machine Learning” рук. проф.: Е.Л. Столов, В.Д....
-
date post
21-Dec-2015 -
Category
Documents
-
view
239 -
download
6
Transcript of Семинар “Machine Learning” рук. проф.: Е.Л. Столов, В.Д....
Семинар “Machine Learning”рук. проф.: Е.Л. Столов, В.Д. Соловьев
• Учебник Бишопа http://research.microsoft.com/en-us/um/people/cmbishop/prml/
• Стэнфордский курс http://videolectures.net/stanfordcs229f07_machine_learning/
Использование данных Google Labs для исследования
эволюции лексики
В.Д. Соловьев, Э.Ю. Лернер Казанский федеральный университет
GOOGLE BOOKS & Ngram Viewer
• GOOGLE BOOKS – хорошо известная электронная библиотека, содержащая 15 миллионов книг (12% всех опубликованных в мире книг)
• Для подсчета частоты слов выбрано подмножество из 5 миллионов книг, содержащих 500 миллиардов (!) слов, в том числе, русскоязычная часть – 35 миллиардов слов
• Реализован удобный интерфейс (Ngram Viewer), предоставляющий статистическую информацию в виде графиков
Частотность
• Прагматически мотивированные изменения частотности языковых элементов приводят к эволюции языка (и лексики, и грамматики)
• Межязыковые различия в частотности “являются значимыми с семантической и, в более общем плане, с общекультурной точки зрения” (А. Вежбицкая)
• Трудоемкость изучения частотности
Эволюция лексики
• Слова рождаются, распространяются и умирают
• Графики отражают характер этих процессов
• Задача 1: построить математические модели эволюционных процессов
• Задача 2: объяснить характер этих процессов
Выводы по динамике распространения слов
• Частота входящих в активный оборот слов растет практически строго по линейному закону
• После короткого пребывания на пике частота падает
• Мало плавных кривых, переход от одной прямой к другой осуществляется быстро
• Также по линейному закону растет частота упоминаний людей или понятий, становящихся популярными
• Проблема. Почему это так?