Machine Learning and Data Mining2016/03/15  · Снижение размерности....

Post on 27-Jun-2020

7 views 0 download

Transcript of Machine Learning and Data Mining2016/03/15  · Снижение размерности....

Machine Learning and Data Mining

Игнатов Дмитрий Игоревич

Национальный исследовательский университет Высшая школа экономикиФакультет компьютерных наук

Департамент анализа данных и искусственного интеллекта

2016

Игнатов Д.И. (ML & DM) 2016 1 / 47

План

1 Программа курсаОценка по курсу

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

Игнатов Д.И. (ML & DM) 2016 2 / 47

План лекции

1 Программа курсаОценка по курсу

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

Игнатов Д.И. (ML & DM) 2016 3 / 47

Примерная программа курса

1 Введение ✓

2 Кластеризация ✓

3 Классификация ✓

4 Частые множества признаков (frequent itemsets) и ассоциативные правила ✓

5 Рекомендательные системы и алгоритмы ✓

6 Анализ формальных понятий и его приложения. Мультимодальная кластеризация ✓

7 Машины опорных векторов (SVM) ✓

8 Регрессия и регуляризация ✓

9 Тематическое моделирование и EM-алгоритм*10 Ансамблевые методы кластеризации*11 Ансамблевые методы классификации*12 Нейронные сети и генетические алгоритмы*13 Отобор признаков. Снижение размерности. Семплирование. Аномалии в данных.*14 Технологии и методы работы с Big Data*15 Статистический взгляд на машинное обучение*

Игнатов Д.И. (ML & DM) 2016 4 / 47

Итоговая оценка

Сценарий 1Домашние задания+зачет (экзамен)

Сценарий 2Домашние задания + проект (индивидуальный или групповой)+зачет(экзамен)

Игнатов Д.И. (ML & DM) 2016 5 / 47

План лекции

1 Программа курсаОценка по курсу

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

Игнатов Д.И. (ML & DM) 2016 6 / 47

О терминологии. KDD и Data Mining

Knowledge discovery in Databases (KDD)KDD is the nontrivial process of identifying valid, novel, potentially useful, andultimately understandable patterns in data.

Fayyad, Piatetsky-Shapiro, and Smyth 1996

Data MiningData mining is a step in the KDD process that consists of applying data analysisand discovery algorithms that produce a particular enumeration of patterns (ormodels) over the data.

Там же

Игнатов Д.И. (ML & DM) 2016 7 / 47

О терминологии. KDD и Data Mining

Схема процесса обнаружения знаний в данных

(Fayyad, Piatetsky-Shapiro, and Smyth 1996)

Игнатов Д.И. (ML & DM) 2016 8 / 47

О терминологии. KDD и Data Mining[J. Han et al., Data Mining. Concepts and Techniques, 3rd Ed., 2012]

1 Data cleaning2 Data integration3 Data selection4 Data transformation5 Data mining (an essential process where intelligent methods are applied to

extract data patterns)6 Pattern evaluation7 Knowledge presentation

Data MiningData mining is the process of discovering interesting patterns and knowledge fromlarge amounts of data.

Игнатов Д.И. (ML & DM) 2016 9 / 47

О терминологии. Машинное обучение[T. Mitchell. The Discipline of Machine Learning,2006]

Основной вопрос в машинном обученииHow can we build computer systems that automatically improve with experience,and what are the fundamental laws that govern all learning processes?

Более точноTo be more precise, we say that a machine learns with respect to a particular taskT , performance metric P, and type of experience E , if the system reliably improvesits performance P at task T , following experience E . Depending on how wespecify T , P, and E , the learning task might also be called by names such as datamining, autonomous discovery, database updating, programming by example, etc.

Игнатов Д.И. (ML & DM) 2016 10 / 47

О межпредметных связях

Гипотеза

Data Mining ?= Machine Learning

Связанные дисциплиныComputer Science (Информатика)Artificial Intelligence (Искусственный интеллект)Pattern Recognition (Распознавание образов)Information Retrieval (Информационный поиск)Social Network Analysis (Анализ социальных сетей)Теория вероятностей и математическая статистикаДискретная математика (в т.ч. порядки и графы)Optimization (Методы оптимизации)

Игнатов Д.И. (ML & DM) 2016 11 / 47

Области применения DM&ML

Области примененияБизнесМедицинаОбразованиеНауки о жизниИнтернет-данныеБанковское дело и финансы...

Игнатов Д.И. (ML & DM) 2016 12 / 47

Тренды в областях применения DM&ML[J. Han et al., 2012]

Application exploration: e.g., counter-terrorism and mobile (wireless) dataminingScalable and interactive data mining methodsIntegration of data mining with search engines, database systems, datawarehouse systems, and cloud computing systemsMining social and information networksMining spatiotemporal, moving-objects, and cyber-physical systemMining multimedia, text, and web dataMining biological and biomedical dataData mining with software engineering and system engineeringVisual and audio data miningDistributed data mining and real-time data stream miningPrivacy protection and information security in data mining

Игнатов Д.И. (ML & DM) 2016 13 / 47

Таксономия методов DM&ML

Машинное обучение и разработка

данных

Кластеризация Классификация

Обучение без учителя

Обучение с учителем

Ранжирование РегрессияПоиск

«интересных» паттернов

Отбор признаков

Обнаружение аномалий

Снижение размерности

Игнатов Д.И. (ML & DM) 2016 14 / 47

КластеризацияПостановка задачи

Найти разбиение исходного множества объектов на группы (кластеры).Объекты внутри одного кластера обладают высоким сходством.Объекты из разных кластеров сильно различаются.

Игнатов Д.И. (ML & DM) 2016 15 / 47

КластеризацияМетоды кластеризации

Метод k-среднихИерархическая кластеризация (агломеративный и дивизимный подходы)Спектральная кластеризацияМультимодальная кластеризация: бикластеризация и трикластеризация.

Игнатов Д.И. (ML & DM) 2016 16 / 47

КластеризацияМетод k-средних

Игнатов Д.И. (ML & DM) 2016 17 / 47

КлассификацияПостановка задачи

По описанию объектов некоторого множества с известными меткамиклассов определить класс объектов той же природы (в том жепризнаковом пространстве) с неизвестными метками.

Игнатов Д.И. (ML & DM) 2016 18 / 47

КлассификацияДеревья решений в оценке кредитного риска

Игнатов Д.И. (ML & DM) 2016 19 / 47

КлассификацияМетоды классификации

Алгоритм 1-RulekNN классификатор (k ближайших соседей)Наивный баейсовский классификатор (Naıve Bayes сlassifier)Деревья решений (decision trees)Машины опорных векторов (Support Vector Machines (SVM))ДСМ-метод (в честь Джона Стюарта Милля)

Игнатов Д.И. (ML & DM) 2016 20 / 47

КлассификацияМашины опорных векторов (SVM)

Игнатов Д.И. (ML & DM) 2016 21 / 47

Регрессия

Линейная парная и множественная регрессия (Эконометрика иматематическая статистика)Лассо-регуляризация. Логистическая регрессия как методклассификации. (Этот курс)

Игнатов Д.И. (ML & DM) 2016 22 / 47

Поиск паттернов/зависимостейПостановка задачи

Поиск закономерностей в данных об использовании каких-либо ресурсов.Например, часто используемых вместе ресурсов.Пример. support({хлеб, молоко}) = 0.7

Часто такие закономерности записываются в виде правил A −→ B

Пример. {Студент, Возраст от 16 до 25} −→ {iPhone, iPad}

Игнатов Д.И. (ML & DM) 2016 23 / 47

Поиск паттернов/зависимостей

The FIMI’03 best implementation award was granted to Gosta Grahne and Jianfei Zhu (on the left). The award consisted of themost frequent itemset: {diapers, beer}.

Игнатов Д.И. (ML & DM) 2016 24 / 47

Ранжирование

Игнатов Д.И. (ML & DM) 2016 25 / 47

Рекомендательные системыhttp://Amazon.com

Игнатов Д.И. (ML & DM) 2016 26 / 47

Рекомендательные системыhttp://Imhonet.ru

Игнатов Д.И. (ML & DM) 2016 27 / 47

Обучение предпочтениямhttp://www.preference-learning.org/

Игнатов Д.И. (ML & DM) 2016 28 / 47

Big DataТехнология MapReduce

Игнатов Д.И. (ML & DM) 2016 29 / 47

Big DataТехнология MapReduce

Игнатов Д.И. (ML & DM) 2016 30 / 47

Big DataПроект Apache Mahout

Что такое Apache Mahout?Apache MahoutTM – библиотека масштабируемых методов машинногообучения в основном по технологии MapReduce.

Игнатов Д.И. (ML & DM) 2016 31 / 47

Big DataПроект Apache Spark

Что такое Apache Spark?“Apache SparkTM is a fast and general engine for large-scale data processing.”Включает библиотеку методов машинного обучения MLlib.Работает как с Hadoop, так и без.

Игнатов Д.И. (ML & DM) 2016 32 / 47

План лекции

1 Программа курсаОценка по курсу

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

Игнатов Д.И. (ML & DM) 2016 33 / 47

Системы машинного обучения и анализа данных

1 Orange (freely available)2 Weka (freely available)3 Knime (community edition for free)4 RapidMiner (community edition for free)5 Deductor (бесплатная версия для обучения)6 QuDA (freely available)

Игнатов Д.И. (ML & DM) 2016 34 / 47

Библиотеки машинного обучения и анализа данных

1 scikit-learn (freely available Machine Learning in Python)2 MALLET –– MAchine Learning for LanguagE Toolkit (freely available)3 Accord.NET Framework (.NET machine learning framework combined with

audio and image processing libraries completely written in C#)4 Infer.NET (framework for running Bayesian inference in graphical models)5 R (free software environment for statistical computing and graphics+many

packages for ML&DM)

Игнатов Д.И. (ML & DM) 2016 35 / 47

Стандарты в ML&DMhttp://www.dmg.org

PMMLЯзык разметки для прогнозного моделирования (Predictive Model MarkupLanguage — PMML) разработан Data Mining Group (DMG) на основе XML,обеспечивает приложениям способ определения моделей машинногообучения и Data Mining, а также обмен такими моделями междуPMML-совместимыми приложениями.

Игнатов Д.И. (ML & DM) 2016 36 / 47

План лекции

1 Программа курсаОценка по курсу

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

Игнатов Д.И. (ML & DM) 2016 37 / 47

Книги

P. Flach Machine Learning: The Art and Science of Algorithms that MakeSense of Data, 2012M. Zaki et al. Data Mining and Analysis: Fundamental Concepts andAlgorithms, 2014 (free)J. Leskovec et al. Mining of Massive Datasets, 2014 (free)C.M. Bishop Pattern Recognition and Machine Learning, 2006D. Barber Bayesian Reasoning and Machine Learning, 2012 (free)K.P. Murphy Machine Learning: a Probabilistic Perspective, 2012T. Hastie et al. Elements of Statistical Learning, 2009 (free)G. James et al. An Introduction to Statistical Learning with Applications inR, 2013 (free)J. Han et al. Data Mining. Concepts and Techniques, 2012Т. Митчелл Machine Learning, 1997Т. Сегаран Программируем коллективный разум, 2007 (на английском)Барсегян А. и др. Анализ данных и процессов, 2009

Игнатов Д.И. (ML & DM) 2016 38 / 47

Портал machinelearning.ruhttp://machinelearning.ru

Лекции К.В. Воронцова. Математические методы обучения попрецедентам (машинное обучение)Лекции Д.П. Ветрова, Д.А. Кропотова Байесовские методы машинногообучения, 2014Учебник А.Г. Дьяконова. Анализ данных, обучение по прецедентам,логические игры, системы WEKA, RapidMiner и MatLab, 2010

Игнатов Д.И. (ML & DM) 2016 39 / 47

Лекции и книга С. Николенкоhttp://logic.pdmi.ras.ru/~sergey/

Игрок Что?Где?Когда?С.Николенко, А. Тулупьев. Самообучающиеся системы 2009

Игнатов Д.И. (ML & DM) 2016 40 / 47

Coursera: курсы и специализацииhttp://www.coursera.org/

Andrew Ng. Machine LearningJiawei Han Pattern Discovery in Data MiningJure Leskovec et al. Mining Massive DatasetsHastie & Tibshirani Statistical Learning

Специализации (платные сертификаты) –– состоят из отдельных курсов(участие бесплатно)

Data MiningData Science

Игнатов Д.И. (ML & DM) 2016 41 / 47

Deep Learning (Глубинное обучение или глубокоеобучение)

Deep Learning by UdacityDeep Learning Course by NVIDIAGeoffrey Hinton. Neural Networks for Machine Learning (2012)

Игнатов Д.И. (ML & DM) 2016 42 / 47

ИНТУИТhttp://intuit.ru

Интернет-университет информационных технологийК.В. Воронцов Машинное обучение, 2015 (Видео к курсу на сайте ШАД)И.А. Чубукова. Data Mining, 2006

Игнатов Д.И. (ML & DM) 2016 43 / 47

Сообщество

IMLS – The International Machine Learning SocietyKaggle – платформа для соревнований по анализу данныхKDD Nuggets – Data Mining Community Top ResourceOpen ML – Machine Learning community portalUCI Machine Learning Repository – Репозиторий данных

Игнатов Д.И. (ML & DM) 2016 44 / 47

Конференции

ICML – International Conference on Machine LearningIEEE ICDM – IEEE International Conference on Data MiningKDD – ACM SIGKDD Conference on Knowledge Discovery and Data MiningECML & PKDD – European Conference on Machine Learning and Principlesand Practice of Knowledge Discovery in DatabasesNIPS – Neural Information Processing SystemsRecSys – The ACM conference series on Recommender SystemsИОИ & ММРО – Серия конференций «Интеллектуализация обработкиинформации»/«Математические методы распознавания образов»АИСТ – International conference on Analysis of Images, Social Networks,and Texts

Игнатов Д.И. (ML & DM) 2016 45 / 47

Just for fun или шутки радиhttp://dilbert.com

Игнатов Д.И. (ML & DM) 2016 46 / 47

Вопросы и контактыwww.hse.ru/staff/dima

Спасибо!dmitrii.ignatov[at]gmail.com

Игнатов Д.И. (ML & DM) 2016 47 / 47