Introduction

43
О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Вводное занятие Царьков Сергей Валерьевич ООО «Аналитические технологии» Кружок по анализу данных 12 октября 2013 С. В. Царьков ([email protected]) Вводное занятие 1 / 31

description

 

Transcript of Introduction

Page 1: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Вводное занятие

Царьков Сергей ВалерьевичООО «Аналитические технологии»

Кружок по анализу данных

12 октября 2013

С. В. Царьков ([email protected]) Вводное занятие 1 / 31

Page 2: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

План

1 О кружке

2 Знакомство с KaggleОбщие сведения о KaggleСоревнования

3 Предлагаемые задачиFacebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

4 Некоторые рекомендуемые инструменты

5 Полезные ресурсыЭлектронные ресурсыЛитература

С. В. Царьков ([email protected]) Вводное занятие 2 / 31

Page 3: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Организатор

BaseGroup Labs – профессиональный поставщик программныхпродуктов и решений в области анализа данных.Специализируется на разработке систем для глубокого анализаданных, охватывающих вопросы сбора, консолидации, очисткиданных, построения моделей и визуализации.

С. В. Царьков ([email protected]) Вводное занятие 3 / 31

Page 4: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Организация работы кружка

Соревнование по решению задач анализа данных (спомощью Kaggle)

Очные обсуждения решаемых задач

Обсуждения через электронную почту

Обсуждения в электронном классе научного кружка:https://studentsbasegroup.wikispaces.com/

Выступления с докладами

Оценка результатов и подведение итогов

С. В. Царьков ([email protected]) Вводное занятие 4 / 31

Page 5: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Платформа для предсказательного моделирования

Kaggle (www.kaggle.com) - это платформа, позволяющаялюдям с данными и задачами взаимодействовать с людьми,которые умеют решать их задачи по их данным.

Задачи Данные Участники

С. В. Царьков ([email protected]) Вводное занятие 5 / 31

Page 6: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Алгоритм работы с Kaggle

1 Зарегистрироваться в Kaggle (имена команд/участниковнаучного кружка должны начинаться с префикса «BG_»)

2 Выбрать соревнование

3 Скачать данные выбранного соревнования

4 Построить модель

5 Загрузить результат работы модели в Kaggle в заданномформате

6 Дождаться подведения итогов соревнования

С. В. Царьков ([email protected]) Вводное занятие 6 / 31

Page 7: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Типы соревнований (1)

Featured. Публичное соревнование со значительнымденежным призом, заключающееся в решениикоммерческой задачи.

С. В. Царьков ([email protected]) Вводное занятие 7 / 31

Page 8: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Типы соревнований (1)

Featured. Публичное соревнование со значительнымденежным призом, заключающееся в решениикоммерческой задачи.

Recruitment. Публичное соревнование, где спонсорконкурса подбирает потенциальных кандидатов надолжность исследователя-аналитика. Доступно толькоиндивидуальное участие, групповое — запрещено.

С. В. Царьков ([email protected]) Вводное занятие 7 / 31

Page 9: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Типы соревнований (1)

Featured. Публичное соревнование со значительнымденежным призом, заключающееся в решениикоммерческой задачи.

Recruitment. Публичное соревнование, где спонсорконкурса подбирает потенциальных кандидатов надолжность исследователя-аналитика. Доступно толькоиндивидуальное участие, групповое — запрещено.

Kaggle Prospect. Публичное соревнование, в которомцелью является не построение модели, а интерпретация ивизуализация данных. В большинстве случаевпользователям разрешено голосовать и комментироватьработы других участников. Эти отзывы учитываются впроцессе оценивания работ.

С. В. Царьков ([email protected]) Вводное занятие 7 / 31

Page 10: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Типы соревнований (2)

Research. Публичное соревнование с целью проведенияисследования или ради общественного блага.Вознаграждения: денежные призы / приглашения наконференции / публикации в рецензируемых журналах.

С. В. Царьков ([email protected]) Вводное занятие 8 / 31

Page 11: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Типы соревнований (2)

Research. Публичное соревнование с целью проведенияисследования или ради общественного блага.Вознаграждения: денежные призы / приглашения наконференции / публикации в рецензируемых журналах.

Getting Started. Публичное соревнование без денежныхпризов для людей, которые не уверены в своих силах.

С. В. Царьков ([email protected]) Вводное занятие 8 / 31

Page 12: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Типы соревнований (2)

Research. Публичное соревнование с целью проведенияисследования или ради общественного блага.Вознаграждения: денежные призы / приглашения наконференции / публикации в рецензируемых журналах.

Getting Started. Публичное соревнование без денежныхпризов для людей, которые не уверены в своих силах.

Подробнее: http://www.kaggle.com/wiki/KaggleMemberFAQ

С. В. Царьков ([email protected]) Вводное занятие 8 / 31

Page 13: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Атрибуты соревнования

Дата начала конкурса.

Дата окончания конкурса.

С. В. Царьков ([email protected]) Вводное занятие 9 / 31

Page 14: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Атрибуты соревнования

Дата начала конкурса.

Дата окончания конкурса.

Описание (Description).

С. В. Царьков ([email protected]) Вводное занятие 9 / 31

Page 15: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Атрибуты соревнования

Дата начала конкурса.

Дата окончания конкурса.

Описание (Description).

Критерии качества (Evaluation).

С. В. Царьков ([email protected]) Вводное занятие 9 / 31

Page 16: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Атрибуты соревнования

Дата начала конкурса.

Дата окончания конкурса.

Описание (Description).

Критерии качества (Evaluation).

Правила (Rules).

С. В. Царьков ([email protected]) Вводное занятие 9 / 31

Page 17: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Атрибуты соревнования

Дата начала конкурса.

Дата окончания конкурса.

Описание (Description).

Критерии качества (Evaluation).

Правила (Rules).

Призы (Prizes) (если есть).

С. В. Царьков ([email protected]) Вводное занятие 9 / 31

Page 18: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Общие сведенияСоревнования

Атрибуты соревнования

Дата начала конкурса.

Дата окончания конкурса.

Описание (Description).

Критерии качества (Evaluation).

Правила (Rules).

Призы (Prizes) (если есть).

В зависимости от сроков проведения, соревнования могутбыть активными или завершенными.

С. В. Царьков ([email protected]) Вводное занятие 9 / 31

Page 19: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

1 Facebook Recruiting III - Keyword Extraction

2 Personalize Expedia Hotel Searches - ICDM 2013

3 Personalized Web Search Challenge

С. В. Царьков ([email protected]) Вводное занятие 10 / 31

Page 20: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Facebook Recruiting III - Keyword Extraction

Определение ключевых слов и тегов для миллиона текстовыхзапросов.

Тип конкурса Recruitment

Дата окончания 20.12.2013

Участие Индивидуальное

Критерий качества F1-мера

С. В. Царьков ([email protected]) Вводное занятие 11 / 31

Page 21: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Данные

Прилагаемые файлы с данными:

Train.zip (2.19 GB);

Test.zip (725.10 MB);

SampleSubmission.csv (78.72 MB).

Имя поля Описание

Id Уникальный идентификатор для каждого вопросаTitle Заголовок вопросаBody Текст вопросаTags Теги, связанные с вопросом

С. В. Царьков ([email protected]) Вводное занятие 12 / 31

Page 22: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Матрица классифкации

Фактически

Модель Положительно Отрицательно

Положительно ntp nfpОтрицательно nfn ntn

ntp — верно классифицированные положительные примеры(истинно положительные случаи);

ntn — верно классифицированные отрицательные примеры(истинно отрицательные случаи);

nfn — ошибочно классифицированные положительныепримеры (ошибка I рода, «ложный пропуск»);

nfp — ошибочно классифицированные отрицательныепримеры (ошибка II рода, «ложная тревога»).

С. В. Царьков ([email protected]) Вводное занятие 13 / 31

Page 23: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Точность и полнота

Пусть задана выборка Xm = (x1, . . . , xm) с соответствующимиответами (y1, . . . , ym), yi ∈ {−1,+1}. Тогда для некоторогоклассификатора a(x) можно определить два критерия качества:

С. В. Царьков ([email protected]) Вводное занятие 14 / 31

Page 24: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Точность и полнота

Пусть задана выборка Xm = (x1, . . . , xm) с соответствующимиответами (y1, . . . , ym), yi ∈ {−1,+1}. Тогда для некоторогоклассификатора a(x) можно определить два критерия качества:

1 Точность (Precision):

P =

∑mi=1[a(xi ) = +1][yi = +1]∑m

i=1[a(xi ) = +1]=

ntp

ntp + nfp.

С. В. Царьков ([email protected]) Вводное занятие 14 / 31

Page 25: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Точность и полнота

Пусть задана выборка Xm = (x1, . . . , xm) с соответствующимиответами (y1, . . . , ym), yi ∈ {−1,+1}. Тогда для некоторогоклассификатора a(x) можно определить два критерия качества:

1 Точность (Precision):

P =

∑mi=1[a(xi ) = +1][yi = +1]∑m

i=1[a(xi ) = +1]=

ntp

ntp + nfp.

2 Полнота (Recall):

R =

∑mi=1[a(xi) = +1][yi = +1]∑m

i=1[yi = +1]=

ntp

ntp + nfn.

С. В. Царьков ([email protected]) Вводное занятие 14 / 31

Page 26: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

F1-мера

F1-мера — это среднее гармоническое точности и полноты:

F1 =2PR

P + R.

С. В. Царьков ([email protected]) Вводное занятие 15 / 31

Page 27: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

F1-мера

F1-мера — это среднее гармоническое точности и полноты:

F1 =2PR

P + R.

УпражнениеКоэффициент Дайса (Dice coeffient) для двух множеств — этомера их пересечения, поделенная на их объем (так, чтобырезультат лежал в диапазоне от нуля до единицы).

Dice(X ,Y ) =2|X ∩ Y |

|X | ∪ |Y |.

Покажите, что F1-мера равна коэффициенту Дайса длямножеств найденных и ключевых слов.

С. В. Царьков ([email protected]) Вводное занятие 15 / 31

Page 28: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Personalize Expedia Hotel Searches - ICDM 2013

Ранжирование отелей для максимизации продаж

Тип конкурса Featured

Дата окончания 4.11.2013

Участие Индивидуальное или групповое

Критерий качества NDCG@38

Приз Kaggle $25000

С. В. Царьков ([email protected]) Вводное занятие 16 / 31

Page 29: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Данные

Прилагаемые файлы с данными:

Train.csv — обучающее множество примеров.

Test.csv — тестовое множество примеров. Содержит те жеполя, что и в обучающем множестве кроме position,click_bool, gross_bookings_usd, nor booking_bool.

testOrderBenchmark.zip, testOrderBenchmark.zip иrandomBenchmark.zip — примеры работы моделей ивыходных файлов.

С. В. Царьков ([email protected]) Вводное занятие 17 / 31

Page 30: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Релевантность страниц отелей

5 — пользователь оплатил номер в отеле

1 — пользователь кликнул на просмотр подробнойинформации об отеле

0 — пользователь не стал оплачивать номер в отеле и нестал просматривать подробную информацию об отеле.

С. В. Царьков ([email protected]) Вводное занятие 18 / 31

Page 31: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Нормированная дисконтированная совокупная выгода

Normalized Discounted Cumulative Gain (NDCG):

NDCG =DCG

IDCG,

DCG =

p∑

i=1

2reli − 1

log2(i + 1),

где IDCG — это DCG , рассчитанный для идеальногоранжирования, p — количество первых документов в запросе,reli — фактическая релевантность документа из i -ой позициизапросу.

С. В. Царьков ([email protected]) Вводное занятие 19 / 31

Page 32: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Пример NDCG@6

i reli log2i2reli−1

log2(i+1)

1 3 1 72 2 1.585 1.8933 3 2 3.54 0 2.322 05 1 2.585 0.3876 2 2.807 1.069

DCG = 13,848

i reli log2i2reli−1

log2(i+1)

1 3 1 72 3 1.585 4.4173 2 2 1.54 2 2.322 1.292035 1 2.585 0.3876 0 2.807 0

IDCG = 14,595

NDCG = 0.949

С. В. Царьков ([email protected]) Вводное занятие 20 / 31

Page 33: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Personalized Web Search Challenge

Персонализация веб-поиска

Тип конкурса Featured

Дата окончания 10.01.2014

Участие Индивидуальное или групповое

Критерий качества NDCG@10

Приз Kaggle $5000, $3000, $1000

С. В. Царьков ([email protected]) Вводное занятие 21 / 31

Page 34: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Данные

Прилагаемые файлы с данными:

train.gz — обучающее множество примеров (распакованный16GB).

test.gz — тестовое множество примеров.

random-baseline.gz — пример результата.

Данные:

Уникальных запросов: 21 073 569

Уникальных url: 70 348 426

Уникальных пользователей: 5 736 333

Сессий в обучающем множестве: 34 573 630

Сессий в тестовом множестве: 797 867

Всего записей в логе: 167 413 039

С. В. Царьков ([email protected]) Вводное занятие 22 / 31

Page 35: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Релевантность документов

0 — документы без кликов или c кликами, если время доследующего клика было строго меньше 50.

1 — документы с кликами и время до следующего кликапо другому документу от 50 до 399 (включительно).

2 — документы с кликами и время до следующего кликапо другому документу в пределах сессии выше 400, либодокументы с последним кликом во время сессии.

С. В. Царьков ([email protected]) Вводное занятие 23 / 31

Page 36: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Facebook Recruiting III - Keyword ExtractionPersonalize Expedia Hotel Searches - ICDM 2013Personalized Web Search Challenge

Возможны и другие соревнования

Вы можете посмотреть открытые соревнования по адресу:http://www.kaggle.com/competitions

При наличии минимум 3х команд соревнование может бытьдобавлено в конкурс научного кружка.

С. В. Царьков ([email protected]) Вводное занятие 24 / 31

Page 37: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Некоторые рекомендуемые инструменты

Deductor Academic

Weka

RapidMiner

Talend Open Studio

Готовые библиотеки: libsvm, mahout, mallet и т.д.

The Apache Lucene (много полезных классов дляобработки текста)

С. В. Царьков ([email protected]) Вводное занятие 25 / 31

Page 38: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Электронные ресурсыЛитература

Полезные электронные ресурсы

Форум Kaggle: http://www.kaggle.com/forums

Сайт BaseGroup Labs http://www.basegroup.ru/

MachineLearning.ru

Школа анализа данных http://shad.yandex.ru/

Академия Google http://scholar.google.com/

Страничка научного кружкаhttps://studentsbasegroup.wikispaces.com/

С. В. Царьков ([email protected]) Вводное занятие 26 / 31

Page 39: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Электронные ресурсыЛитература

Рекомендуемая литература

1 Н. Б. Паклин, В. И. Орешков. Бизнес-аналитика: отданных к знаниям (+ СD): учеб. пособие. — 2-е изд., испр.- СПб.: Питер, 2013. — 704 с.: ил.

2 A. Г. Дьяконов. Анализ данных, обучение попрецедентам, логические игры, системы WEKA,RapidMiner и MatLab (практикум на эвм кафедрыматематических методов прогнозирования). —МАКСПресс, 2010. — 278 с. скачать с MachineLearning.ru

С. В. Царьков ([email protected]) Вводное занятие 27 / 31

Page 40: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Электронные ресурсыЛитература

Дополнительная литература

1 К.В. Воронцов. Математические методы обучения попрецедентам (теория обучения машин). Курс лекций.скачать с MachineLearning.ru

2 А. Н. Ширяев. Вероятностно-статистические методы втеории принятия решений.

3 М. А. Бабенко, М. В. Левин. Введение в теориюалгоритмов и структур данных.

4 Н. К. Верещагин, Е. В. Щепин. Информация,кодирование и предсказание.

5 А. Я. Червоненкис. Компьютерный анализ данных.

С. В. Царьков ([email protected]) Вводное занятие 28 / 31

Page 41: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Электронные ресурсыЛитература

Дополнительная литература (для углубленного изученияанализа данных)

1 Р. Рокафеллар. Выпуклый анализ. М.: Мир, 1973.

2 Б.Т. Поляк. Введение в оптимизацию. М.: Наука, 1983.

3 А.Н. Ширяев. Вероятность 1-2. 4ое издание, изд-воМЦНМО, 2007.

4 К.В. Воронцов. Теория надёжности обучения попрецедентам (комбинаторная теория переобучения). Курслекций. скачать с MachineLearning.ru

5 А. Ахо, Д. Хопкрофт, Д. Ульман. Построение и анализвычислительных алгоритмов. М.: Мир, 1999.

С. В. Царьков ([email protected]) Вводное занятие 29 / 31

Page 42: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Электронные ресурсыЛитература

Дополнительная литература (для углубленного изученияанализа данных)

6 Т. Кормен, Ч. Лейзерсон, Р. Ривест. Алгоритмы:построение и анализ. М.: МЦНМО, 1999.

7 В.Н. Вапник, А.Я. Червоненкис. Теория распознаванияобразов. Москва, Наука 1974.

8 В.Н. Вапник. Восстановление зависимостей поэмпирическим данным. Москва, Наука 1979.

9 Алгоритмы и программы восстановления зависимостей.Под ред. В.Н. Вапника. М, Наука 1984.

10 V.N. Vapnik. The Nature of Statistical Learning Theory.Springer, New York 2000.

С. В. Царьков ([email protected]) Вводное занятие 30 / 31

Page 43: Introduction

О кружкеЗнакомство с Kaggle

Предлагаемые задачиНекоторые рекомендуемые инструменты

Полезные ресурсы

Электронные ресурсыЛитература

Спасибо за внимание!

С. В. Царьков ([email protected]) Вводное занятие 31 / 31