2013 11 01_machine_learning_lecture_07

22
Линейные модели: введение по материалам "The Elements of Statistical Learning" И. Куралёнок, Н. Поваров Яндекс СПб, 2013 И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 1 из 22

description

 

Transcript of 2013 11 01_machine_learning_lecture_07

Page 1: 2013 11 01_machine_learning_lecture_07

Линейные модели: введениепо материалам "The Elements of Statistical Learning"

И. Куралёнок, Н. Поваров

Яндекс

СПб, 2013

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 1 из 22

Page 2: 2013 11 01_machine_learning_lecture_07

Формальная постановка

Ищем решающую функцию в виде:

y = F (λ, x) = λTx

Такое решение кажется примитивным!

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 2 из 22

Page 3: 2013 11 01_machine_learning_lecture_07

Формальная постановка

Ищем решающую функцию в виде:

y = F (λ, x) = λTx

Такое решение кажется примитивным!До того как мы расскажем что такое x .

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 3 из 22

Page 4: 2013 11 01_machine_learning_lecture_07

Какое x бывает

Просто фичи:x ∈ Rn

Мономы:u ∈ Rnx =

∏uj

Произвольные функции:

u ∈ Rnx : Rn → R

В любом случае мы всегда можем посчитать значениеx по входным параметрам.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 4 из 22

Page 5: 2013 11 01_machine_learning_lecture_07

Простое решение

arg minλ‖F (X , λ)− y‖ = arg min

λ‖Xλ− y‖

Если норма l2, то:

∂T

∂X= 2XT (Xλ− y) = 0

λ0 = (XTX )−1XTy

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 5 из 22

Page 6: 2013 11 01_machine_learning_lecture_07

Геометрическая интерпретацияЕсли посмотреть на колонки, соответствующие фичам токартинка такая:

Об этом говорит (если нам все удалось):

XT (y − y) = XT (y − Xλ0) = 0

В случае, если rank(X ) < n ортогональность остается!И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 6 из 22

Page 7: 2013 11 01_machine_learning_lecture_07

Статистические свойства решенияЕсли наблюдения независимы, Var(y) = const, а xвычислены точно:

Var(λ) =(XTX

)−1 1m − n − 1

‖y − y‖2

А если еще и предположить, что y = λT1 x + ε иε ∼ N(0, σ):

λ0 ∼ N(λ1,(XTX

)−1σ2)

а наблюдаемая σ для y распределена по χ2:

(n −m − 1)σ = ‖y − y‖2 ∼ σχ2m−n−1

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 7 из 22

Page 8: 2013 11 01_machine_learning_lecture_07

А точно λ0i 6= 0?

Введем такую штуку (Z -score):

zi =λ0i

σ√vi

где vi — диагональный элемент(XTX

)−1. Еслиподумать что λ0i = 0, то:

zi ∼ Tm−n−1

Чем больше Z -score, тем более мы уверены, чтоλ0i 6= 0

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 8 из 22

Page 9: 2013 11 01_machine_learning_lecture_07

Теорема Гаусса-Маркова

TheoremЛинейное приближение по MSE обладает нанаименьшим разбросом из всех несмещенныхлинейных решений

⇒ для того, чтобы сделать решение болеестабильным надо вводить bias

⇒ простым MSE нам не отделаться, надо будетменять T

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 9 из 22

Page 10: 2013 11 01_machine_learning_lecture_07

Расширение на несколько целей

yi ∈ Rk

В этом случае задача превращается в такую:

arg minΛ

tr((Y − XΛ)T (Y − XΛ)

)Λ0 =

(XTX

)−1XTY

Если же y = xTΛ + ε, ε ∼ N(0,Σ):

arg minΛ

((Y − XΛ)TΣ−1(Y − XΛ)

)И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 10 из 22

Page 11: 2013 11 01_machine_learning_lecture_07

Классификация

x ∈ Rn, y ∈ {1, . . . , k}

Введем дискриминационные функции для каждого класса. Укакого класса больше, тот и молодец. Там где равны — границырешения.NB: монотонные преобразования дискриминационнымфункциям не страшны

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 11 из 22

Page 12: 2013 11 01_machine_learning_lecture_07

Линейное решение задачиклассификации

Можем пойти по-простому и решить регрессией:

γij =

{1, i = yi0

В терминах предсказания γ решаем:

arg minΛ

tr((Γ− XΛ)T (Γ− XΛ)

)

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 12 из 22

Page 13: 2013 11 01_machine_learning_lecture_07

Сложности с простым решением

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 13 из 22

Page 14: 2013 11 01_machine_learning_lecture_07

Линейный дискриминантный анализ(LDA)

Представим себе, что точки порождены смесьюнормальных распределений по одному на класс:

fj =1√

(2π)n|Σj |e−

12 (x−µj)

TΣ−1j (x−µj)

Границы решения прямые! Если зафиксировать Σ:

fj(x) = xTΣ−1µj −12µTj Σ−1µj + logπj

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 14 из 22

Page 15: 2013 11 01_machine_learning_lecture_07

LDA: решение

Можно решать напрямую:

πj =mj

m ,µj = 1

mj

∑xu:yu=j xu,

Σ = 1m−k

∑kj=1∑

xu:yu=j(xu − µj)(xu − µj)T

Можно EM даже не заморачиваясь одинаковыми Σj

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 15 из 22

Page 16: 2013 11 01_machine_learning_lecture_07

LDA: свойства

Нормальные распределения в основеРешение в аналитическом видеРаботает даже в далеких от “гауссовых” ситуацийИмеет расширение в квадратичные мономы (QDA)Часто рассматривают диагональные Σk дляускорения вычисленийМожно использовать Σk = αΣ0 + (1− α)Σk

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 16 из 22

Page 17: 2013 11 01_machine_learning_lecture_07

Логистическая регрессияБудем искать не дискриминантные функции, анапрямую границы между классами:

log

(P(y = u|x)

P(y = k |x)

)= xTλu

Преобразование справа — logit. Тогда вероятностиможно найти так:

p(y = u|x) =xTλu

1 +∑

v<k xTλv

, u < k

p(y = k |x) =1

1 +∑

v<k xTλv

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 17 из 22

Page 18: 2013 11 01_machine_learning_lecture_07

Оптимизация логистическая регрессия

Вероятности у нас есть, давайте максимизироватьправдоподобие!

arg maxΛ

∏i

p(yi |xi ,Λ)

= arg maxΛ

∑i

logxTλu

1 +∑

v<k xTλv

Как будем искать?

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 18 из 22

Page 19: 2013 11 01_machine_learning_lecture_07

Оптимизация логистическая регрессия

Вероятности у нас есть, давайте максимизироватьправдоподобие!

arg maxΛ

∏i

p(yi |xi ,Λ)

= arg maxΛ

∑i

logxTλu

1 +∑

v<k xTλv

Как будем искать?

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 19 из 22

Page 20: 2013 11 01_machine_learning_lecture_07

Когда что?

Есть много точек, для которых нет оценок ⇒ LDAЕсть подозрение на близость к норамльности ⇒LDAХотим использовать prior ⇒ LDAВо всех остальных случаях логистическаярегрессия, особенно если есть много outlier’ов

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 20 из 22

Page 21: 2013 11 01_machine_learning_lecture_07

Результаты ДЗ второй недели1 6af9df2 dccc3e3 f33f664 f1015e5 f33f2d6 4580487 93184e8 6080729 824e7610 88d59311 cfd27112 48364c13 c5b93014 080c0715 57956916 01b98817 68c81918 dcb65219 ba605a20 692f0b21 6aca1b

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 21 из 22

Page 22: 2013 11 01_machine_learning_lecture_07

Домашнее задание

SVN, howto.txtДве недели

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 22 из 22