2013 11 01_machine_learning_lecture_07
description
Transcript of 2013 11 01_machine_learning_lecture_07
![Page 1: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/1.jpg)
Линейные модели: введениепо материалам "The Elements of Statistical Learning"
И. Куралёнок, Н. Поваров
Яндекс
СПб, 2013
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 1 из 22
![Page 2: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/2.jpg)
Формальная постановка
Ищем решающую функцию в виде:
y = F (λ, x) = λTx
Такое решение кажется примитивным!
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 2 из 22
![Page 3: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/3.jpg)
Формальная постановка
Ищем решающую функцию в виде:
y = F (λ, x) = λTx
Такое решение кажется примитивным!До того как мы расскажем что такое x .
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 3 из 22
![Page 4: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/4.jpg)
Какое x бывает
Просто фичи:x ∈ Rn
Мономы:u ∈ Rnx =
∏uj
Произвольные функции:
u ∈ Rnx : Rn → R
В любом случае мы всегда можем посчитать значениеx по входным параметрам.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 4 из 22
![Page 5: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/5.jpg)
Простое решение
arg minλ‖F (X , λ)− y‖ = arg min
λ‖Xλ− y‖
Если норма l2, то:
∂T
∂X= 2XT (Xλ− y) = 0
λ0 = (XTX )−1XTy
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 5 из 22
![Page 6: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/6.jpg)
Геометрическая интерпретацияЕсли посмотреть на колонки, соответствующие фичам токартинка такая:
Об этом говорит (если нам все удалось):
XT (y − y) = XT (y − Xλ0) = 0
В случае, если rank(X ) < n ортогональность остается!И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 6 из 22
![Page 7: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/7.jpg)
Статистические свойства решенияЕсли наблюдения независимы, Var(y) = const, а xвычислены точно:
Var(λ) =(XTX
)−1 1m − n − 1
‖y − y‖2
А если еще и предположить, что y = λT1 x + ε иε ∼ N(0, σ):
λ0 ∼ N(λ1,(XTX
)−1σ2)
а наблюдаемая σ для y распределена по χ2:
(n −m − 1)σ = ‖y − y‖2 ∼ σχ2m−n−1
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 7 из 22
![Page 8: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/8.jpg)
А точно λ0i 6= 0?
Введем такую штуку (Z -score):
zi =λ0i
σ√vi
где vi — диагональный элемент(XTX
)−1. Еслиподумать что λ0i = 0, то:
zi ∼ Tm−n−1
Чем больше Z -score, тем более мы уверены, чтоλ0i 6= 0
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 8 из 22
![Page 9: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/9.jpg)
Теорема Гаусса-Маркова
TheoremЛинейное приближение по MSE обладает нанаименьшим разбросом из всех несмещенныхлинейных решений
⇒ для того, чтобы сделать решение болеестабильным надо вводить bias
⇒ простым MSE нам не отделаться, надо будетменять T
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 9 из 22
![Page 10: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/10.jpg)
Расширение на несколько целей
yi ∈ Rk
В этом случае задача превращается в такую:
arg minΛ
tr((Y − XΛ)T (Y − XΛ)
)Λ0 =
(XTX
)−1XTY
Если же y = xTΛ + ε, ε ∼ N(0,Σ):
arg minΛ
((Y − XΛ)TΣ−1(Y − XΛ)
)И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 10 из 22
![Page 11: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/11.jpg)
Классификация
x ∈ Rn, y ∈ {1, . . . , k}
Введем дискриминационные функции для каждого класса. Укакого класса больше, тот и молодец. Там где равны — границырешения.NB: монотонные преобразования дискриминационнымфункциям не страшны
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 11 из 22
![Page 12: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/12.jpg)
Линейное решение задачиклассификации
Можем пойти по-простому и решить регрессией:
γij =
{1, i = yi0
В терминах предсказания γ решаем:
arg minΛ
tr((Γ− XΛ)T (Γ− XΛ)
)
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 12 из 22
![Page 13: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/13.jpg)
Сложности с простым решением
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 13 из 22
![Page 14: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/14.jpg)
Линейный дискриминантный анализ(LDA)
Представим себе, что точки порождены смесьюнормальных распределений по одному на класс:
fj =1√
(2π)n|Σj |e−
12 (x−µj)
TΣ−1j (x−µj)
Границы решения прямые! Если зафиксировать Σ:
fj(x) = xTΣ−1µj −12µTj Σ−1µj + logπj
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 14 из 22
![Page 15: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/15.jpg)
LDA: решение
Можно решать напрямую:
πj =mj
m ,µj = 1
mj
∑xu:yu=j xu,
Σ = 1m−k
∑kj=1∑
xu:yu=j(xu − µj)(xu − µj)T
Можно EM даже не заморачиваясь одинаковыми Σj
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 15 из 22
![Page 16: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/16.jpg)
LDA: свойства
Нормальные распределения в основеРешение в аналитическом видеРаботает даже в далеких от “гауссовых” ситуацийИмеет расширение в квадратичные мономы (QDA)Часто рассматривают диагональные Σk дляускорения вычисленийМожно использовать Σk = αΣ0 + (1− α)Σk
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 16 из 22
![Page 17: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/17.jpg)
Логистическая регрессияБудем искать не дискриминантные функции, анапрямую границы между классами:
log
(P(y = u|x)
P(y = k |x)
)= xTλu
Преобразование справа — logit. Тогда вероятностиможно найти так:
p(y = u|x) =xTλu
1 +∑
v<k xTλv
, u < k
p(y = k |x) =1
1 +∑
v<k xTλv
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 17 из 22
![Page 18: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/18.jpg)
Оптимизация логистическая регрессия
Вероятности у нас есть, давайте максимизироватьправдоподобие!
arg maxΛ
∏i
p(yi |xi ,Λ)
= arg maxΛ
∑i
logxTλu
1 +∑
v<k xTλv
Как будем искать?
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 18 из 22
![Page 19: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/19.jpg)
Оптимизация логистическая регрессия
Вероятности у нас есть, давайте максимизироватьправдоподобие!
arg maxΛ
∏i
p(yi |xi ,Λ)
= arg maxΛ
∑i
logxTλu
1 +∑
v<k xTλv
Как будем искать?
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 19 из 22
![Page 20: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/20.jpg)
Когда что?
Есть много точек, для которых нет оценок ⇒ LDAЕсть подозрение на близость к норамльности ⇒LDAХотим использовать prior ⇒ LDAВо всех остальных случаях логистическаярегрессия, особенно если есть много outlier’ов
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 20 из 22
![Page 21: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/21.jpg)
Результаты ДЗ второй недели1 6af9df2 dccc3e3 f33f664 f1015e5 f33f2d6 4580487 93184e8 6080729 824e7610 88d59311 cfd27112 48364c13 c5b93014 080c0715 57956916 01b98817 68c81918 dcb65219 ba605a20 692f0b21 6aca1b
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 21 из 22
![Page 22: 2013 11 01_machine_learning_lecture_07](https://reader033.fdocuments.us/reader033/viewer/2022052820/549bcf06ac7959b02a8b4582/html5/thumbnails/22.jpg)
Домашнее задание
SVN, howto.txtДве недели
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 22 из 22