2013 11 01_machine_learning_lecture_07

Линейные модели: введениепо материалам "The Elements of Statistical Learning"

И. Куралёнок, Н. Поваров

Яндекс

СПб, 2013

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 1 из 22

Формальная постановка

Ищем решающую функцию в виде:

y = F (λ, x) = λTx

Такое решение кажется примитивным!


Формальная постановка

Ищем решающую функцию в виде:

y = F (λ, x) = λTx

Такое решение кажется примитивным!До того как мы расскажем что такое x .


Какое x бывает

Просто фичи:x ∈ Rn

Мономы:u ∈ Rnx =

∏uj

Произвольные функции:

u ∈ Rnx : Rn → R

В любом случае мы всегда можем посчитать значениеx по входным параметрам.


Простое решение

arg minλ‖F (X , λ)− y‖ = arg min

λ‖Xλ− y‖

Если норма l2, то:

∂T

∂X= 2XT (Xλ− y) = 0

λ0 = (XTX )−1XTy


Геометрическая интерпретацияЕсли посмотреть на колонки, соответствующие фичам токартинка такая:

Об этом говорит (если нам все удалось):

XT (y − y) = XT (y − Xλ0) = 0

В случае, если rank(X ) < n ортогональность остается!И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 6 из 22

Статистические свойства решенияЕсли наблюдения независимы, Var(y) = const, а xвычислены точно:

Var(λ) =(XTX

)−1 1m − n − 1

‖y − y‖2

А если еще и предположить, что y = λT1 x + ε иε ∼ N(0, σ):

λ0 ∼ N(λ1,(XTX

)−1σ2)

а наблюдаемая σ для y распределена по χ2:

(n −m − 1)σ = ‖y − y‖2 ∼ σχ2m−n−1


А точно λ0i 6= 0?

Введем такую штуку (Z -score):

zi =λ0i

σ√vi

где vi — диагональный элемент(XTX

)−1. Еслиподумать что λ0i = 0, то:

zi ∼ Tm−n−1

Чем больше Z -score, тем более мы уверены, чтоλ0i 6= 0


Теорема Гаусса-Маркова

TheoremЛинейное приближение по MSE обладает нанаименьшим разбросом из всех несмещенныхлинейных решений

⇒ для того, чтобы сделать решение болеестабильным надо вводить bias

⇒ простым MSE нам не отделаться, надо будетменять T


Расширение на несколько целей

yi ∈ Rk

В этом случае задача превращается в такую:

arg minΛ

tr((Y − XΛ)T (Y − XΛ)

)Λ0 =

(XTX

)−1XTY

Если же y = xTΛ + ε, ε ∼ N(0,Σ):

arg minΛ

((Y − XΛ)TΣ−1(Y − XΛ)

)И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 10 из 22

Классификация

x ∈ Rn, y ∈ {1, . . . , k}

Введем дискриминационные функции для каждого класса. Укакого класса больше, тот и молодец. Там где равны — границырешения.NB: монотонные преобразования дискриминационнымфункциям не страшны


Линейное решение задачиклассификации

Можем пойти по-простому и решить регрессией:

γij =

{1, i = yi0

В терминах предсказания γ решаем:

arg minΛ

tr((Γ− XΛ)T (Γ− XΛ)

)


Сложности с простым решением


Линейный дискриминантный анализ(LDA)

Представим себе, что точки порождены смесьюнормальных распределений по одному на класс:

fj =1√

(2π)n|Σj |e−

12 (x−µj)

TΣ−1j (x−µj)

Границы решения прямые! Если зафиксировать Σ:

fj(x) = xTΣ−1µj −12µTj Σ−1µj + logπj


LDA: решение

Можно решать напрямую:

πj =mj

m ,µj = 1

mj

∑xu:yu=j xu,

Σ = 1m−k

∑kj=1∑

xu:yu=j(xu − µj)(xu − µj)T

Можно EM даже не заморачиваясь одинаковыми Σj


LDA: свойства

Нормальные распределения в основеРешение в аналитическом видеРаботает даже в далеких от “гауссовых” ситуацийИмеет расширение в квадратичные мономы (QDA)Часто рассматривают диагональные Σk дляускорения вычисленийМожно использовать Σk = αΣ0 + (1− α)Σk


Логистическая регрессияБудем искать не дискриминантные функции, анапрямую границы между классами:

log

(P(y = u|x)

P(y = k |x)

)= xTλu

Преобразование справа — logit. Тогда вероятностиможно найти так:

p(y = u|x) =xTλu

1 +∑

v<k xTλv

, u < k

p(y = k |x) =1

1 +∑

v<k xTλv


Оптимизация логистическая регрессия

Вероятности у нас есть, давайте максимизироватьправдоподобие!

arg maxΛ

∏i

p(yi |xi ,Λ)

= arg maxΛ

∑i

logxTλu

1 +∑

v<k xTλv

Как будем искать?


Когда что?

Есть много точек, для которых нет оценок ⇒ LDAЕсть подозрение на близость к норамльности ⇒LDAХотим использовать prior ⇒ LDAВо всех остальных случаях логистическаярегрессия, особенно если есть много outlier’ов


Результаты ДЗ второй недели1 6af9df2 dccc3e3 f33f664 f1015e5 f33f2d6 4580487 93184e8 6080729 824e7610 88d59311 cfd27112 48364c13 c5b93014 080c0715 57956916 01b98817 68c81918 dcb65219 ba605a20 692f0b21 6aca1b


Домашнее задание

SVN, howto.txtДве недели


2013 11 01_machine_learning_lecture_07

Documents

Transcript of 2013 11 01_machine_learning_lecture_07