Prml 2.3

2 01 2 / 10 / 2

W8PRML読書会 2.3 ガウス分布

@sa__i

はじめに

� この節で言いたいこと　　　

　　「僕がガウス分布を使うnの理由」

2

ガウス分布(p76-78)

� ガウス分布は正規分布とも呼ばれ、連続変数の分布モデルとして広く利用される。

　平均µ 分散σ2

�  数学的に扱い易いので、扱うモデルをガウス分布に帰着させたい(?)

N(x |µ,σ 2 ) = 1(2πσ 2 )1/2

exp −12σ 2 (x −µ)

2"#$

%&'

3

多次元ガウス分布(p76-78)

�  D次元ベクトルxに対する多変量ガウス分布は以下のように与えられる

　　　µはD次元の平均ベクトル、ΣはD×Dの共分散行列,|Σ|は行列式

　

4

中心極限定理

�  図2.6についてNが増加するにつれガウス分布に近づくことが分かる

サンプルのサイズを大きくするとサンプルの平均は真の平均に近づく

図2.6 N個の一様に分布する量の平均のヒストグラム

5

ガウス分布の幾何的性質(p78-82)

� 多変量ガウス分布をD個の独立な1変数ガウスの積で表すことができる。

このような多変量ガウス分布を…

x2 + 2

y2 +

2

x

y

x2

y2

x2 + 2

y2 +

2

x2

y

拡大

回転移動

変換したものと見なす

6

ガウス分布の幾何的性質(p78-82) 7

図2.7 ガウス分布の密度が一定になる楕円

λi:固有値 ui:既定ベクトル y:UT(x-µ)

ガウス分布の1次モーメント(p80)

� ガウス分布のモーメントを求めパラメータµやΣを解釈する。 ¡ ガウス分布下でのxの期待値は(z=x-µと置き換えると)

÷  (指数部分がzの要素の偶関数であり(-∞,∞)での積分に注意)

　　　　　　　　　　　　　　　となりµは平均と解釈できる

E[x]= 1(2π )D/2

1| Σ |1/2

exp −12zTΣ−1z

#$%

&'((z+µ)dz∫

E[x]= µ

8


E[xxT ]= 1(2π )D/2

1| Σ |1/2

exp −12zTΣ−1z

#$%

&'((z+µ)(z+µ)T dz∫

� 先ほどと同様に置換する。

¡  µzTとzµTの項は対称性で消え、µµTは定数、積分がガウス分布で正規化されていることに注意しながら

とすると

z = Σj=1

Dyjuj

9


�  zzTの項は

� となり、その結果

1(2π )D/2

1| Σ |1/2

exp −12zTΣ−1z

#$%

&'(zzT dz∫

= Σi=1

Duiui

Tλi = Σ

E[xxT ]= µµT +Σ

10


� 確率変数がひとつの時には事前に平均を引いた2次モーメントで分散を定義した。

� 同様に多変量もあらかじめ平均を引いて確率変数xの共分散を定義する。

E[x]=µであることに注意 �  パラメータ行列Σによりガウス分布下での共分散が決まるためこのパラメータを共分散行列と呼ぶ。

cov[x]= E[(x −E[x])(x −E[x])T ]= Σ

11

様々なガウス分布

� 行列を制限することでパラメータを削減

a)  一般行列 b)  対角行列 c)  等方行列

図2.8 2次元空間ガウス分布の確立密度が一定になる等高線

12

2.3.1 条件付きガウス分布(p83)

� 多変量ガウス分布の重要な特性として、　　2つの変数集合の同時確率分布がガウス分布に従う

一方の確率変数が与えられたときの、もう一方の集合の条件付き分布もガウス分布になる。さらにどちらの変数集合の周辺分布も同様にガウス分布になる。

p(xa, xb )

p(xa | xb )p(xb )

13


� 条件付きガウス分布の表現を見つける。 ¡ 条件付き分布の定義

¡  xbを観測された値で固定、正規化を行う。(つまり上記の式をxaの関数と見なす。)

¡ ガウス分布の指数部分の2次形式について考え、最後に正規化係数を求めると効率よく解が得られる(らしい)

14

ここでの目標

� つまりガウス分布の2次形式について考えたとき

　　　　　　　という形をしているので　　同じくガウス分布に従うと分かっている条件付き分布に対するAとBを求めたい

−12xTAx + xTB+ const

15


(2.65),(2.66),(2.69)を利用すると

精度行列

xaについて整理

16


�  2次項

�  1次項

分散 (先ほどのAに当たる)

(先ほどのBに当たる) 平均

17

Xと独立

Xの線形関数


� 共分散行列での表現 18

周辺ガウス分布(p86-p87)

� 周辺分布　　　　　　　　　　　　　もガウス分布になることを示す。

� 条件付き確率とほぼ同様の手順を踏む ¡  xbについて平方完成 ¡  xbについて積分(定数になる項に注意)

19

周辺ガウス分布(p86-p87)

� 直感通り周辺分布の平均と分散は

　　　　　　　　　　　　　　　　　　　となり分割したパラメータそのものになっている!

20

条件付きガウス分布と周辺分布のまとめ 21

どこで切ってもその分布がガウス分布になる

条件付きガウス分布

周辺分布どちらの変数集合の周辺分布もガウス分布になる

•  同時確率分布がガウス分布に従うのならば

2.3.3ガウス変数に対するベイズの定理(p88-90)

� 条件付き分布と周辺分布が与えられたときの同時分布について考える。

� これまでは同時分布が与えられたときの条件付き分布と周辺確率について考察していた。

p(x, y) p(y | x), p(x)

p(y | x), p(x) p(x, y)

22


� 周辺分布と条件付き分布を以下のように与える。

�  としたときのp(z) を求めたい。

� これもガウス分布に従うのでこれまでの手順と同様

23


� まず周辺分布について考える。

� 手順 ¡ 対数をとる。

¡ 　　　　　　　　　　　　　　の形になるように整理する −12xTAx + xTB+ const

24


�  2次項は以下のようになる。　精度行列

分散共分散行列(シューアの補行列を用いて)

25


� １次項

¡ 周辺分布の平均と分散共分散行列より

26


� 同様に条件付き分布についても 27

2.3.4 ガウス分布の最尤推定(p91)

� この節での目標

多変数ガウス分布から観測値{xｎ}が得られ集合があるとき、最尤推定法からガウス変数のパラメータを決定したい

28

行列のおさらい(基本) 29

(AB)T = BTAT

AA_1 = A−1A = I

(AT )−1 = (A−1)T

� 逆行列

� 転置行列

∂∂Aln | A |= (A−1)T

行列のおさらい(2次形式) 30

�  2次形式の別の表現

xTAx = aij xix ji, j∑ = aij

j∑ (xxT )"

#$$

%

&''

i∑ = (AxxT )ij

i∑ = tr(AxxT )

行列のおさらい(微分) 31

� 内積の微分

�  2次形式の微分

� 逆行列の微分

∂∂x(xT y) = y

∂∂y(xT y) = x

∂∂x(xTAx) = (A+ AT )x

∂∂x(A−1) = A−1 ∂

∂x(A )A−1


� 対数尤度関数は以下のように与えられる

�  のみに依存していることが分かる。　　　これらをガウス分布の十分統計量という。

ln p(X |µ,Σ) = − ND2ln(2π )− N

2ln | Σ |− 1

2Σn=1

N(xn −µ)

T Σ−1(xn −µ)

Σxnn=1

N

Σn=1

Nxnxn

T

32

十分統計量とは? 33

� 十分統計量 ¡ 観測値X=(X1,X2…Xn)が与えられた時のθの尤度関数をL(θ|X)と置く。このときT(X)=(T1(X),…Tk(X))がθ=(θ1..,θm)の十分統計量とは

と表せる。 L(θ | X) = pθ (T (X)) ⋅h(X)

Xの要素は含んではいいが θの要素は含まない

l(θ | X) = log(pθ (T (X)) ⋅h(X)) = log(pθ (T (X)))+ log(h(X))あるθiで微分すると ∂l(θ | X)∂θi

=∂pθ (T (X))

∂θih(X)の項は微分で消える。つまり最尤推定量を求めるのに関係ないことが分かる。最尤推定量を求めるのに使うのはT(X)と定数のみであることが分かる


�  µに関しての導出関数は

で与えられ、これを0と置くと平均は

∂∂µln p(X |µ,Σ) = 1

2Σn=1

N(Σ−1 +Σ)(xn −µ) = Σn=1

NΣ−1(xn −µ)

µML =1NΣn=1

Nxn

34

この本だとΣは対称行列であると仮定している


�  Σの最大化は複雑である。対称性と正定値性の制約を明示的に考慮する解法は考案されており、結果は次のようになる。(次のスライドに解説)

� 真の分布での最尤推定解の期待値

ΣML =1N

(xn −µML )(xn −µML )T

n=1

N

∑

E[µML ]= µE[ΣML ]=

NN −1

Σ

平均については最尤推定の期待値は真の平均に等しいことが分かる。

35

37

Σの最大化(2)

∂∂∑

tr Σ−1( yi yiT

i∑ )

%

&'

(

)*= tr ∂

∂∑Σ−1%

&'

(

)*( yi yi

T

i∑ )

%

&'

(

)*= −tr Σ−1( ∂

∂aijΣ)Σ−1( yi yi

T

i∑ )

%

&''

(

)**

Σで微分

= −tr ( ∂∂aij

Σ)Σ−1( yi yiT

i∑ )Σ−1

%

&''

(

)**

逆関数の微分 tr(AB)=tr(BA)


tr ∂∂aij

Σ#

$%%

&

'((C

#

$%%

&

'((=

∂∂aij

Σ#

$%%

&

'((Cs

#

$%%

&

'((

s∑

ss

=∂∂aij

Σ#

$%%

&

'((

t∑ ct,s#

$%%

&

'((

s∑

= δi,sδ j,tct,s = ct,s∑

よって第二項は

12∂∂∑

Σn=1

N(xn −µ)

T Σ−1(xn −µ) = − ∑−1( yi yiT

i∑ )∑

%

&'

(

)*

T

C = Σ−1( yi yiT

i∑ )Σ−1

とする。


∂∂∑

ln p(X |µ,Σ) = − 12N ∑−1( )

T+12∑−1( yi yi

T

i∑ )∑−1

%

&'

(

)*

T

これが0になるので転置をとって

−N∑−1+∑−1( yi yiT

i∑ )∑−1 = 0

∑−1( yi yiT

i∑ )∑−1 = N∑−1

∑ML =1N

yi yiT

i∑ =

1N

(xi −µ)(xi −µ)T

i∑

2.3.5 逐次推定(p-92-93)

� 逐次推定とはデータ点を一つずつ処理し、廃棄して推定する方法。

� これはデータ点xnに対して推定値に1/Nに比例する「誤差信号」だけ古い推定量を移動させている。

�  Nが増えるにつれ後続の影響は小さくなる。

40

2.3.5 逐次推定(p-92-93)

� より汎用的は逐次学習の定式化

¡  Robbin-Monroの手続きでは根の推定を以下のように定義

¡  (aNはを満たす)

� 最尤推定解は対数尤度関数の停留点

Robbin-Monroアルゴリズム

limN−>∞

aN = 0, aN =∞N=1

∞

∑ , aN2 <∞

N=1

∞

∑

θ (N ) =θ (N−1) − aN−1z(θ(N−1) )

41

Robbins-Monroを用いた最尤推定について 42

−∂∂θ

1N

ln p(xn |θ )n=1

N

∑"#$

%&' ϑML

= 0

最尤推定解は負の対数尤度関数の停留点であるため

− limN→∞

1N

ln p(xn |θ )n=1

N

∑ = Ex −∂∂θln p(x |θ )

&

'()

*+

を得る。すると最尤推定解を求めることは回帰関数の根を求めることに相当する

θ (N ) =θ (N−1) − aN−1∂

∂θ (N−1)− ln p(xN |θ

(N−1)#$ %&

2.3.6 ガウス分布に対するベイズ推論

� この節で言いたいこと　　ベイズ推定で求めるものは　　　パラメータの値ではなくパラメータの分布

43

2.3.6 ガウス分布に対するベイズ推論

� 共役事前分布 ¡ 尤度関数とかけて事後分布を求めるとその関数の形が同じになるような事前分布

� ガウス分布の各パラメータの事後分布における共役事前分布は以下のようになる

事後分布 1変量多変量平均(分散既知) ガウス分布ガウス分布精度(平均既知) ガンマ分布ウィッシャート分布平均、精度ガウスーガンマ分布ガウルウィシャート分布

44

平均を推定(分散既知)の例 45

p(x |µ) = Πn=1

Np(xn |µ) =

1(2πσ 2 )N /2

exp −12σ 2 (xn −µ)

2

n=1

N

∑$%&

'()

µが与えらたときに観測データが生じるであろう尤度関数はµの関数と見なせる

µについて2次形式の指数の形をとっている。よって事前分布p(µ)にガウス分布を選べばこの尤度関数の共役事前分布となる。

p(µ) =Ν(µ |µθ ,σ 02 )

事前分布を次のようにとる

事後分布は

p(µ | X)∝ p(X |µ)p(µ)


p(µ | x)∝ p(x |µ)p(µ)

=1

(2πσ 2 )N /2exp −

12σ 2 (xn −µ)

2

n=1

N

∑$%&

'()

*

+,,

-

.//

12πσ 0

2exp −

(µ −µ0 )2

2σ 02

*

+,

-

./

*

+,,

-

.//

=1

(2π )(N+1)/2σ Nσ 0

exp −12σ 2 (xn −µ)

2

n=1

N

∑ −(µ −µ0 )

2

2σ 02

$%&

'()


−12σ 2 (xn −µ)

2

n=1

N

∑ −(µ −µ0 )

2

2σ 02 = −

N2σ 2 −

12σ 0

2

#

$%

&

'(µ 2 +

1σ 2 xn

n=1

N

∑ +1σ 02 µ0

#

$%

&

'(µ + const

= −N2σ 2 −

12σ 0

2

#

$%

&

'( µ 2 −

2σ 02

σ 02N +σ 2 xn

n=1

N

∑ +2σ 2

σ 02N +σ 2 µ0

#

$%

&

'(µ

)*+

,+

-.+

/++ const

= −N2σ 2 −

12σ 0

2

#

$%

&

'( µ −

σ 02 xn∑ +σ 2µ0σ 02N +σ 2

)*+

,+

-.+

/+

2

+ const

= −12σ N

2

#

$%

&

'((µ −µN )

2 + const

p(µ | X) = N(µ |µN ,σ N2 )

指数部分を取り出す

µN =σ 2

Nσ 02 +σ 2 µ0 +

Nσ 02

Nσ 02 +σ 2 µML

1σ N2 =

1σ 02 +

Nσ 2

µML =1N

xnn=1

N

∑

ただし

2.3.7 スチューデントのt分布(p100-103)

� スチューデントのt分布とは平均は同じだが分散が異なるガウス分布を足し合わせたもの ¡ ガウス分布に比べ分布の「すそ」が長い

48

21

222/1

2

21

2

220

1

)(1)(

),|Gam())(,|(),,|St(−−

∞ −

⎥⎦

⎤⎢⎣

⎡ −+⎟

⎠

⎞⎜⎝

⎛Γ

+Γ=

= ∫ν

νµλ

πνλ

ηηηλµµ

ν

ν

νν

x

dxNbax

2.3.7 スチューデントのt分布(p100-103) 49

�  t分布は頑健性と呼ばれる重要な性質を持つ。 ¡ 外れ値となっている少数のデータ点があってもがガウス分布よりずっと影響されにくいという性質

ほぼ重なっている

t分布ガウス分布

ガウス分布は外れ値の影響を受けている

2.3.8　周期変数

� ガウス分布に対して周期変数を導入する。 ¡ 例

÷ 24時間や1年といった時間的周期を持つもののモデル化に便利

� 単純にある方向に原点を選んだ周期関数を使ってガウス分布を適用するだけではうまくいかない ¡ 特別な方法が必要

50

2.3.8　周期変数 51

� 周期変数の観測値の集合D={θ1 … θn}の平均を求めるときに|x|=1,n=1,…,Nを満たす二次元単位ベクトルx1,..,xNで観測値を表せることに注目する。

x = 1N

xnn=1

N

∑

角度の平均の代わりに、ベクトル{xn}の平均

を求める。そしてこの平均に対応するθを求める。観測値の直交座標と単純平均の直交座標から

x1 = rcosθ = 1N

cosθnn=1

N

∑ , x2 = rsinθ = 1N

sinθnn=1

N

∑

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

=∑∑−

nn

nn

θ

θθ

cossin

tan 1

を得る。

周期変数(フォン･ミーゼス分布) 52

� 周期変数上のガウス分布はフォンミーゼス分布

p(θ ) ≥ 0

p(θ )dθ =0

2π∫ 1

p(θ + 2π ) = p(θ )

⎭⎬⎫

⎩⎨⎧ −+−−= 2

222

211

221 2)()(exp

21),(

σµµ

πσxxxxp

まず以下の条件を満たす必要がある。

2変数x=(x1,x2)上のガウス分布を考える。

青:二次元のフォンミーゼス分布赤:単位円

フォン･ミーゼス分布の導出 53

002

001

sincos

θµ

θµ

rr

=

=

θ

θ

sincos

2

1

rxrx

=

=

−(x1 −µ1)

2 + (x2 −µ2 )2

2σ 2

= −12σ 2 (rcosθ − r0 cosθ0 )

2 + (rsinθ − r0 sinθ0 )2

=12σ 2 2r0 (cosθ cosθ0 + sinθ sinθ0 )− (1+ r0

2 )( )

=r0σ 2 cos(θ −θ0 )+ const

単位円であることに注意してガウス分布の指数部に注目

フォン･ミーゼス分布の導出 54

p(θ |θ0,m) =1

2π I0 (m)exp{mcos(θ −θ0 )}

I0 (m) =12π

exp{mcosθ}dθ0

2π∫

m=r0/σ2 と置くと次のようなフォン・ミーゼス分布で表される。

パラメータmは集中度パラメータとして知られ、正規化係数 I0(m) と表される。これは0次の第1種変形ベッセル関数らしい

左:直交座標表示、右:極座標

フォン･ミーゼス分布の最尤推定 55

�  対数尤度関数 ln p は以下のように表される。

�  θ0 についての導関数を0とおく。

�  θ0 について解き、以下の最尤解を得る。これは先ほどの平均と同じ形である。

ln p(D |θ0,m) = −N ln(2π )− N ln I0 (m)+m cos(θn −θ0 )n=1

N

∑

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

=

=

=−

=−

∑∑

∑∑

∑

∑

−

==

=

=

n n

n nML

N

nn

N

nn

N

nnn

N

nn

θ

θθ

θθθθ

θθθθ

θθ

cossin

tan

cossinsincos

0)sincoscos(sin

0)sin(

1

10

10

100

10

フォン･ミーゼス分布の最尤推定 56

�  mについても最大化する。 ¡ どうやら難しいようなので結果だけが教科書に書かれている。

∑=

−=N

nMLn

ML

ML

NmImI

10

0 )cos(1)()('

θθ

2.3.9 混合ガウス分布

� 単一のガウス分布では構造がとらえられないが複数のガウス分布の線形結合であればうまくデータ集合の特徴を表せる。

� 混合分布という確率モデルで最適化

¡ 混合ガウス分布　 ¡ パラメータについての最尤推定解: 　　　　　　　　　　　　　閉形式の解析解では得られない

EMアルゴリズム

57

Prml 2.3

Technology

Transcript of Prml 2.3