と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft...

7/6

/20

06

代数幾何と学習理論

1


の関係について

(1)

東京工業大学

渡辺澄夫

20

06年

6月大阪市立大学数学研究所

ミニスクール「情報幾何への入門と応用」

7/6

/20

06


2

学習理論とは

人間や環境からのデータ

りんご

みかん

ぶどう

でしょう

q(x

) ～

X1,

X2,

…,

Xn←

p(x

|w)

7/6

/20

06


3

数学的対象

x ∈

RN上の確率分布の集合

{ p

(x|w

) ;

w ∈

Rd

}の学習理論

＝{

p(x

|w)

; w

∈R

d}の幾何

＝{

p(x

|w)

; w

∈R

d}の代数

7/6

/20

06


4

幾何と代数

{図形上の関数

}の代数

図形

R

7/6

/20

06


5

ストーリー

学習理論

代数幾何

超関数論

経験過程

①

②

③

7/6

/20

06


7

正則

モデル＝

正定値

計量

Y =

a0+

a1

X+

a2

X2+・・・

+ a

KX

K+

雑音

モデルは微分多様体

小さいモデルは

大きいモデルの

部分多様体

条件つき確率

p(y

|x,a

1,…

,ak)

7/6

/20

06


8

多様体

でない学習

モデル

Y =

a1

sin

(b1x

)+a

2si

n(b

2x

)+ 雑音

モデルは多様体でない

小さいモデルは

大きいモデルの

部分多様体ではない

{a1

=0

}∪

∪{b

1 =

0} ∪

{b2

=0

}

{a2

=0

}

条件つき確率

p(y

|x,a

1,a

2,b

1,b

2)

7/6

/20

06


9

特異性の例

Y =

a1

sin

(b1x

)+a

2si

n(b

2x

)+ 雑音

Y =

０+

雑音

{ (a

1,a

2,b

1,b

2)

; a

1 s

in(b

1x

)+a

2si

n(b

2x

)=0

(∀

x)}

＝{

(a1,a

2,b

1,b

2)

; a

1b

1+

a2b

2=

0,

a1b

13

+ a

2b

23=

0 }

7/6

/20

06


10

特異性の例

Y =

a1

sin

(b1x

)+a

2si

n(b

2x

)+ 雑音

(a1,b

1,a

2,b

2)

W/～

(a*

1,b

*1,a

*2,b

*2)

7/6

/20

06


11

正則モデルの例

平均０分散１の正規分布

平均

a分散σ

2の正規分布

7/6

/20

06


12

混合

2項分布

a B

k(x

|p1)

+ (

1-a

) B

k(x

|p2

)

Bk(x

|p0)

0

k

k0

a

p1

p2

正則でないモデルの例

7/6

/20

06


13

混合正規分布

混合指数分布

p(x

|w) ＝Σ

ah

ex

p(

-||x

-bh||

2)


7/6

/20

06


14

隠れマルコフモデル

f(x|b

j)

H0

f(x|b

1)

1

a kj

f(x|b

j)j

f(x|b

1)

1

a kj H


7/6

/20

06


15

確率文脈自由文法

a

b

a

c

a

b

b

c

c

a ・・・

a

c

a

A →

AA

| A

B |

BA

| B

B

B →

AA

| A

B |

BA

| B

B

A →

a |

b

B →

a |

b

A →

AA

A →

a |

b

a

b{a

c

a

(b

b

c

c

a

)・・・

a}

c

a


7/6

/20

06


16

x = (x1,x

2,..,xM)

y = (y1,y

2,..,yN)

x = (x1,x

2,..,xM)

y = (y1,y

2,..,yN)

samples

estimate

神経回路網


7/6

/20

06


17

Ob

se

rva

ble

s

Hid

de

n v

ari

ab

les

Ob

se

rva

ble

s

Hid

de

n v

ari

ab

les

aj

bij

ベイズネットワーク＝グラフィカルモデル


7/6

/20

06


18

隠れマルコフモデル

ベクトル量子化

文脈自由文法

ベイズネット

神経回路網

美しい映像音楽

ひとにやさしい

コンピュータ

遺伝子解読

ヒューマンモデリング

知能ロボット

XY

Z

W

U

VS

T

こんにちは

学習システムが何の役にたつか

7/6

/20

06


19

構造を持つ学習モデル

階層構造

隠れた変数

などがあるとき

モジュール構成

構造の推測＝特異点を調べる

特異点のどんな性質が学習に影響するか？

7/6

/20

06


20

学習とは

q(x

) ～

X1,

X2,

…,

Xn←

p(x

|w) で推測

L(w

) =

p

(X1|w

) p

(X2|w

) ・・・

p(X

n|w

)

q(X

1)

q

(X2)

・・・

q(X

n)

相対測度

◎L

(w) の挙動は、学習理論における中心的な問題である

◎L

(w) の挙動を解明するために相応しい代数・幾何・解析を確立せよ

7/6

/20

06


21

経験相対エントロピー

Kn(w

) =

－lo

g L

(w)

=Σ

f(X

i,w)

n i=1

1 n

p(x

|w)

q(x

)f(

x,w

) =

log

1 n

L(w

) =

ex

p( －

n K

n(w

) )

7/6

/20

06


22

相対エントロピー

K(w

) =

E

[ f(

X,w

) ]

= ∫

q(x

) lo

g

dx

p(x

|w)

q(x

)

L(w

) =

ex

p( －

n K

n(w

) ) ≒

ex

p(

-n

K(w

) )

（注意）

E[

L(w

) ]

= 1

(∀

w)

7/6

/20

06


23

正則なモデル

Kn(w

)

Rd

W0

O

7/6

/20

06


24

正則でないモデル

Kn(w

)

Rd

W0

Kn(w

) は確率的に

ばらつく関数

7/6

/20

06


25

推測

最尤法

p*

(x)

= p

(x|

arg

min

Kn(w

))

ベイズ法

p*

(x)

=∫

p(x

|w)

L(w

)d

w

∫L

(w)

dw

dw

:

確率

測度

∫p

(x|w

)e

-n

Kn

(w)

dw

∫e

-n

Kn

(w)

dw

=

7/6

/20

06


26

事後分布の違い

事後分布

p(w

) =

L(w

)

∫L

(w)

dw

正則モデル

特異モデル

7/6

/20

06


27

推測の正しさと汎化誤差

汎化誤差

G=∫

q(x

) lo

gd

xp

*(x

)

q(x

)

n

G

7/6

/20

06


28

汎化誤差と自由エネルギー

p*

(x)

=∫

p(x

|w)

e-

n K

n(w

) d

w

∫e

-n

Kn

(w) d

w

p*

(xn

+1)

q(X

n+

1)

∫e

-(n

+1

) K

n+

1(w

) d

w

∫e

-n

Kn

(w)

dw

=

Gn=

-∫

q(x

n+

1)

log

d

x n+

1

∫e

-(n

+1

) K

n+

1(w

) d

w

∫e

-n

Kn

(w)

dw

7/6

/20

06


29

自由エネルギー

Gn

= E

xn

+1[

Fn

+1

]－

Fn

Fn

=-

log∫

e-

n K

n(w

) d

w

=

-lo

g∫

L(w

)dw

と定義すると

E[

Gn

]= E

[ F

n+

1 ]－

E[

Fn

]

7/6

/20

06


30

学習理論の課題

Fn

G

nは

X1,X

2,…

,Xnの関数（確率変数）

問題

: 確率変数

Fn

, G

nの挙動を解明せよ。

問題

: K

(w)=

0 の特異点の影響を調べよ。

7/6

/20

06


31

証明すること

(1)

一定の仮定のもとで

ゼータ関数

ζ(z

) ＝∫

K(w

)zd

w(R

e z

>0

)

は複素平面全体に有理型関数として

解析接続でき、その極はすべて負の

有理数である。

7/6

/20

06


32

証明すること

(2)

ゼータ関数の極とその位数を

0>

-λ

1>

-λ

2>

-λ

3 >

・・・

m1

m2

m3・・・

とするとき、ある確率変数

R,

G0が存在して

Fn→λ

1lo

g n

–(m

1-1

)lo

glo

g n

+ R

Gn→

G0/n

ただし

E[G

0]=λ

1

が法則収束の意味で成り立つ。

7/6

/20

06


33

証明すること

(3)

ゼータ関数の極を求める方法として、次の二つがある。

(1)

K(g

(u))

=0

が正規交差になるような関数

w=

g(u

)

を見つける。

(2) ある微分作用素

P と多項式

b で

P(z

,w)

K(w

)z+1

= b

(z)

K(w

)z

を満たすものを見つける。

7/6

/20

06


34

参考書

計算の御確認は

下記の書物でお願いします


森北出版

20

06

渡辺澄夫

と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft...

Documents

Transcript of と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft...