と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft...

34
7/6/2006 代数幾何と学習理論 1 代数幾何と学習理論 の関係について(1) 東京工業大学 渡辺澄夫 20066月大阪市立大学数学研究所 ミニスクール「情報幾何への入門と応用」

Transcript of と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft...

Page 1: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

1

代数幾何と学習理論

の関係について

(1)

東京工業大学

渡辺澄夫

20

06年

6月大阪市立大学数学研究所

ミニスクール「情報幾何への入門と応用」

Page 2: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

2

学習理論とは

人間や環境からのデータ

りんご

みかん

ぶどう

でしょう

q(x

) ~

X1,

X2,

…,

Xn←

p(x

|w)

Page 3: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

3

数学的対象

x ∈

RN上の確率分布の集合

{ p

(x|w

) ;

w ∈

Rd

}の学習理論

={

p(x

|w)

; w

∈R

d}の幾何

={

p(x

|w)

; w

∈R

d}の代数

Page 4: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

4

幾何と代数

{図形上の関数

}の代数

図形

R

Page 5: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

5

ストーリー

学習理論

代数幾何

超関数論

経験過程

Page 6: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

6

正則性

(1)

w →

p(

|w) が一対一か

(2)

w1~

w2⇔

p(x

|w1)=

p(x

|w2)

(∀

x)

W/~が多様体か

(3)

s i(x

,w)=∂

wi

log

p(x

|w)

I ij(w

) =∫

s i(x

,w)s

j(x

,w)p

(x|w

)dxが正定値か

Page 7: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

7

正則

モデル=

正定値

計量

Y =

a0+

a1

X+

a2

X2+・・・

+ a

KX

K+

雑音

モデルは微分多様体

小さいモデルは

大きいモデルの

部分多様体

条件つき確率

p(y

|x,a

1,…

,ak)

Page 8: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

8

多様体

でない学習

モデル

Y =

a1

sin

(b1x

)+a

2si

n(b

2x

)+ 雑音

モデルは多様体でない

小さいモデルは

大きいモデルの

部分多様体ではない

{a1

=0

}∪

∪{b

1 =

0} ∪

{b2

=0

}

{a2

=0

}

条件つき確率

p(y

|x,a

1,a

2,b

1,b

2)

Page 9: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

9

特異性の例

Y =

a1

sin

(b1x

)+a

2si

n(b

2x

)+ 雑音

Y =

0+

雑音

{ (a

1,a

2,b

1,b

2)

; a

1 s

in(b

1x

)+a

2si

n(b

2x

)=0

(∀

x)}

={

(a1,a

2,b

1,b

2)

; a

1b

1+

a2b

2=

0,

a1b

13

+ a

2b

23=

0 }

Page 10: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

10

特異性の例

Y =

a1

sin

(b1x

)+a

2si

n(b

2x

)+ 雑音

(a1,b

1,a

2,b

2)

W/~

(a*

1,b

*1,a

*2,b

*2)

Page 11: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

11

正則モデルの例

平均0分散1の正規分布

平均

a分散σ

2の正規分布

Page 12: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

12

混合

2項分布

a B

k(x

|p1)

+ (

1-a

) B

k(x

|p2

)

Bk(x

|p0)

0

k

k0

a

p1

p2

正則でないモデルの例

Page 13: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

13

混合正規分布

混合指数分布

p(x

|w) =Σ

ah

ex

p(

-||x

-bh||

2)

正則でないモデルの例

Page 14: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

14

隠れマルコフモデル

f(x|b

j)

H0

f(x|b

1)

1

a kj

f(x|b

j)j

f(x|b

1)

1

a kj H

正則でないモデルの例

Page 15: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

15

確率文脈自由文法

a

b

a

c

a

b

b

c

c

a ・・・

a

c

a

A →

AA

| A

B |

BA

| B

B

B →

AA

| A

B |

BA

| B

B

A →

a |

b

B →

a |

b

A →

AA

A →

a |

b

a

b{a

c

a

(b

b

c

c

a

)・・・

a}

c

a

正則でないモデルの例

Page 16: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

16

x = (x1,x

2,..,xM)

y = (y1,y

2,..,yN)

x = (x1,x

2,..,xM)

y = (y1,y

2,..,yN)

samples

estimate

神経回路網

正則でないモデルの例

Page 17: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

17

Ob

se

rva

ble

s

Hid

de

n v

ari

ab

les

Ob

se

rva

ble

s

Hid

de

n v

ari

ab

les

aj

bij

ベイズネットワーク=グラフィカルモデル

正則でないモデルの例

Page 18: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

18

隠れマルコフモデル

ベクトル量子化

文脈自由文法

ベイズネット

神経回路網

美しい映像音楽

ひとにやさしい

コンピュータ

遺伝子解読

ヒューマンモデリング

知能ロボット

XY

Z

W

U

VS

T

こんにちは

学習システムが何の役にたつか

Page 19: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

19

構造を持つ学習モデル

階層構造

隠れた変数

などがあるとき

モジュール構成

構造の推測=特異点を調べる

特異点のどんな性質が学習に影響するか?

Page 20: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

20

学習とは

q(x

) ~

X1,

X2,

…,

Xn←

p(x

|w) で推測

L(w

) =

p

(X1|w

) p

(X2|w

) ・・・

p(X

n|w

)

q(X

1)

q

(X2)

・・・

q(X

n)

相対測度

◎L

(w) の挙動は、学習理論における中心的な問題である

◎L

(w) の挙動を解明するために相応しい代数・幾何・解析を確立せよ

Page 21: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

21

経験相対エントロピー

Kn(w

) =

-lo

g L

(w)

f(X

i,w)

n i=1

1 n

p(x

|w)

q(x

)f(

x,w

) =

log

1 n

L(w

) =

ex

p( -

n K

n(w

) )

Page 22: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

22

相対エントロピー

K(w

) =

E

[ f(

X,w

) ]

= ∫

q(x

) lo

g

dx

p(x

|w)

q(x

)

L(w

) =

ex

p( -

n K

n(w

) ) ≒

ex

p(

-n

K(w

) )

(注意)

E[

L(w

) ]

= 1

(∀

w)

Page 23: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

23

正則なモデル

Kn(w

)

Rd

W0

O

Page 24: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

24

正則でないモデル

Kn(w

)

Rd

W0

Kn(w

) は確率的に

ばらつく関数

Page 25: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

25

推測

最尤法

p*

(x)

= p

(x|

arg

min

Kn(w

))

ベイズ法

p*

(x)

=∫

p(x

|w)

L(w

)d

w

∫L

(w)

dw

dw

:

確率

測度

∫p

(x|w

)e

-n

Kn

(w)

dw

∫e

-n

Kn

(w)

dw

=

Page 26: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

26

事後分布の違い

事後分布

p(w

) =

L(w

)

∫L

(w)

dw

正則モデル

特異モデル

Page 27: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

27

推測の正しさと汎化誤差

汎化誤差

G=∫

q(x

) lo

gd

xp

*(x

)

q(x

)

n

G

Page 28: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

28

汎化誤差と自由エネルギー

p*

(x)

=∫

p(x

|w)

e-

n K

n(w

) d

w

∫e

-n

Kn

(w) d

w

p*

(xn

+1)

q(X

n+

1)

∫e

-(n

+1

) K

n+

1(w

) d

w

∫e

-n

Kn

(w)

dw

=

Gn=

-∫

q(x

n+

1)

log

d

x n+

1

∫e

-(n

+1

) K

n+

1(w

) d

w

∫e

-n

Kn

(w)

dw

Page 29: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

29

自由エネルギー

Gn

= E

xn

+1[

Fn

+1

]-

Fn

Fn

=-

log∫

e-

n K

n(w

) d

w

=

-lo

g∫

L(w

)dw

と定義すると

E[

Gn

]= E

[ F

n+

1 ]-

E[

Fn

]

Page 30: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

30

学習理論の課題

Fn

G

nは

X1,X

2,…

,Xnの関数(確率変数)

問題

: 確率変数

Fn

, G

nの挙動を解明せよ。

問題

: K

(w)=

0 の特異点の影響を調べよ。

Page 31: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

31

証明すること

(1)

一定の仮定のもとで

ゼータ関数

ζ(z

) =∫

K(w

)zd

w(R

e z

>0

)

は複素平面全体に有理型関数として

解析接続でき、その極はすべて負の

有理数である。

Page 32: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

32

証明すること

(2)

ゼータ関数の極とその位数を

0>

1>

2>

3 >

・・・

m1

m2

m3・・・

とするとき、ある確率変数

R,

G0が存在して

Fn→λ

1lo

g n

–(m

1-1

)lo

glo

g n

+ R

Gn→

G0/n

ただし

E[G

0]=λ

1

が法則収束の意味で成り立つ。

Page 33: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

33

証明すること

(3)

ゼータ関数の極を求める方法として、次の二つがある。

(1)

K(g

(u))

=0

が正規交差になるような関数

w=

g(u

)

を見つける。

(2) ある微分作用素

P と多項式

b で

P(z

,w)

K(w

)z+1

= b

(z)

K(w

)z

を満たすものを見つける。

Page 34: と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft PowerPoint - alg-geo1.ppt Author: Noda Created Date: 7/6/2006 7:46:33 PM ...

7/6

/20

06

代数幾何と学習理論

34

参考書

計算の御確認は

下記の書物でお願いします

代数幾何と学習理論

森北出版

20

06

渡辺澄夫