kano/lecture/MA/chap1H25.pdf「多変量解析2013」講義資料 1.1 線型代数の基礎1...

「多変量解析 2013」講義資料

1.1 線型代数の基礎 1

この節では本講義で必要とする行列の性質を簡単にまとめる．成分がす

べて実数である実行列のみを扱う．簡単のため p× q 行列を p× q，また，

p × 1 ベクトルを p × 1 または p-ベクトルと略して書くことがある．分

割行列の計算に慣れておく:

q1 q2 r1 r2p1p2

[A11 A12

A21 A22

]×

[B11 B12

B21 B22

]q1q2

=

[A11B11 + A12B21 A11B12 + A12B22

A21B11 + A22B21 A21B12 + A22B22

]Def. 1.1 A: p × q. i) A の行ベクトルと列ベクトルを入れ換えた q × p

行列を A の転置行列 (transposed matrix) といい，AT (= A′ = tA) と表

す．ii) AT = A のとき，A は対称 (symmetric) であるという．このとき，

p = q．

Def. 1.2 A: p × q. i) A の１次独立な行ベクトル (列ベクトル) の数

を A の階数 (rank) といい，rank(A) と表す．ii) rank(A) = q のとき，

full-column rank，rank(A) = p のとき，full-row rankという．iii) A :

p× p. rank(A) = p のとき A は正則 (nonsingular) であるという．注意:

A : 正則 ⇐⇒ ∃A−1 ⇐⇒ |A| = 0. ここで，|A| は A の行列式である．

Def. 1.3 A : p×p. Av = λv を満たすスカラー λと p-ベクトル v (= 0)

をそれぞれ A の固有値，固有ベクトルという．

注意１：λ は固有方程式 |A− λIp| = 0 の解．

注意２：p×p行列 Aの固有値を λ1(A), . . . , λp(A)と書くことがある．

注意３：|A| =p∏

k=1

λk(A), tr(A) =

p∑k=1

λk(A) (→ Prop.1.4)．

Prop. 1.1 　

i) A : p× q, B : q × r.

· rank(AB) ≤ minrank(A), rank(B)· B: q × q 正則 =⇒ rank(AB) = rank(A)

· rank(A) = rank(AT ) = rank(ATA) = rank(AAT )

ii) A : p× p (実)対称行列．A の固有値は実数で，異なる固有値に対応

する固有ベクトルは互いに直交する．1第１回目の講義資料

http://www.sigmath.es.osaka-u.ac.jp/ kano/lecture/MA/MA 0introH25.pdf

1

Def. 1.4 i) V : p× p. V TV = V V T = Ip が成り立つとき，V を直交行

列 (orthogonal matrix) という．p × p 直交行列全体を O(p) で表す．ii)

V : p× q. V TV = Iq が成り立つとき，V を列直交行列という．p× q 列

直交行列全体を O(p× q) で表す．注意: O(p× p) = O(p).

Prop. 1.2 A : p× p 対称行列．∃V = [v1, . . . ,vp] ∈ O(p),

∃Λ =

λ1

. . .

λp

: p× p 対角行列 st. A = V ΛV T =∑p

k=1 λkvkvTk

これをAのスペクトル分解 (spectral decomposition)という．また，V TAV =

Λを行列Aの対角化 (diagonalization)という．

Prop. 1.3 A : p× q, rank(A) = r.

i) ∃B : p × r, ∃C : q × r s.t. A = BCT . これを A の階数分解 (rank

factorization) という．

ii) ∃U ∈ O(p×r), ∃V ∈ O(q×r), ∃ρ : 対角成分がすべて正の r次対角行列

s.t. A = UρV T . これを A の特異値分解 (singular value decomposition)

という．[Gram行列が非負定値であることを認めて証明する→Prop.1.5]

Def. 1.5 A = [aij] : p × p. tr(A) =∑p

k=1 akk を A のトレース (trace)

という．

Prop. 1.4 A, B : 行列，c, d : スカラー.

i) tr(AT ) = tr(A), tr(cA+ dB) = c tr(A) + d tr(B)

ii) tr(AB) = tr(BA) =∑

i,j aijbjiiii) tr(A) =

∑k λk(A), ただし λk(A) は A の固有値．

Def. 1.6 A, B : p×p対称行列．i) xTAx ≥ 0 for ∀x ∈ Rp のとき，Aは

非負定値行列 (nonnegative definite (n.n.d.) matrix)といわれ，A ≥ 0と

書く．xTAx > 0 for ∀x ∈ Rp, x = 0 のとき，A は正定値行列 (positive

definite (p.d.) matrix) といわれ，A > 0 と書く．ii) A− B ≥ 0 のとき，

A ≥ B，また，A−B > 0 のとき，A > B と表す．

Prop. 1.5 A: p× p 対称行列．

i) A > 0 ⇐⇒ λk(A) > 0 (k = 1, . . . , p)

⇐⇒ A ≥ 0 & |A| = 0

ii) A ≥ 0 ⇐⇒ λk(A) ≥ 0 (k = 1, . . . , p)

⇐⇒ ∃B : p× r, r = rank(A) s.t. A = BBT

⇐⇒ ∃C : p× p対称行列 s.t. A = C2

行列 C を A の平方根といい，しばしば A12 で表す．

2

Prop. 1.6 A = (aij), B = (bij), C = (cij) : p× p 対称行列．

i) A ≥ 0 (or A > 0) =⇒ aii ≥ 0 (or aii > 0) (i = 1, . . . , p)

A ≥ 0, aii = 0 =⇒ aik = aki = 0 (k = 1, . . . , p)

A = [Aij] ≥ 0 (or A > 0) =⇒ Aii ≥ 0 (or Aii > 0)

ii) A ≥ 0, B ≥ 0 =⇒ A+B ≥ 0; A > 0, B ≥ 0 =⇒ A+B > 0

iii) A ≥ B, B ≥ C =⇒ A ≥ C; A > B, B ≥ C =⇒ A > C

iv) A ≥ B > 0 =⇒ B−1 ≥ A−1 > 0

A > B > 0 =⇒ B−1 > A−1 > 0

v) G : p× rのとき

A ≥ 0 =⇒ GTAG ≥ 0

A > 0, G : full-column rank =⇒ GTAG > 0

vi) G : p× p正則のとき

A > 0 ⇐⇒ GTAG > 0

注意：v)を示してから iv)を証明する．

(iv)のヒント：B−1−A−1 = (B−1−A−1)B(B−1−A−1)+A−1(A−B)A−1

Def. 1.7 P : p×p. P 2 = P のとき，P は巾等 (idempotent) or射影行列

(projective matrix) という．対称な巾等行列を直交射影行列 (orthogonal

projective matrix)とよぶ．

演習問題 1.1 W を Rp の (線形)部分空間，W の直交補空間をW⊥ と書く．任意の x ∈ Rp は

「x = y + z, y ∈ W, z ∈ W⊥」と一意的に表現できる．

(i) xから yを対応させる写像は線形であることを示せ．(この写像を部分空間W への直交射影という)

(ii) (i)の線形写像を表す行列 P は直交射影行列であることを示せ．

(iii) r = dim(W )とし，W の基底を a1, . . . ,arとする．A = [a1, . . . ,ar] (p× r)とかく．このとき，W への直交射影を表す行列は P = A(ATA)−1AT で与

えられることを証明せよ．

(iv) Aを p× q行列とする．Aの縦ベクトルの張る線形空間への直交射影行列をPA と書くことにする．A = [B,C]を Aの分割とする (B: p× r, C: p× s,q = r + s)．PB , PC なども同様に定義する．このとき

PA = PB + P(Ip−PB)C

を証明せよ．ただし，Ip は p次の単位行列である．

(iii)′ Aを p× r, rank(A) = rなる行列とする．A(ATA)−1AT は直交射影行列で

あることを証明せよ． 3

Prop. 1.7 A : p× p.

i) A : 巾等行列 =⇒ A の固有値は 0 or 1, rank(A) = tr(A).

ii) A : 巾等行列 ⇐⇒ rank(A) + rank(Ip − A) = p.

iii) A : 巾等行列 =⇒ 正則行列によって対角化可能．

iv) A が直交射影行列ならば，∃V ∈ O(p × r) s.t. A = V V T . ここで，

r = rank(A).

Prop. 1.8 Ai (i = 1, . . . , n): p× p．∑n

i=1Ai = Ipとする．

A2i = Ai (i = 1, . . . , n) ⇐⇒

n∑i=1

rank(Ai) = p

このとき

AiAj = O (i = j)

が成立する．

伝統的な証明 (十分性)：階数の劣加法性を用いて rank(Ai)+ rank(Ip−Ai) = pを示す．

分割行列の計算

正方行列Aの分割をA =

[A11 A12

A21 A22

]とする．ここでA11とA22は

正方行列である．A−1 =

[A11 A12

A21 A22

]と書く．ここで登場する逆行列は

すべてその存在を仮定する．

Prop. 1.9 以下必要な逆行列の存在を仮定する．A11, A22 : 正方行列．

A11.2 = A11 − A12A−122 A21, A22.1 = A22 − A21A

−111 A12 とおく．

i)

∣∣∣∣∣A11 A12

A21 A22

∣∣∣∣∣ = |A22||A11.2| = |A11||A22.1|

ii)

(A11)−1A12 = −A12A−122 , A21(A11)−1 = −A−1

22 A21

A12(A22)−1 = −A−111 A12, (A22)−1A21 = −A21A

−111

4

iii) [A11 A12

A21 A22

]−1

=

[A−1

11.2 −A−111.2A12A

−122

−A−122 A21A

−111.2 A−1

22 + A−122 A21A

−111.2A12A

−122

]

=

[O O

O A−122

]+

[−I

A−122 A21

]A−1

11.2

[−I A12A

−122

]

=

[A−1

11 + A−111 A12A

−122.1A21A

−111 −A−1

11 A12A−122.1

−A−122.1A21A

−111 A−1

22.1

]

=

[A−1

11 O

O O

]+

[A−1

11 A12

−I

]A−1

22.1

[A21A

−111 −I

]iv) A > 0のとき，A11.2 > 0, A22.1 > 0, A11 ≥ A−1

11 .

Proof 次の等式を使う．[I −A12A

−122

O I

][A11 A12

A21 A22

][I O

−A−122 A21 I

]=

[A11.2 O

O A22

]

Prop. 1.10 (Woodbury’s identities) 分割行列

[A11 A12

A21 A22

]において

次の公式が成り立つ．(一般に A12, A21は長方行列である)

(A11 + A12A−122 A21)

−1 = A−111 − A−1

11 A12(A22 + A21A−111 A12)

−1A21A−111

(A11 + A12A−122 A21)

−1A12 = A−111 A12(A22 + A21A

−111 A12)

−1A22

A21(A11 + A12A−122 A21)

−1 = A22(A22 + A21A−111 A12)

−1A21A−111

A21(A11 + A12A−122 A21)

−1A12 = A22 − A22(A22 + A21A−111 A12)

−1A22

[A21(A11 + A12A−122 A21)

−1A12]−1 = (A21A

−111 A12)

−1 + A−122

補足：Prop. 1.6 iv)の証明にも応用できる．

演習問題 1.2 a+ b = 1, a = 0, Σ =

[Σ11 Σ12

Σ21 Σ22

]は正則とする．(

aΣ−1 + b

[O O

O Σ−122

])−1

を計算せよ．

Prop. 1.11 (Khatri’s lemma) [A,B] を正則行列，ATB = O, M > 0

とする．このとき次式が成立する．MA(ATMA)−1ATM +B(BTM−1B)−1BT = M

5

注意：射影との関連を理解する．

特殊な行列の演算

Def. 1.8 A = (aij) : p× q, B = (bij) : m× n. pm× qn 行列 A⊗ B を

次で定義し，Kronecker 積という．

A⊗B =

a11B · · · a1ℓB · · · a1qB... · · · ... · · · ...

aj1B · · · ajℓB · · · ajqB... · · · ... · · · ...

ap1B · · · apℓB · · · apqB

A⊗B の (ij, kℓ) 要素は (A⊗B)ij,kℓ = ajℓbikで与えられる．

Prop. 1.12 次式が成立する．

i) (a1A1 + a2A2)⊗ (b1B1 + b2B2)

= a1b1(A1⊗B1)+a1b2(A1⊗B2)+a2b1(A2⊗B1)+a2b2(A2⊗B2)

ここで ai, bi はスカラーである．

ii) (A⊗B)T = AT ⊗BT

iii) (A1A2)⊗ (B1B2) = (A1 ⊗B1)(A2 ⊗B2)

iv) (A⊗B)−1 = A−1 ⊗B−1

v) tr(A⊗B) = tr(A)× tr(B), rank(A⊗B) = rank(A)× rank(B)

vi) A ≥ 0, B ≥ 0 =⇒ (A⊗B) ≥ 0; A > 0, B > 0 =⇒ (A⊗B) > 0

Def. 1.9 i) A = [a1, . . . ,aq] : p× q. pq × 1 ベクトル vec(A) を

vec(A) =

a1

...

aq

で定義する．pq × pq 行列 Kpq を次式で定義する．

Kpqvec(A) = vec(AT ) for any A ∈ Mat(p× q)

Kpq を commutation matrix とよぶ．しばしば次の記号を用いる．

Np =1

2(Ip2 +Kpp)

ii) A = (aij) : p× p. p∗ = p(p+ 1)/2. p∗-ベクトル v(A) を

v(A) = [a11, . . . , ap1, a22, . . . , ap2, . . . , app]T

で定義する．v(·) を vech(·) と書くことがある．vec(·) と v(·) を vec-operator ということがある．

6

Prop. 1.13 A, B, C, D : 行列. a, b, c, d: ベクトル．

i) vec(aT ) = vec(a) = a, vec(abT ) = b⊗ a

ii) (abT )⊗ (cdT ) = vec(caT )vec(dbT )T

iii) vec(A)Tvec(B) = tr(ATB)

iv) vec(ABC) = (CT ⊗ A)vec(B)

v) tr(ABCD) = vec(DT )T (CT ⊗A)vec(B) = vec(D)T (A⊗CT )vec(BT )

vi) [(A⊗B)+α·vec(A)vec(B)T ]−1 = (A−1⊗B−1)−a·vec(B−1)vec(A−1)T

ここで，A, B は p× p 正則対称行列，a = α/(1 + αp).

Proof. iv) B = [b1, . . . , bq], Iq = [e1, . . . , eq] とすると

vec(ABC) =vecA(∑k

bkeTk )C =

∑k

vecAbk(CTek)T

=∑k

(CTek)⊗ (Abk) = (CT ⊗ A)∑k

(ek ⊗ bk)

=(CT ⊗ A)∑k

vec(bkeTk ) = (CT ⊗ A)vec(B)

Prop. 1.14 A: p× q, B: m× n, b: m× 1.

i) Kpq ∈ O(pq)，Kpq =∑p

i=1

∑qj=1Eij ⊗ Eij

T

ここで，Eij : p× q は (i, j) 成分のみが 1 でその他の成分は 0 なる行列．

ii) KTpq = K−1

pq = Kqp, Kp1 = K1p = Ip, K2pp = Ip2 , Kpp は対称行列

iii) Kmp(A⊗B) = (B ⊗ A)Knq, Kmp(A⊗B)Kqn = (B ⊗ A)

iv) Kmp(A⊗ b) = b⊗ A, Kpm(b⊗ A) = A⊗ b

Proof. iii) X を任意の n× q 行列とすると，

Kmp(A⊗B)vec(X) = Kmpvec(BXAT ) = vec(AXTBT )

= (B ⊗ A)vec(XT ) = (B ⊗ A)Knqvec(X)

Prop. 1.15 A: p× q.

i) Np = NTp = N2

p , rank(Np) = tr(Np) =12p(p+ 1)

ii) NpKpp = Np = KppNp

iii) Np(A⊗ A) = (A⊗ A)Nq = Np(A⊗ A)Nq

Def. 1.10 A : p × p 対称行列．p∗ = p(p + 1)/2. p2 × p∗ 行列 Dp を次

で定義する．

vec(A) = Dpv(A) for any A (A = AT )

7

さらに，D+p = (DT

p Dp)−1DT

p を定義する．容易に，

v(A) = D+p vec(A) for any A (A = AT )

が確かめられる．これらの行列を duplication matrix ということがある．

Prop. 1.16 A : p× p, b : p× 1.

i) KppDp = Dp, NpDp = Dp, D+p Np = D+

p , DpD+p = Np

ii) Np(b⊗ A) = 12(b⊗ A+ A⊗ b)

iii) [D+p (A⊗ A)Dp]

−1 = D+p (A

−1 ⊗ A−1)Dp

iv) [DTp (A⊗ A)Dp]

−1 = D+p (A

−1 ⊗ A−1)(D+p )

T

Proof. i) 行列 A の縦ベクトルの張る線形空間を M(A) と書く

と，NpDpD+p = DpD

+p は，M(DpD

+p ) ⊂ M(Np) を意味するが，一方，

rank(Np) =12p(p+1) = rank(DpD

+p )だから，結局M(DpD

+p ) = M(Np)

となる．DpD+p , Np ともに，巾等かつ対称であるから，同じ空間への直

交射影を表す行列である．従って，DpD+p = Np.

Def. 1.11 i) A = (aij), B = (bij) : p× q. p× q 行列 A ∗ B を次で定義し，Hadamard 積 (elementwise 積) という．

(A ∗B)ij = aijbij

ii) Ip = [e1, . . . , ep]とかく．p2 × p 行列 Hp を

Hp = [e1 ⊗ e1, . . . , ep ⊗ ep]

と定義する．

iii) A = (aij) : p× p.

diag(a11, . . . , app) =

a11 0 . . . 0

0 a22. . .

......

. . . . . . 0

0 . . . 0 app

Diag(A) = diag(a11, . . . , app)

vecdiag(A) = [a11, . . . , app]T

Prop. 1.17 A, B : p× p.

i) A ∗B = HTp (A⊗B)Hp, rank(A ∗B) ≤ rank(A) · rank(B)

ii-a) A ≥ 0, B ≥ 0 =⇒ (A ∗B) ≥ 0

ii-b) A > 0, B > 0 =⇒ (A ∗B) > 0

8

iii) vecdiag(A) = HTp vec(A)

本節の参考文献

• 佐武一郎 (1974). 線型代数学．裳華房．

• 竹内啓 (1974)．線形数学．培風館．

• D.A.ハーヴィル (2007). 統計のための行列代数上・下．伊理正夫

(監訳) シュプリンガー・ジャパン．

• Magnus, Jan R. and Neudecker, Heinz (1999). Matrix Defferential

Calculas (2nd edition) Wiley.

• Rao, C. R. (1976). Linear Statistical Inference and its Applications

(2nd edition) Wiley.

9

1.2 分布論の基礎

本講義の基礎となる確率分布の性質を簡単にまとめる．

Def. 2.12 i) 確率変数 Xij を (i, j) 要素とする行列 X = (Xij) を確率

行列 (random matrix) という．Xij の期待値 E(Xij) を (i, j) 要素とする

行列を E(X) で表し X の期待値（行列）という．

ii) 確率変数 X1, . . . , Xp を要素とする p× 1 ベクトル X = [X1, . . . , Xp]T

を p次元確率ベクトル (random vector, r.v.) という．E(X) を X の平

均ベクトル (mean vector; p×1)といい，しばしば µで表す．Var(X) :=

E[(X −E(X))(X −E(X))T ] を X の分散行列 (variance matrix; p× p)

といい，しばしば Σ で表す．すなわち，

µ = E(X) =

E(X1)...

E(Xp)

Σ = Var(X) =

Var(X1) Cov(X1, X2) . . . Cov(X1, Xp)

Cov(X2, X1) Var(X2). . .

......

. . . . . . Cov(Xp−1, Xp)

Cov(Xp, X1) . . . Cov(Xp, Xp−1) Var(Xp)

=[Cov(Xi, Xj)]

Var(X) は共分散行列 (covariance matrix) or 分散共分散行列 (variance-

covariance matrix) とよばれることもある．２つの確率ベクトル X, Y

の共分散行列を Cov(X,Y ) = E[(X − E(X))(Y − E(Y ))T ] で定義す

る．特に，Cov(X,X) = Var(X).

Prop. 2.18 X, Y : r.v.

· E(aX + bY ) = aE(X) + bE(Y ), E(AX + b) = AE(X) + b

· Cov(AX + b, CY + d) = ACov(X,Y )CT

· Var(AX + b) = AVar(X)AT

· Var(X) ≥ 0

· Var(X) = O ⇐⇒ X = E(X) (w.p.1.)

Def. 2.13 i) X: p次元 r.v. ∀B ⊂ Rp に対して

Pr(X ∈ B) =

∫· · ·∫B

f(x)dx

が成立するとき，f(x)をXの (分布の)確率密度関数 (probability density

function, pdf) という．(厳密には B は Rp の Borel 集合)

10

ii) X : p次元 r.v., Y : q次元 r.v. ∀B1 ⊂ Rp, ∀B2 ⊂ Rq に対して

Pr(X ∈ B1, Y ∈ B2) = Pr(X ∈ B1) Pr(Y ∈ B2)

が成立するとき，X と Y は互いに独立である（or 独立に分布する）と

いい，X ||— Y で表す．

X ||— Y ⇐⇒ 任意の有界連続関数 α(·), β(·)についてE[α(X)β(Y )] = E[α(X)]E[β(Y )]

(X,Y ), X, Y の分布がそれぞれ pdf h(x,y), f(x), g(y) をもつとき，

X ||— Y ⇐⇒ h(x,y) = f(x) · g(y)

Prop. 2.19 f(x) を p次元 r.v. X の pdf とする．

i) y = g(x) =

g1(x)...

gp(x)

を Rpのある領域から Rp への可微分な 1:1 変換

とする．

Y = g(X) の pdf は

h(y) := f(g−1(y))|J(y)|, J(y) = det

[∂x

∂yT

](= det

[∂y

∂xT

]−1)

(1)

によって与えられる．ここで，g−1(y)は g の逆変換で，J(y)は変換 g−1

の Jacobian である．特に，線形変換 g(x) = Ax のとき，Y = AX の

pdf は f(A−1y)|det(A)|−1 となる．

(1)の形式的な証明は下記のようである．∫B

h(y)dy = P (Y ∈ B) = P (g(X) ∈ B) = P (X ∈ g−1(B))

=

∫g−1(B)

f(x)dx =

∫B

f(g−1(y)| det(J(y)|dy

Prop. 2.20 p次元 r.v. X を分割し，X = [XT1 ,X

T2 ]

T とする (X1 :

p1 × 1; X2 : p2 × 1)．X, X1, X2の (分布の)確率密度関数をそれぞれ

f(x1,x2), f1(x1), f2(x2)とする．X2 = x2を与えた下でのX1の条件付

き分布の pdfは f(x1|x2) :=f(x1,x2)

f2(x2)(f2(x2) > 0)で定義される．

i) 次式が成立する．

f1(x1) =

∫f(x1,x2)dx2, f2(x2) =

∫f(x1,x2)dx1

11

ii) h(x1)をX1の値域を含む領域で定義された可測関数で，h(X1)

は可積であるとする．E[h(X1)|X2 = x2] :=∫h(x1)f(x1|x2)dx1 を，

X2 = x2 が与えられた下での h(X1)の条件付き期待値という．これ

は x2の関数である．x2に確率ベクトルX2を代入した確率ベクトルを

E[h(X1)|X2]で表す．このとき

E[E[h(X1)|X2

]]= E

[h(X1)

](2)

が成立する．すなわち∫ (∫h(x1)f(x1|x2)dx1

)f2(x2)dx2 =

∫h(x1)f1(x1)dx1

である．

g(x2)をX2 の値域を含む領域で定義された可測写像とする．この

とき

E[h(X1)g(X2)

T |X2

]= E

[h(X1)|X2

]g(X2)

T (3)

が成立する．すなわち∫h(x1)g(x2)

Tf(x1|x2)dx1 =

(∫h(x1)f(x1|x2)dx1

)g(x2)

T

Prop. 2.21 前Propositionと同様にX = [XT1 ,X

T2 ]

Tとする．E[||X||2] <∞とし，以下を定義する．

H :=h : D (⊂ Rp2) → Rp2 |E

[||h(X2)||2

]< ∞

このとき

argminh∈H

E[||X1 − h(X2)||2] = E[X1|X2]

証明

E[||X1 − h(X2)||2

]= E

[||X1 − E[X1|X2] + E[X1|X2]− h(X2)||2

]= E

[||X1 − E[X1|X2]||2

]+ E

[||E[X1|X2]− h(X2)||2

]∵

E

[X1 − E[X1|X2]

TE[X1|X2]− h(X2)

∣∣∣X2

]=E

[X1 − E[X1|X2]

T ∣∣∣X2

]E[X1|X2]− h(X2)

=0

12

最小値

minh∈H

E(||X1 − h(X2)||2

)= E

(||X1 − E(X1|X2)||2

)=E

[E(||X1 − E(X1|X2)||2

∣∣∣X2

)]= E

[trVar(X1|X2)

]正規性の仮定の下で，最小値は tr(Σ11.2)となる→後証．

Def. 2.14 X1, . . . , Xpi.i.d.∼ N(0, 1)とする．X = [X1, . . . , Xp]

T の分布

をp次元 (or p変量)標準正規分布 (p-variate standard normal distribution)

といいNp(0, Ip)で表す．p次元標準正規分布の確率密度関数は

p∏i=1

1

(2π)1/2exp

−1

2x2i

=

1

(2π)p/2exp

−1

2

p∑i=1

x2i

=

1

(2π)p/2exp

(−xTx/2

)(x = [x1, · · · , xp]

T )

で与えられる．X ∼ Np(0, Ip) のとき E(X) = 0, Var(X) = Ip

Prop. 2.22 X ∼ Np(0, Ip), V ∈ O(p) =⇒ Y = VX ∼ Np(0, Ip)

Lemma A, B: p× q

AAT = BBT ⇐⇒ A = BV for some V ∈ O(q)

Def. 2.15 µ ∈ Rp, Σ ≥ 0 (p× p), rank(Σ) = r, Σ = BBT , B (p× r)

とする．Z ∼ Nr(0, Ir)とする．このときX := µ+BZ の分布を平均ベ

クトルµ，分散行列Σをもつ p次元 (or p変量，多変量)正規分布といい

Np(µ,Σ)で表す．Σが正則であるとき，確率密度関数 (pdf)が存在し

Np(x|µ,Σ) =1

(2π)p/2|Σ|1/2exp

−1

2(x− µ)TΣ−1(x− µ)

で与えられる．

Prop. 2.23 X ∼ Np(µ, Σ).

i) E(X) = µ, Var(X) = Σ, MX(t) := E(etTX) = eµ

T t+ 12tTΣt

ii) A : p× q, b : q-ベクトル．このとき，

AX + b ∼ Nq(Aµ+ b, AΣAT )

13

Prop. 2.24 X ∼ Np(µ, Σ). (p1 + p2 = p)

X =

[X1

X2

]p1

p2, µ =

[µ1

µ2

], Σ =

[Σ11 Σ12

Σ21 Σ22

]と書くと

· Cov(X1,X2) = Σ12

· X1 ∼ Np1(µ1, Σ11), X2 ∼ Np2(µ2, Σ22)

· X1||— X2 ⇐⇒ Σ12 = O

· A1, A2 :定数行列． A1X ||— A2X ⇐⇒ A1ΣAT2 = O

Prop. 2.25 X ∼ Np(µ, Σ). Σ > 0とする．前 Propと同様に分割す

る．X2 = x2が与えられた下でのX1 の条件付き分布は以下で与えら

れる．

1

(2π)p1/2|Σ11.2|1/2exp

− 1

2

(x1 − µ1 − Σ12Σ

−122 (x2 − µ2)

)T× Σ−1

11.2

(x1 − µ1 − Σ12Σ

−122 (x2 − µ2)

)すなわちX1|X2 = x2 ∼ Np1

(µ1 + Σ12Σ

−122 (x2 − µ2),Σ11.2

)であり．特に

E[X1|X2 = x2] =µ1 + Σ12Σ−122 (x2 − µ2)

Var[X1|X2 = x2] =Σ11.2

証明は Appendix にある．

Prop. 2.26 X ∼ Np(µ, Σ).

· E[(Xi − µi)(Xj − µj)(Xk − µk)(Xℓ − µℓ)] = σikσjℓ + σiℓσjk + σijσkℓ

· Cov[(Xi − µi)(Xj − µj), (Xk − µk)(Xℓ − µℓ)] = σikσjℓ + σiℓσjk

· Var[vec((X − µ)(X − µ)T )] = 2Np(Σ⊗ Σ) = 2Np(Σ⊗ Σ)Np = 2(Σ⊗ Σ)Np

· Var[v((X − µ)(X − µ)T )] = 2D+p (Σ⊗ Σ)D+T

p

演習問題 2.1 X1, . . . ,Xn

i.i.d.∼ Np(µ,Σ). X = 1n

∑ni=1X i.

S = 1n

∑ni=1(X i − X)(X i − X)T . 次式を示せ．

limn→∞

nVar[vec(S)] = 2Np(Σ⊗ Σ) Def. 2.16 X1, . . . , Xn

i.i.d.∼ N(0, 1) とする．∑n

i=1 X2i の分布を自由度

n のカイ２乗分布 (chi-square distribution) といい χ2n で表す．χ2

n の pdf

14

と積率母関数は，それぞれ，以下のようになる．

fχ2n(x) =

1

2n/2Γ(n/2)xn/2−1e−x/2 (x > 0)

Mχ2n(x) = E[etχ

2n ] = (1− 2t)−n/2 (t < 1/2)

Def. 2.17 X1, . . . ,Xni.i.d.∼ Np(0,Σ)とする．X =

∑ni=1X iX

Ti の分布

をWishart分布といい，Wp(n,Σ) で表す．Σ > 0, n ≥ pのときWp(n,Σ)

の確率密度関数 (pdf)が存在し，次式で与えられる．

c−1np |Σ|−

n2 |X|

12(n−p−1) exp

(−1

2tr[Σ−1X]

)(X > 0)

ここで cnpは正規化定数で，2np/2πp(p−1)/4Πpi=1Γ[

12(n+ 1− i)]である．

Prop. 2.27 X ∼ Np(0, Σ). A : p× p 対称.

XTAX ∼ χ2q ⇐⇒ ΣAΣAΣ = ΣAΣ, q = tr[AΣ]

上記の必要十分条件は，Σが正則のとき AΣA = A, Σ = Ipのとき A2 = A

となる．

Prop. 2.28 (Cochran’s Theorem) Ai: p× p 対称，Ip =∑n

i=1Ai,

X ∼ Np(0, Ip), Qi := XTAiX (i = 1, . . . , n) とする．

Qi ∼ χ2 (i = 1, . . . , n) ⇐⇒n∑

i=1

rank(Ai) = p

このとき，Qi (i = 1, . . . , n)は互いに独立である．

Def. 2.18Xn = [X

(n)1 , . . . , X

(n)p ]T

: p次元 r.v. の列．

i) a ∈ Rp. ∀ϵ > 0 に対して

limn→∞

Pr∥Xn − a∥ < ϵ = 1

が成り立つとき，Xn は a に確率収束 (convergence in probability) する

といい，XnP−→ a (n → ∞) と表す．ここで，∥X∥ =

√XTX.

ii) X = [X1, . . . , Xp]T : p次元 r.v.

limn→∞

PrX(n)1 ≤ x1, . . . , X

(n)p ≤ xp = PrX1 ≤ x1, . . . , Xp ≤ xp

が成り立つとき，Xn は X に分布収束 (convergence in distribution, or

法則収束 convergence in law) するといい，Xnd−→ X (n → ∞) と表

す．ここで，xk は PrXk = xk = 0 (k = 1, . . . , p) なる任意の実数．

注意: 以後 (n → ∞) を略すことがある．

15

Prop. 2.29 X1, . . . ,Xn : 独立同一分布をもつ p次元 r.v. E(X i) = µ,

Var(X i) = Σ. Xn = 1n

∑ni=1X i とおく．

i) E(Xn) = µ, Var(Xn) =1nΣ

ii) (大数の法則) XnP−→ µ (n → ∞)

iii) (中心極限定理)

√n(Xn − µ)

d−→ Np(0,Σ) (n → ∞) (1.2)

Proof. ii) Y ≥ 0 なる確率変数と K > 0 に対して Pr(Y ≥ K) ≤ E(Y )K

が成り立つ (Markov’s inequality). よって，

Pr(∥Xn − µ∥2 ≥ ϵ2) ≤ E(∥Xn − µ∥2)ϵ2

一方，

E[∥Xn − µ∥2] = tr[E(Xn − µ)(Xn − µ)T

]= tr[Var(Xn)] =

1

ntr(Σ) → 0 (n → ∞)

注意: (1.2)を Xn ∼ Np(µ,1nΣ) (n → ∞)のように書くことがある．同

様に Ynd−→ χ2

q (n → ∞) などと書く．

Prop. 2.30 Xn : p次元 r.v. の列．X : p次元 r.v. a ∈ Rp. g :

Rp → Rq: 連続．

i) XnP−→ a =⇒ g(Xn)

P−→ g(a) (確率収束の保存)

ii) Xnd−→ X =⇒ g(Xn)

d−→ g(X) (法則収束の保存)

Proof. i) g(x) の連続性より明．ii) 特性関数 ϕn(θ) = E(eiθT g(Xn)) の

収束を示す．

Prop. 2.31 (Slutsky’s Theorem) Yn : 確率変数．X, Xn, Y n : 確

率ベクトル，Zn : 確率行列．

i) Xn = [X(n)1 , . . . , X

(n)p ]T , a = [a1, . . . , ap]

T とすると，

· XnP−→ a ⇐⇒ X

(n)k

P−→ ak (k = 1, . . . , p)

· Xnd−→ a ⇐⇒ X

(n)k

d−→ ak (k = 1, . . . , p)

· Xnd−→ a ⇐⇒ Xn

P−→ a

ii) Xnd−→ X, Yn

P−→ 0 =⇒ XnYnP−→ 0

iii) Xnd−→ X, Xn − Y n

P−→ 0 =⇒ Y nd−→ X

16

iii)′ Xnd−→ X, Y n

P−→ 0 =⇒ Xn + Y nd−→ X

iv) Xnd−→ X, Y n

P−→ b, ZnP−→ A =⇒ ZnXn+Y n

d−→ AX+b

注意: Xnd−→ X, Y n

d−→ Y =⇒ Xn + Y nd−→ X + Y は成立し

ない．

Def. 2.19 (Mann-Waldの記号) Xn : p次元 r.v. an : 実数列．

i) Xn/anP−→ 0 のとき Xn = op(an) とかく．つまり

Xn = op(an) ⇐⇒ limn→∞

Pr[∥Xn/an∥ < ϵ] = 1 for ∀ϵ > 0

特に，an ≡ 1 のとき, Xn = op(1)(

⇐⇒ XnP−→ 0

)ii) ∀ϵ > 0, ∃M > 0 s.t. Pr[∥Xn/an∥ ≤ M ] > 1 − ϵ for ∀n のと

き，Xn = Op(an) とかく．特に，an ≡ 1 のとき，Pr[∥Xn∥ ≤ M ] >

1− ϵ(

⇐⇒ Xn = Op(1)). このとき，Xn は確率有界 (bounded in

probability) といわれる．

Prop. 2.32 Xn, Y n : r.v.

i) Xn = op(1) =⇒ Xn = Op(1)

ii) Xnd−→ X =⇒ Xn = Op(1)

iii) Xn = Op(1), Y n = Op(1) =⇒ Xn + Y n = Op(1)

Xn = op(1), Y n = op(1) =⇒ Xn + Y n = op(1)

iv) Xn = Op(1), Y n = Op(1) =⇒ XnYTn = Op(1)

Xn = op(1), Y n = Op(1) =⇒ XnYTn = op(1)

Prop. 2.33 (Delta theorem)√n(Xn − µ)

d−→ Np(0,Σ).

g(x) =

g1(x)...

gq(x)

: Rp −→ Rq は連続で，x = µ において全微分可能．

このとき，

√n(g(Xn)− g(µ))

d−→ Nq

(0,

(∂g(µ)

∂xT

)Σ

(∂g(µ)

∂xT

)T)

ここで，

(∂g(µ)

∂xT

)ij

=∂gi(x)

∂xj

∣∣∣∣x=µ

17

Example．分割表適合度検定のカイ２乗性（コクラン定理の応用）

本節の参考文献

• Billingsley, P. (1995). Probability and Measure (3rd edition). (Wi-

ley Series in Probability and Statistics).

• Chung, Kai Lai (2001). A Course in Probability Theory (3rd ed.)

Academic Press.

• Lehmann, E. L. (1998). Elements of Large-Sample Theory (Springer

Texts in Statistics).

• Rao, C. R. (1976). Linear Statistical Inference and its Applications

(2nd edition) Wiley.

• 稲垣宣生 (2003). 数理統計学（改訂版）裳華房．

• 園信太郎 (2007). 統計学入門における分布の収束のある取り扱い

について．経済学研究，57(1), 47-49.

• 西尾真喜子 (1978). 確率論．実教出版

• 吉田朋広 (2006). 数理統計学．朝倉書店．

18

Appendix A

Prop 2.25の証明 X1|X2 = x2 ∼ Np1

(µ1 +Σ12Σ

−122 (x2 − µ2),Σ11.2

) 次の関係式に注意する．[

Σ11 Σ12

Σ21 Σ22

]−1

=

[0 0

0 Σ−122

]+

[−I

Σ−122 Σ21

]Σ−111.2

[−I, Σ12Σ

−122

][Prop.1.9 i)]

|Σ| = |Σ22||Σ11.2| [Prop.1.9 iii)]

上式を用いると

Np(x|µ,Σ)

=1

(2π)p/2|Σ|1/2exp

−1

2(x− µ)TΣ−1(x− µ)

=

1

(2π)p/2(|Σ22||Σ11.2|)1/2exp

−1

2

[x1 − µ1

x2 − µ2

]T [Σ11 Σ12

Σ21 Σ22

]−1 [x1 − µ1

x2 − µ2

]

=1

(2π)p1/2|Σ22|1/2exp

−1

2(x2 − µ2)

TΣ−122 (x2 − µ2)

× 1

(2π)p2/2|Σ11.2|1/2

× exp

−1

2

[x1 − µ1

x2 − µ2

]T [I

−Σ−122 Σ21

]Σ−111.2

[I, −Σ12Σ

−122

] [x1 − µ1

x2 − µ2

]

=1

(2π)p1/2|Σ22|1/2exp

−1

2(x2 − µ2)

TΣ−122 (x2 − µ2)

× 1

(2π)p2/2|Σ11.2|1/2exp

[− 1

2

(x1 − µ1)

T − (x2 − µ2)TΣ−1

22 Σ21

× Σ−1

11.2

(x1 − µ1)− Σ12Σ

−122 (x2 − µ2)

]

=1

(2π)p1/2|Σ22|1/2exp

−1

2(x2 − µ2)

TΣ−122 (x2 − µ2)

× 1

(2π)p2/2|Σ11.2|1/2exp

− 1

2

(x1 − µ1 − Σ12Σ

−122 (x2 − µ2)

)T× Σ−1

11.2

(x1 − µ1 − Σ12Σ

−122 (x2 − µ2)

)=Np1(x2|µ2,Σ22)×Np2(x1|µ1 +Σ12Σ

−122 (x2 − µ2),Σ11.2)

を得る．すなわち，

Np(x|µ,Σ)Np1(x2|µ2,Σ22)

= Np2(x1|µ1 +Σ12Σ−122 (x2 − µ2),Σ11.2)

が成立する．

19

Prop 2.31 iii)′の証明 (1次元) Xn

d−→ X, YnP−→ 0 =⇒ Xn + Yn

d−→ X CX をX の分布関数 P (X ≤ t)の連続点の集合とする．CX は R上稠密(dense)である．

t ∈ CX とすると，∀ϵ1 > 0, ∃δ1 > 0 st.

|P (X ≤ t± δ1)− P (X ≤ t) | < ϵ1 (4)

以下の議論のため，δ1は t± δ1 ∈ CX となるように取っておく．

YP−→ 0より，∀ϵ2 > 0, ∀δ2 (= δ1) > 0, ∃n1 ∈ N st.

P (|Yn| > δ1) < ϵ2 for ∀n ≥ n1 (5)

Xnd−→ Xより，t± δ1 ∈ CX であるから，∀ϵ3 > 0, ∃n2 ∈ N st.

|P (Xn ≤ t± δ1)− P (X ≤ t± δ1)| < ϵ3 for ∀n ≥ n2 (6)

以上より，t, t+ δ1 ∈ CX に注意して，次式の成立が確認される．

P (Xn + Yn ≤ t) =P (Xn + Yn ≤ t, |Yn| ≤ δ1) + P (Xn + Yn ≤ t, |Yn| > δ1)

≤P (Xn ≤ t+ δ1) + P (|Yn| > δ1) (7)

<P (X ≤ t+ δ1) + ϵ3 + ϵ2 (by (6) and (5))

<P (X ≤ t) + ϵ1 + ϵ3 + ϵ2 (by (4))

∴P (Xn + Yn ≤ t)− P (X ≤ t) < ϵ for n ≥ maxn1, n2 (8)

ここで，ϵ = ϵ1 + ϵ3 + ϵ2．

(7)と同様にして

P (Xn + Yn ≤ t) ≥ P (Xn ≤ t− δ)− P (|Yn| > δ) (9)

であり，また

P (Xn + Yn ≤ t)− P (X ≤ t) > −ϵ for n ≥ maxn1, n2 (10)

を得る．(8)と (10)から目的の結果が証明される． Q.E.D.

HW (9)と (10)に証明をつけよ．

20

Delta theorem (univariate case of Prop 2.33)の証明 √n(Xn−µ)

d−→ N(0, σ2). g(x)をR上で定義された可測関数でx = µ

において微分可能とする．このとき次式が成立する．√n(g(Xn)− g(µ)

)d−→ N

(0, σ2g′(µ)2

)(n → ∞)

r(x)を次式で定義する．

g(x)− g(µ) = g′(µ)(x− µ) + r(x)

容易に√n(g(Xn)− g(µ)

)= g′(µ)

√n(Xn − µ) +

√nr(Xn)

√nr(Xn) = op(1)が示されれば，確率収束の保存と Slutsky定理を用い

て目的の結果が証明される．

可微分性より

limx→µ

r(x)

x− µ= 0

H(x)を次式で定義する．

H(x) =

r(x)

x− µ(x = µ)

0 (x = µ)

H(x) → 0 (as x → µ) より，H(x)は x = µで連続．√n(Xn − µ) = Op(1)だから，Xn

P−→ µ．確率収束の保存より

H(Xn)P−→ H(µ) = 0 (n → ∞)

また，次式は Xn = µを含めて常に成立する√nr(Xn) =

√n(Xn − µ)H(Xn)

= Op(1)× op(1)

= op(1)

21

相関係数の漸近分布の導出 √n(r − ρ)

d−→ N(0, (1− ρ2)2

)(n → ∞)

正規母集団からの標本：X1, . . . ,Xni.i.d.∼ Np(µ,Σ) with Σ = (σij)

標本共分散行列：S = (sij) =1

n

n∑α=1

(Xα − Xn)(Xα − Xn)T

母相関係数：ρij =σij√σiiσjj

，標本相関係数：rij =sij√siisjj

中心極限定理：√n

[1

n

n∑α=1

v((Xα − µ)(Xα − µ)T ))− v(Σ)

]d−→ Np∗(0,ΓN)

with ΓN = 2D+p (Σ⊗ Σ)D+T

p = Var[v((Xα − µ)(Xα − µ)T ))

](ΓN)ij,kl = σikσjl + σilσjk

Sの漸近分布：

S =1

n

n∑α=1

(Xα − Xn)(Xα − Xn)T

=1

n

n∑α=1

(Xα − µ)(Xα − µ)T + (Xn − µ)(Xn − µ)T

√n(v(S)− v(Σ)) =

√n

[1

n

n∑α=1

v((Xα − µ)(Xα − µ)T )− v(Σ)

]+ v

[√n(Xn − µ)(Xn − µ)T

]d−→Np∗(0,ΓN)

by Slutsky’s Theorem

Delta theorem:

g(S): q-vector valued function of S continuously differentiable around

S = Σ. G :=∂h(S)

∂v(S)T

∣∣∣S=Σ

√n(g(S)− g(Σ))

d−→ Nq(0, GΓNGT )

p = 2とする．r21 = r, ρ21 = ρと書く．一般性を失うことなく σ11 =

σ22 = 1とする．g(S) = s21√s11s22

である．

このとき，

22

ΓN =Var

(X1 − µ1)2

(X2 − µ2)(X1 − µ1)

(X2 − µ2)2

=

2σ211 2σ21σ11 2σ2

21

2σ21σ11 σ11σ22 + σ221 2σ22σ21

2σ221 2σ22σ21 2σ2

22

=

2 2σ21 2σ221

2σ21 1 + σ221 2σ21

2σ221 2σ21 2σ2

22

=

2 2ρ 2ρ2

2ρ 1 + ρ2 2ρ

2ρ2 2ρ 2

一階微分 G:

∂r

∂s11

∣∣∣S=Σ

= − 1

2s11× s21√

s11s22

∣∣∣S=Σ

=−ρ

2

∂r

∂s21

∣∣∣S=Σ

=1

√s11s22

∣∣∣S=Σ

= 1

∂r

∂s22

∣∣∣S=Σ

= − 1

2s22× s21√

s11s22

∣∣∣S=Σ

=−ρ

2

∴ G =[−ρ2, 1, −ρ

2

]漸近分散

GΓNGT =

[−ρ2, 1, −ρ

2

] 2 2ρ 2ρ2

2ρ 1 + ρ2 2ρ

2ρ2 2ρ 2

−ρ2

1−ρ2

= (1− ρ2)2

以上より以下を得る．

標本相関係数 rの漸近分布:√n(r − ρ)

d−→ N(0, (1− ρ2)2

)(n → ∞)

Fisherの z-変換:

g(x) =1

2log

1 + x

1− xとして，Delta theoremを適用すると

√n(g(r)− g(ρ)

)d−→ N(0, 1) (n → ∞)

なぜなら

g′(ρ)2(1− ρ2)2 =

[1

2

(1

1 + ρ+

1

1− ρ

)]2(1− ρ2)2 = 1

23

Appendix B: 測度論の補遺と条件付き確率・期待値

(Ω,A, µ)を測度空間 (measure space)とする．ここでΩは台集合 (抽象集合)，AはΩ上の σ-集合体 (σ-field or σ-algebra)，µは可測空間 (Ω,A)上の測度 (mea-

sure)である．Ωに距離 ρが定義されているとき，ρに基づく開集合を含む最小

の σ-集合体を特に Borel集合体といい Bと書く．(Ω,B)を Borel可測空間とい

う．特に，Rnの Borel可測空間を (Rn,Bn)と書く．

µ(Ω) < ∞ のとき µ を有限測度という．適当な An(∈ A) が存在して Ω =

∪∞n=1An, µ(An) < ∞とできるとき，µを σ-有限測度という．特に，µ(Ω) = 1

のとき µを確率測度 (probability measure)といい，このとき，(Ω,A, µ)を確率

空間 (probability space)という．

Def. 3.1 (可測と誘導測度) (i) (Ω,A)と (Ω′,A′)を可測空間とする．ΩからΩ′

への写像 f : (Ω,A) → (Ω′,A′) が

A′ ∈ A′ =⇒ f−1(A′) ∈ Aを満たすとき，写像 fはA/A′-可測 (measurable)であるという 2．また，(Ω′,A′)

が (Rp,Bp)であるとき，f をA-可測関数 (measurable function)という．特に，

確率論では，可測関数を確率変数 (random variable)，もしくは，確率ベクトル

(random vector)と呼ぶ． (ii) µを (Ω,A)上の測度とするとき，(Ω′,A′)上の

測度を µf−1(A′)によって定義することができる．これを f によって (Ω′,A′)

に誘導された測度 (induced measure)といい 3，µf で表す．

Def. 3.2 (積分と可積) (Ω,A, µ)を測度空間とする．f をΩ上で定義された非

負のA-可測関数，fnを fの単関数 (simple function)近似とし fn f (n → ∞)

とする．このとき，f の積分は

∫f(ω)µ(dω) := lim

n→∞

∫fn(ω)µ(dω)によって定

義される．この値が有限のとき，f は µ-可積 (µ-integrable)，または単に可積分

といわれる．fnとして最もよく用いられるのは

fn(ω) =n2n∑i=1

an,i1An,i(ω) with

an,i =

i−12n

An,i =ω ∈ Ω

∣∣ i−12n ≤ f(ω) < i

22

である．

f が非負でないときは f(ω) = f+(ω)− f−(ω)とする．ここで，

f+(ω) =

f(ω) if f(ω) > 0

0 if f(ω) ≤ 0, f−(ω) =

−f(ω) if f(ω) < 0

0 if f(ω) ≥ 0

である．f+ ≥ 0と f− ≥ 0の両者が µ-可積であるとき，f が µ-可積であると定

義する．これは，非負関数 |f |が µ-可積であることと同値である．

Prop. 3.1 (変数変換) Def. 3.1 の記号を引き継ぐ．可測写像 f : (Ω,A) →(Ω′,A′)と g : (Ω′,A′) → (R1,B1)について，g(f(ω))は µ-可積であるとする．

2単に，A-可測，可測ということもある．3像測度 (image measure)ともいう．f の (確率)分布 (probability distribution)とい

うこともある．

24

このとき ∫Ωg(f(ω))µ(dω) =

∫Ω′

g(ω′)µf (dω′) (3.1)

が成立する 4．たとえば，(Ω′,A′) = (R2,B2)，f(ω) = [f1(ω), f2(ω)]のとき∫Ωg(f1(ω), f2(ω))µ(dω) =

∫R2

g(x, y)µf (dxdy) (3.2)

である．

Prop. 3.2 (Radon-Nikodym Theorem) µ, ν を (Ω,A)上の σ-有限測度と

し

ν ≪ µ(i.e., µ(A) = 0, A∈ A =⇒ ν(A) = 0

)とする (絶対連続, absolutely continuous)5．このとき，Ω上で定義されたA-可

測で µ-可積なる実数値関数 f が存在して

ν(A) =

∫Af(ω)µ(dω) (∀A ∈ A)

が成立する．f は µについてほとんど至る所 (almost everywhere; µ-a.e. ω) 一

意である 6．

上記の f を Radon-Nikodym 微分といい，f =dν

dµと書くことがある．Ω上

で定義されたA-可測関数 hが ν-可積であるとき，∫h(ω)ν(dω) =

∫h(ω)f(ω)µ(dω) (3.3)

が成立する 7．

Def. 3.3 (事象の条件付き確率) (Ω,A, P )を確率空間，G (⊂ A)をAの部分 σ-

集合体とする．A (∈ A)を与えて

Q(G) := P (A ∩G) (∀G ∈ G)は (Ω,G)上の確率測度であり，Q ≪ P on Gは自明である．Prop. 3.2より，Ω

上で定義された G-可測・P -可積関数 fAが存在し，

Q(G) = P (A ∩G) =

∫GfA(ω)P (dω) (∀G ∈ G) (3.4)

が成立する．fAを Gを与えた下での事象Aの条件付き確率 (conditional proba-

bility)といい，P (A|G)または P (A|G)(ω)によって表す．(3.4)においてG = Ω

とすれば，P (A) = E[P (A|G)]であることが容易にわかる．

例 3.1 Def. 3.3において G = ϕ,Ω, G,Gc (G = ϕ,Ω)とする．P (G) > 0,

P (Gc) > 0とする．fA(ω)は G-可測であるからGとGcの上でそれぞれ一定値

4証明は単関数近似による．5ν はより一般に符号付き σ-有限測度 (加法的集合関数)としてもよい．6A-可測関数 fiが

∫Af1(ω)µ(dω) =

∫Af2(ω)µ(dω) (∀A ∈ A)を満たすとき，A12 =

ω ∈ Ω|f1(ω) = f2(ω)とおくと µA12 = 0が成立する．7証明は単関数近似による．

25

をとる．すなわち

fA(ω) =

a, on G

b, on Gc

である．したがって，

P (A ∩G) =

∫GfA(ω)P (dω) = aP (G),

P (A ∩Gc) =

∫Gc

fA(ω)P (dω) = bP (Gc)

それゆえ

fA(ω) =

P (A ∩G)

P (G), on G

P (A ∩Gc)

P (Gc), on Gc

となる．

演習 1. 例 1を有限集合へ拡張する．→ HW

演習 2. 例 1を可算集合へ拡張する．→ HW

Def. 3.4 (E(Y |G)の定義) (Ω,A, P )を確率空間，Y = Y (ω)を Ω上のA-可

測関数で P -可積，G (⊂ A)をAの部分 σ-集合体とする．

Q(G) :=

∫GY (ω)P (dω) (∀G ∈ G)

は (Ω,G)上の (符号付き)σ-有限測度であり，Q ≪ P on Gは自明である．Prop. 3.2より

Q(G) =

∫GY (ω)P (dω) =

∫GfY (ω)P (dω) (∀G ∈ G) (3.5)

を満たす，Ω上のG-可測・P -可積関数 fY が存在する．fY をGを与えた下でのY

の条件付き期待値 (conditional expectation)といい，E(Y |G)またはE(Y |G)(ω)によって表す．(3.5)においてG = Ωとすれば E(Y ) = E[E(Y |G)]を得る．すなわち，(3.5)の条件はE(Y ) = E[E(Y |G)]を強めたものである．

例 3.2 Def. 3.4において，特に，A ∈ Aに対して

Y (ω) =

1, if ω ∈ A

0, if ω ∈ Ac(3.6)

を定義すると Y (ω)は Ω上で定義されたA-可測かつ P -可積関数である．この

Y (ω)の Gを与えた下での条件付き期待値 fY (ω)は

Q(G) =

∫GY (ω)P (dω) = P (A ∩G) =

∫GfY (ω)P (dω) (∀G ∈ G)

によって定義され，Def. 3.3から fY (ω)は条件付き確率 P (A|G)(ω)と一致する(P -a.e. ω)．

例 3.3 Def. 3.4において，ある G (∈ G)の上で fY (ω)が一定値をとり，かつ，

26

P (G) > 0とする．このとき

fY (ω) =

∫G Y (ω)P (dω)

P (G)(ω ∈ G)

Def. 3.5 (E(Y |X = x)の定義) Def. 3.4の記号を引き継ぐ．X = X(ω)を

Ω 上で定義された A-可測関数とする．(R1,B1) 上の (符号付き) 測度として，∫X−1(B) Y (ω)P (dω)は

∫X−1(B) P (dω) =

∫B PX(dx)に対して絶対連続である．

したがって，Prop. 3.2から，R1上で定義された B-可測関数 gY (x)が存在して∫X−1(B)

Y (ω)P (dω) =

∫BgY (x)P

X(dx) (∀B ∈ B1) (3.7)

が成立する．gY (x)を可測関数X = xが与えられた下での Y の条件付き期待値

といい，E(Y |X = x)によって表す．gY (X) = E(Y |X = x)∣∣x=X

をE(Y |X)と

書くことがある．(3.7)において B = R1とれば E(Y ) = EX [E(Y |X)]を得る．

すなわち，(3.7)の条件はE(Y ) = EX [E(Y |X)]を強めたものである．

例 3.4 Def. 3.5において，あるB (∈ B1)の上で gY (x)が一定値をとり，かつ，

PX(B) > 0とする．このとき

gY (x) =

∫X−1(B) Y (ω)P (dω)

PX(B)=

∫Ω 1B(X(ω))Y (ω)P (dω)

PX(B)(x ∈ B)

Prop. 3.3 Def. 3.4とDef. 3.5の記号を引き継ぐ．σ(X)をX(ω)によって誘導

された Ω上の σ-加法族とする 8．このとき

E(Y |σ(X))(ω) = fY (ω) = gY (X(ω)) = E(Y |X = x)∣∣∣x=X(ω)

P -a.e. ω

が成立する．

Prop. 3.3は，σ-加法族 σ(X)を与えた下での Y の条件付き期待値は Ω上の

σ(X)-可測関数で，R1上の B1-可測関数である g(x) = E(Y |X = x)にX(ω)を

代入したもの (σ(X)-可測関数)とほとんど至る所等しいことを示す．

Proof of Prop. 3.3. G ∈ σ(X)に対してG = X−1(B)なるB ∈ B1が存在す

る．Def. 3.4より，条件付き期待値 fY (ω) = E(Y |σ(X))(ω)は∫X−1(B)

Y (ω)P (dω) =

∫X−1(B)

fY (ω)P (dω) (X−1(B) ∈ σ(X)) (3.8)

を満たす．また，Def. 3.5より，条件付き期待値 gY (x) = E(Y |X = x)は∫X−1(B)

Y (ω)P (dω) =

∫BgY (x)P

X(dx) (B ∈ B1) (3.9)

を満たす．よって (3.8)と (3.9)の右辺どうしは等しく，変数変換の公式 (3.1)に

8σ(X) = X−1(B)|B ∈ B1 ⊂ Aである．

27

より，(3.9)の右辺は∫BgY (x)P

X(dx) =

∫R1

1B(x)gY (x)PX(dx)

=

∫Ω1B(X(ω))g(X(ω))P (dω) =

∫X−1(B)

gY (X(ω))P (dω) (3.10)

となる．以上から∫X−1(B)

fY (ω)P (dω) =

∫X−1(B)

gY (X(ω))P (dω) (∀B ∈ B1)

が成立する．上式の被積分関数は σ(X)-可測であるから fY (ω) = gY (X(ω))

P -a.e. ω を得る．証明終

例 3.5 (Ω,A, P )を確率空間，Y = Y (ω)をΩ上のA-可測関数でP -可積，X =

X(ω)をΩ上で定義されたA-可測関数とする．P (X,Y )とPXをそれぞれ (X,Y )

とXによって (R2,B2)と (R1,B1)へ誘導された確率測度とし，これらはLebesque

測度に関して絶対連続であるとする．すなわち，dP (X,Y )

dxdy = pX,Y (x, y)，dPX

dx =

pX (x)が存在する．次式を定義する．

gY (x) :=

∫R1

ypX,Y (x, y)

pX (x)dy, if pX (x) > 0

0, if pX (x) = 0

(3.11)

この gY (x)は初等確率論で登場する条件付き期待値であり，ここでは gY (x)が

Def. 3.5の条件 (3.7)を満たすことを示す．

(3.11)から容易に∫B

∫R1

ypX,Y (x, y)dy

dx =

∫BgY (x)pX (x)dx (∀B ∈ B1) (3.12)

が導かれる．上式においてB = R1とすると，よく知られた公式

E(Y ) = E(gY (X))(= EX [E(Y |X)]

)を得る 9．(3.12)を満たす gY (x)が条件 (3.7)を満たすことを示そう．(3.7)と

(3.12)の右辺どうしが等しいことは (3.3)より明らかである．また，∫B

∫R1

ypX,Y (x, y)dxdy =

∫R1

∫R1

1B(x)ypX,Y (x, y)dxdy

=

∫R2

1B(x)yP(X,Y )(dxdy) (by (3.3))

=

∫Ω1B(X(ω))Y (ω)P (dω) (by (3.2))

=

∫X−1(B)

Y (ω)P (dω)

である．したがって，(3.11)で定義された gY (x)は (3.7)を満たし，E(Y |X = x)

と等価であることが示された．

Prop. 3.4 (条件付き期待値の性質) (Ω,A, P )を確率空間，Y (ω), Yi(ω) (i =

9条件 (3.12)はこの公式の一般形（より強い条件）と言える．

28

く．このとき

0 ≤∫G−

Y (ω)P (dω) =

∫G−

E(Y |G)(ω)P (dω) =

∫G−

−f−Y (ω)P (dω) ≤ 0

を得，それゆえ ∫G−

f−Y (ω)P (dω) = 0

となる．f−Y (ω) ≥ 0に注意すれば f−

Y (ω) = 0 on G−，それゆえ，f−Y (ω) = 0 on G

が得られる．

(v) Y = Y +−Y −, Z = Z+−Z−とすると, (iv)より E(Y +|G) ≥ 0, E(Y −|G) ≥0である．(iv)での線形性から各々非負の４つの項の相等性を示せばよい．すな

わち，Y ≥ 0, Z ≥ 0, E(Y |G) ≥ 0としてよい．

Z(ω)の単関数近似を∑n

i=1 gn,i1Gn,i(ω) Z(ω)とする．ここで gn,i ∈ R1,

Gn,i ∈ Gである．単調収束定理より∫GZ(ω)E(Y |G)(ω)P (dω) = lim

n→∞

n∑i=1

gn,i

∫G1Gn,i(ω)E(Y |G)(ω)P (dω)

= limn→∞

n∑i=1

gn,i

∫G∩Gn,i

E(Y |G)(ω)P (dω)

= limn→∞

n∑i=1

gn,i

∫G∩Gn,i

Y (ω)P (dω)(E(Y |G)(ω)の定義

)= lim

n→∞

n∑i=1

gn,i

∫G1Gn,iY (ω)P (dω)

=

∫GZ(ω)Y (ω)P (dω) (∀G ∈ G)

Z(ω)E(Y |G)(ω)は G-可測であるから，Radon-Nikodym微分の一意性より

E(ZY |G)(ω) = Z(ω)E(Y |G)(ω) (P -a.e. ω)

を得る．証明終

参考文献

• Billingsley, P. (1995). Probability and Measure (3rd edition). (Wiley

Series in Probability and Statistics).

• Chung, Kai Lai (2001). A Course in Probability Theory (3rd ed.) Aca-

demic Press.

• 西尾真喜子 (1978). 確率論．実教出版

• 吉田朋広 (2006). 数理統計学．朝倉書店．

30

kano/lecture/MA/chap1H25.pdf「多変量解析2013」講義資料 1.1 線型代数の基礎1...

Documents

Transcript of kano/lecture/MA/chap1H25.pdf「多変量解析2013」講義資料 1.1 線型代数の基礎1...