kano/lecture/MA/chap1H25.pdf「多変量解析2013」講義資料 1.1 線型代数の基礎1...
Transcript of kano/lecture/MA/chap1H25.pdf「多変量解析2013」講義資料 1.1 線型代数の基礎1...
「多変量解析 2013」 講義資料
1.1 線型代数の基礎 1
この節では本講義で必要とする行列の性質を簡単にまとめる.成分がす
べて実数である実行列のみを扱う.簡単のため p× q 行列を p× q,また,
p × 1 ベクトルを p × 1 または p-ベクトルと略して書くことがある.分
割行列の計算に慣れておく:
q1 q2 r1 r2p1p2
[A11 A12
A21 A22
]×
[B11 B12
B21 B22
]q1q2
=
[A11B11 + A12B21 A11B12 + A12B22
A21B11 + A22B21 A21B12 + A22B22
]Def. 1.1 A: p × q. i) A の行ベクトルと列ベクトルを入れ換えた q × p
行列を A の転置行列 (transposed matrix) といい,AT (= A′ = tA) と表
す.ii) AT = A のとき,A は対称 (symmetric) であるという.このとき,
p = q.
Def. 1.2 A: p × q. i) A の1次独立な行ベクトル (列ベクトル) の数
を A の階数 (rank) といい,rank(A) と表す.ii) rank(A) = q のとき,
full-column rank,rank(A) = p のとき,full-row rankという.iii) A :
p× p. rank(A) = p のとき A は正則 (nonsingular) であるという.注意:
A : 正則 ⇐⇒ ∃A−1 ⇐⇒ |A| = 0. ここで,|A| は A の行列式である.
Def. 1.3 A : p×p. Av = λv を満たすスカラー λと p-ベクトル v (= 0)
を それぞれ A の固有値,固有ベクトルという.
注意1:λ は固有方程式 |A− λIp| = 0 の解.
注意2:p×p行列 Aの固有値を λ1(A), . . . , λp(A)と書くことがある.
注意3:|A| =p∏
k=1
λk(A), tr(A) =
p∑k=1
λk(A) (→ Prop.1.4).
Prop. 1.1
i) A : p× q, B : q × r.
· rank(AB) ≤ minrank(A), rank(B)· B: q × q 正則 =⇒ rank(AB) = rank(A)
· rank(A) = rank(AT ) = rank(ATA) = rank(AAT )
ii) A : p× p (実)対称行列.A の固有値は実数で,異なる固有値に対応
する固有ベクトルは互いに直交する.1第1回目の講義資料
http://www.sigmath.es.osaka-u.ac.jp/ kano/lecture/MA/MA 0introH25.pdf
1
Def. 1.4 i) V : p× p. V TV = V V T = Ip が成り立つとき,V を直交行
列 (orthogonal matrix) という.p × p 直交行列全体を O(p) で表す.ii)
V : p× q. V TV = Iq が成り立つとき,V を列直交行列という.p× q 列
直交行列全体を O(p× q) で表す. 注意: O(p× p) = O(p).
Prop. 1.2 A : p× p 対称行列.∃V = [v1, . . . ,vp] ∈ O(p),
∃Λ =
λ1
. . .
λp
: p× p 対角行列 st. A = V ΛV T =∑p
k=1 λkvkvTk
これをAのスペクトル分解 (spectral decomposition)という.また,V TAV =
Λを行列Aの対角化 (diagonalization)という.
Prop. 1.3 A : p× q, rank(A) = r.
i) ∃B : p × r, ∃C : q × r s.t. A = BCT . これを A の階数分解 (rank
factorization) という.
ii) ∃U ∈ O(p×r), ∃V ∈ O(q×r), ∃ρ : 対角成分がすべて正の r次対角行列
s.t. A = UρV T . これを A の特異値分解 (singular value decomposition)
という.[Gram行列が非負定値であることを認めて証明する→Prop.1.5]
Def. 1.5 A = [aij] : p × p. tr(A) =∑p
k=1 akk を A のトレース (trace)
という.
Prop. 1.4 A, B : 行列,c, d : スカラー.
i) tr(AT ) = tr(A), tr(cA+ dB) = c tr(A) + d tr(B)
ii) tr(AB) = tr(BA) =∑
i,j aijbjiiii) tr(A) =
∑k λk(A), ただし λk(A) は A の固有値.
Def. 1.6 A, B : p×p対称行列.i) xTAx ≥ 0 for ∀x ∈ Rp のとき,Aは
非負定値行列 (nonnegative definite (n.n.d.) matrix)といわれ,A ≥ 0と
書く.xTAx > 0 for ∀x ∈ Rp, x = 0 のとき,A は正定値行列 (positive
definite (p.d.) matrix) といわれ,A > 0 と書く.ii) A− B ≥ 0 のとき,
A ≥ B,また,A−B > 0 のとき,A > B と表す.
Prop. 1.5 A: p× p 対称行列.
i) A > 0 ⇐⇒ λk(A) > 0 (k = 1, . . . , p)
⇐⇒ A ≥ 0 & |A| = 0
ii) A ≥ 0 ⇐⇒ λk(A) ≥ 0 (k = 1, . . . , p)
⇐⇒ ∃B : p× r, r = rank(A) s.t. A = BBT
⇐⇒ ∃C : p× p対称行列 s.t. A = C2
行列 C を A の平方根といい,しばしば A12 で表す.
2
Prop. 1.6 A = (aij), B = (bij), C = (cij) : p× p 対称行列.
i) A ≥ 0 (or A > 0) =⇒ aii ≥ 0 (or aii > 0) (i = 1, . . . , p)
A ≥ 0, aii = 0 =⇒ aik = aki = 0 (k = 1, . . . , p)
A = [Aij] ≥ 0 (or A > 0) =⇒ Aii ≥ 0 (or Aii > 0)
ii) A ≥ 0, B ≥ 0 =⇒ A+B ≥ 0; A > 0, B ≥ 0 =⇒ A+B > 0
iii) A ≥ B, B ≥ C =⇒ A ≥ C; A > B, B ≥ C =⇒ A > C
iv) A ≥ B > 0 =⇒ B−1 ≥ A−1 > 0
A > B > 0 =⇒ B−1 > A−1 > 0
v) G : p× rのとき
A ≥ 0 =⇒ GTAG ≥ 0
A > 0, G : full-column rank =⇒ GTAG > 0
vi) G : p× p正則のとき
A > 0 ⇐⇒ GTAG > 0
注意:v)を示してから iv)を証明する.
(iv)のヒント:B−1−A−1 = (B−1−A−1)B(B−1−A−1)+A−1(A−B)A−1
Def. 1.7 P : p×p. P 2 = P のとき,P は巾等 (idempotent) or射影行列
(projective matrix) という.対称な巾等行列を直交射影行列 (orthogonal
projective matrix)とよぶ.
演習問題 1.1 W を Rp の (線形)部分空間,W の直交補空間をW⊥ と書く.任意の x ∈ Rp は
「x = y + z, y ∈ W, z ∈ W⊥」と一意的に表現できる.
(i) xから yを対応させる写像は線形であることを示せ.(この写像を部分空間W への直交射影という)
(ii) (i)の線形写像を表す行列 P は直交射影行列であることを示せ.
(iii) r = dim(W )とし,W の基底を a1, . . . ,arとする.A = [a1, . . . ,ar] (p× r)とかく.このとき,W への直交射影を表す行列は P = A(ATA)−1AT で与
えられることを証明せよ.
(iv) Aを p× q行列とする.Aの縦ベクトルの張る線形空間への直交射影行列をPA と書くことにする.A = [B,C]を Aの分割とする (B: p× r, C: p× s,q = r + s).PB , PC なども同様に定義する.このとき
PA = PB + P(Ip−PB)C
を証明せよ.ただし,Ip は p次の単位行列である.
(iii)′ Aを p× r, rank(A) = rなる行列とする.A(ATA)−1AT は直交射影行列で
あることを証明せよ. 3
Prop. 1.7 A : p× p.
i) A : 巾等行列 =⇒ A の固有値は 0 or 1, rank(A) = tr(A).
ii) A : 巾等行列 ⇐⇒ rank(A) + rank(Ip − A) = p.
iii) A : 巾等行列 =⇒ 正則行列によって対角化可能.
iv) A が直交射影行列ならば,∃V ∈ O(p × r) s.t. A = V V T . ここで,
r = rank(A).
Prop. 1.8 Ai (i = 1, . . . , n): p× p.∑n
i=1Ai = Ipとする.
A2i = Ai (i = 1, . . . , n) ⇐⇒
n∑i=1
rank(Ai) = p
このとき
AiAj = O (i = j)
が成立する.
伝統的な証明 (十分性):階数の劣加法性を用いて rank(Ai)+ rank(Ip−Ai) = pを示す.
分割行列の計算
正方行列Aの分割をA =
[A11 A12
A21 A22
]とする.ここでA11とA22は
正方行列である.A−1 =
[A11 A12
A21 A22
]と書く.ここで登場する逆行列は
すべてその存在を仮定する.
Prop. 1.9 以下必要な逆行列の存在を仮定する.A11, A22 : 正方行列.
A11.2 = A11 − A12A−122 A21, A22.1 = A22 − A21A
−111 A12 とおく.
i)
∣∣∣∣∣A11 A12
A21 A22
∣∣∣∣∣ = |A22||A11.2| = |A11||A22.1|
ii)
(A11)−1A12 = −A12A−122 , A21(A11)−1 = −A−1
22 A21
A12(A22)−1 = −A−111 A12, (A22)−1A21 = −A21A
−111
4
iii) [A11 A12
A21 A22
]−1
=
[A−1
11.2 −A−111.2A12A
−122
−A−122 A21A
−111.2 A−1
22 + A−122 A21A
−111.2A12A
−122
]
=
[O O
O A−122
]+
[−I
A−122 A21
]A−1
11.2
[−I A12A
−122
]
=
[A−1
11 + A−111 A12A
−122.1A21A
−111 −A−1
11 A12A−122.1
−A−122.1A21A
−111 A−1
22.1
]
=
[A−1
11 O
O O
]+
[A−1
11 A12
−I
]A−1
22.1
[A21A
−111 −I
]iv) A > 0のとき,A11.2 > 0, A22.1 > 0, A11 ≥ A−1
11 .
Proof 次の等式を使う.[I −A12A
−122
O I
][A11 A12
A21 A22
][I O
−A−122 A21 I
]=
[A11.2 O
O A22
]
Prop. 1.10 (Woodbury’s identities) 分割行列
[A11 A12
A21 A22
]において
次の公式が成り立つ.(一般に A12, A21は長方行列である)
(A11 + A12A−122 A21)
−1 = A−111 − A−1
11 A12(A22 + A21A−111 A12)
−1A21A−111
(A11 + A12A−122 A21)
−1A12 = A−111 A12(A22 + A21A
−111 A12)
−1A22
A21(A11 + A12A−122 A21)
−1 = A22(A22 + A21A−111 A12)
−1A21A−111
A21(A11 + A12A−122 A21)
−1A12 = A22 − A22(A22 + A21A−111 A12)
−1A22
[A21(A11 + A12A−122 A21)
−1A12]−1 = (A21A
−111 A12)
−1 + A−122
補足:Prop. 1.6 iv)の証明にも応用できる.
演習問題 1.2 a+ b = 1, a = 0, Σ =
[Σ11 Σ12
Σ21 Σ22
]は正則とする.(
aΣ−1 + b
[O O
O Σ−122
])−1
を計算せよ.
Prop. 1.11 (Khatri’s lemma) [A,B] を正則行列,ATB = O, M > 0
とする.このとき次式が成立する.MA(ATMA)−1ATM +B(BTM−1B)−1BT = M
5
注意:射影との関連を理解する.
特殊な行列の演算
Def. 1.8 A = (aij) : p× q, B = (bij) : m× n. pm× qn 行列 A⊗ B を
次で定義し,Kronecker 積という.
A⊗B =
a11B · · · a1ℓB · · · a1qB... · · · ... · · · ...
aj1B · · · ajℓB · · · ajqB... · · · ... · · · ...
ap1B · · · apℓB · · · apqB
A⊗B の (ij, kℓ) 要素は (A⊗B)ij,kℓ = ajℓbikで与えられる.
Prop. 1.12 次式が成立する.
i) (a1A1 + a2A2)⊗ (b1B1 + b2B2)
= a1b1(A1⊗B1)+a1b2(A1⊗B2)+a2b1(A2⊗B1)+a2b2(A2⊗B2)
ここで ai, bi はスカラーである.
ii) (A⊗B)T = AT ⊗BT
iii) (A1A2)⊗ (B1B2) = (A1 ⊗B1)(A2 ⊗B2)
iv) (A⊗B)−1 = A−1 ⊗B−1
v) tr(A⊗B) = tr(A)× tr(B), rank(A⊗B) = rank(A)× rank(B)
vi) A ≥ 0, B ≥ 0 =⇒ (A⊗B) ≥ 0; A > 0, B > 0 =⇒ (A⊗B) > 0
Def. 1.9 i) A = [a1, . . . ,aq] : p× q. pq × 1 ベクトル vec(A) を
vec(A) =
a1
...
aq
で定義する.pq × pq 行列 Kpq を次式で定義する.
Kpqvec(A) = vec(AT ) for any A ∈ Mat(p× q)
Kpq を commutation matrix とよぶ.しばしば次の記号を用いる.
Np =1
2(Ip2 +Kpp)
ii) A = (aij) : p× p. p∗ = p(p+ 1)/2. p∗-ベクトル v(A) を
v(A) = [a11, . . . , ap1, a22, . . . , ap2, . . . , app]T
で定義する.v(·) を vech(·) と書くことがある.vec(·) と v(·) を vec-operator ということがある.
6
Prop. 1.13 A, B, C, D : 行列. a, b, c, d: ベクトル.
i) vec(aT ) = vec(a) = a, vec(abT ) = b⊗ a
ii) (abT )⊗ (cdT ) = vec(caT )vec(dbT )T
iii) vec(A)Tvec(B) = tr(ATB)
iv) vec(ABC) = (CT ⊗ A)vec(B)
v) tr(ABCD) = vec(DT )T (CT ⊗A)vec(B) = vec(D)T (A⊗CT )vec(BT )
vi) [(A⊗B)+α·vec(A)vec(B)T ]−1 = (A−1⊗B−1)−a·vec(B−1)vec(A−1)T
ここで,A, B は p× p 正則対称行列,a = α/(1 + αp).
Proof. iv) B = [b1, . . . , bq], Iq = [e1, . . . , eq] とすると
vec(ABC) =vecA(∑k
bkeTk )C =
∑k
vecAbk(CTek)T
=∑k
(CTek)⊗ (Abk) = (CT ⊗ A)∑k
(ek ⊗ bk)
=(CT ⊗ A)∑k
vec(bkeTk ) = (CT ⊗ A)vec(B)
Prop. 1.14 A: p× q, B: m× n, b: m× 1.
i) Kpq ∈ O(pq),Kpq =∑p
i=1
∑qj=1Eij ⊗ Eij
T
ここで,Eij : p× q は (i, j) 成分のみが 1 でその他の成分は 0 なる行列.
ii) KTpq = K−1
pq = Kqp, Kp1 = K1p = Ip, K2pp = Ip2 , Kpp は対称行列
iii) Kmp(A⊗B) = (B ⊗ A)Knq, Kmp(A⊗B)Kqn = (B ⊗ A)
iv) Kmp(A⊗ b) = b⊗ A, Kpm(b⊗ A) = A⊗ b
Proof. iii) X を任意の n× q 行列とすると,
Kmp(A⊗B)vec(X) = Kmpvec(BXAT ) = vec(AXTBT )
= (B ⊗ A)vec(XT ) = (B ⊗ A)Knqvec(X)
Prop. 1.15 A: p× q.
i) Np = NTp = N2
p , rank(Np) = tr(Np) =12p(p+ 1)
ii) NpKpp = Np = KppNp
iii) Np(A⊗ A) = (A⊗ A)Nq = Np(A⊗ A)Nq
Def. 1.10 A : p × p 対称行列.p∗ = p(p + 1)/2. p2 × p∗ 行列 Dp を次
で定義する.
vec(A) = Dpv(A) for any A (A = AT )
7
さらに,D+p = (DT
p Dp)−1DT
p を定義する.容易に,
v(A) = D+p vec(A) for any A (A = AT )
が確かめられる.これらの行列を duplication matrix ということがある.
Prop. 1.16 A : p× p, b : p× 1.
i) KppDp = Dp, NpDp = Dp, D+p Np = D+
p , DpD+p = Np
ii) Np(b⊗ A) = 12(b⊗ A+ A⊗ b)
iii) [D+p (A⊗ A)Dp]
−1 = D+p (A
−1 ⊗ A−1)Dp
iv) [DTp (A⊗ A)Dp]
−1 = D+p (A
−1 ⊗ A−1)(D+p )
T
Proof. i) 行列 A の縦ベクトルの張る線形空間を M(A) と書く
と,NpDpD+p = DpD
+p は,M(DpD
+p ) ⊂ M(Np) を意味するが,一方,
rank(Np) =12p(p+1) = rank(DpD
+p )だから,結局M(DpD
+p ) = M(Np)
となる.DpD+p , Np ともに,巾等かつ対称であるから,同じ空間への直
交射影を表す行列である.従って,DpD+p = Np.
Def. 1.11 i) A = (aij), B = (bij) : p× q. p× q 行列 A ∗ B を次で定義し,Hadamard 積 (elementwise 積) という.
(A ∗B)ij = aijbij
ii) Ip = [e1, . . . , ep]とかく.p2 × p 行列 Hp を
Hp = [e1 ⊗ e1, . . . , ep ⊗ ep]
と定義する.
iii) A = (aij) : p× p.
diag(a11, . . . , app) =
a11 0 . . . 0
0 a22. . .
......
. . . . . . 0
0 . . . 0 app
Diag(A) = diag(a11, . . . , app)
vecdiag(A) = [a11, . . . , app]T
Prop. 1.17 A, B : p× p.
i) A ∗B = HTp (A⊗B)Hp, rank(A ∗B) ≤ rank(A) · rank(B)
ii-a) A ≥ 0, B ≥ 0 =⇒ (A ∗B) ≥ 0
ii-b) A > 0, B > 0 =⇒ (A ∗B) > 0
8
iii) vecdiag(A) = HTp vec(A)
本節の参考文献
• 佐武一郎 (1974). 線型代数学.裳華房.
• 竹内 啓 (1974).線形数学.培風館.
• D.A.ハーヴィル (2007). 統計のための行列代数 上・下.伊理正夫
(監訳) シュプリンガー・ジャパン.
• Magnus, Jan R. and Neudecker, Heinz (1999). Matrix Defferential
Calculas (2nd edition) Wiley.
• Rao, C. R. (1976). Linear Statistical Inference and its Applications
(2nd edition) Wiley.
9
1.2 分布論の基礎
本講義の基礎となる確率分布の性質を簡単にまとめる.
Def. 2.12 i) 確率変数 Xij を (i, j) 要素とする行列 X = (Xij) を確率
行列 (random matrix) という.Xij の期待値 E(Xij) を (i, j) 要素とする
行列を E(X) で表し X の期待値(行列)という.
ii) 確率変数 X1, . . . , Xp を要素とする p× 1 ベクトル X = [X1, . . . , Xp]T
を p次元確率ベクトル (random vector, r.v.) という.E(X) を X の平
均ベクトル (mean vector; p×1)といい,しばしば µで表す.Var(X) :=
E[(X −E(X))(X −E(X))T ] を X の分散行列 (variance matrix; p× p)
といい,しばしば Σ で表す.すなわち,
µ = E(X) =
E(X1)...
E(Xp)
Σ = Var(X) =
Var(X1) Cov(X1, X2) . . . Cov(X1, Xp)
Cov(X2, X1) Var(X2). . .
......
. . . . . . Cov(Xp−1, Xp)
Cov(Xp, X1) . . . Cov(Xp, Xp−1) Var(Xp)
=[Cov(Xi, Xj)]
Var(X) は共分散行列 (covariance matrix) or 分散共分散行列 (variance-
covariance matrix) とよばれることもある.2つの確率ベクトル X, Y
の共分散行列を Cov(X,Y ) = E[(X − E(X))(Y − E(Y ))T ] で定義す
る.特に,Cov(X,X) = Var(X).
Prop. 2.18 X, Y : r.v.
· E(aX + bY ) = aE(X) + bE(Y ), E(AX + b) = AE(X) + b
· Cov(AX + b, CY + d) = ACov(X,Y )CT
· Var(AX + b) = AVar(X)AT
· Var(X) ≥ 0
· Var(X) = O ⇐⇒ X = E(X) (w.p.1.)
Def. 2.13 i) X: p次元 r.v. ∀B ⊂ Rp に対して
Pr(X ∈ B) =
∫· · ·∫B
f(x)dx
が成立するとき,f(x)をXの (分布の)確率密度関数 (probability density
function, pdf) という.(厳密には B は Rp の Borel 集合)
10
ii) X : p次元 r.v., Y : q次元 r.v. ∀B1 ⊂ Rp, ∀B2 ⊂ Rq に対して
Pr(X ∈ B1, Y ∈ B2) = Pr(X ∈ B1) Pr(Y ∈ B2)
が成立するとき,X と Y は互いに独立である(or 独立に分布する)と
いい,X ||— Y で表す.
X ||— Y ⇐⇒ 任意の有界連続関数 α(·), β(·)についてE[α(X)β(Y )] = E[α(X)]E[β(Y )]
(X,Y ), X, Y の分布がそれぞれ pdf h(x,y), f(x), g(y) をもつとき,
X ||— Y ⇐⇒ h(x,y) = f(x) · g(y)
Prop. 2.19 f(x) を p次元 r.v. X の pdf とする.
i) y = g(x) =
g1(x)...
gp(x)
を Rpのある領域から Rp への可微分な 1:1 変換
とする.
Y = g(X) の pdf は
h(y) := f(g−1(y))|J(y)|, J(y) = det
[∂x
∂yT
](= det
[∂y
∂xT
]−1)
(1)
によって与えられる.ここで,g−1(y)は g の逆変換で,J(y)は変換 g−1
の Jacobian である.特に,線形変換 g(x) = Ax のとき,Y = AX の
pdf は f(A−1y)|det(A)|−1 となる.
(1)の形式的な証明は下記のようである.∫B
h(y)dy = P (Y ∈ B) = P (g(X) ∈ B) = P (X ∈ g−1(B))
=
∫g−1(B)
f(x)dx =
∫B
f(g−1(y)| det(J(y)|dy
Prop. 2.20 p次元 r.v. X を分割し,X = [XT1 ,X
T2 ]
T とする (X1 :
p1 × 1; X2 : p2 × 1).X, X1, X2の (分布の)確率密度関数をそれぞれ
f(x1,x2), f1(x1), f2(x2)とする.X2 = x2を与えた下でのX1の条件付
き分布の pdfは f(x1|x2) :=f(x1,x2)
f2(x2)(f2(x2) > 0)で定義される.
i) 次式が成立する.
f1(x1) =
∫f(x1,x2)dx2, f2(x2) =
∫f(x1,x2)dx1
11
ii) h(x1)をX1の値域を含む領域で定義された可測関数で,h(X1)
は可積であるとする.E[h(X1)|X2 = x2] :=∫h(x1)f(x1|x2)dx1 を,
X2 = x2 が与えられた下での h(X1)の条件付き期待値という.これ
は x2の関数である.x2に確率ベクトルX2を代入した確率ベクトルを
E[h(X1)|X2]で表す.このとき
E[E[h(X1)|X2
]]= E
[h(X1)
](2)
が成立する.すなわち∫ (∫h(x1)f(x1|x2)dx1
)f2(x2)dx2 =
∫h(x1)f1(x1)dx1
である.
g(x2)をX2 の値域を含む領域で定義された可測写像とする.この
とき
E[h(X1)g(X2)
T |X2
]= E
[h(X1)|X2
]g(X2)
T (3)
が成立する.すなわち∫h(x1)g(x2)
Tf(x1|x2)dx1 =
(∫h(x1)f(x1|x2)dx1
)g(x2)
T
Prop. 2.21 前Propositionと同様にX = [XT1 ,X
T2 ]
Tとする.E[||X||2] <∞とし,以下を定義する.
H :=h : D (⊂ Rp2) → Rp2 |E
[||h(X2)||2
]< ∞
このとき
argminh∈H
E[||X1 − h(X2)||2] = E[X1|X2]
証明
E[||X1 − h(X2)||2
]= E
[||X1 − E[X1|X2] + E[X1|X2]− h(X2)||2
]= E
[||X1 − E[X1|X2]||2
]+ E
[||E[X1|X2]− h(X2)||2
]∵
E
[X1 − E[X1|X2]
TE[X1|X2]− h(X2)
∣∣∣X2
]=E
[X1 − E[X1|X2]
T ∣∣∣X2
]E[X1|X2]− h(X2)
=0
12
最小値
minh∈H
E(||X1 − h(X2)||2
)= E
(||X1 − E(X1|X2)||2
)=E
[E(||X1 − E(X1|X2)||2
∣∣∣X2
)]= E
[trVar(X1|X2)
]正規性の仮定の下で,最小値は tr(Σ11.2)となる→後証.
Def. 2.14 X1, . . . , Xpi.i.d.∼ N(0, 1)とする.X = [X1, . . . , Xp]
T の分布
をp次元 (or p変量)標準正規分布 (p-variate standard normal distribution)
といいNp(0, Ip)で表す.p次元標準正規分布の確率密度関数は
p∏i=1
1
(2π)1/2exp
−1
2x2i
=
1
(2π)p/2exp
−1
2
p∑i=1
x2i
=
1
(2π)p/2exp
(−xTx/2
)(x = [x1, · · · , xp]
T )
で与えられる.X ∼ Np(0, Ip) のとき E(X) = 0, Var(X) = Ip
Prop. 2.22 X ∼ Np(0, Ip), V ∈ O(p) =⇒ Y = VX ∼ Np(0, Ip)
Lemma A, B: p× q
AAT = BBT ⇐⇒ A = BV for some V ∈ O(q)
Def. 2.15 µ ∈ Rp, Σ ≥ 0 (p× p), rank(Σ) = r, Σ = BBT , B (p× r)
とする.Z ∼ Nr(0, Ir)とする.このときX := µ+BZ の分布を平均ベ
クトルµ,分散行列Σをもつ p次元 (or p変量,多変量)正規分布といい
Np(µ,Σ)で表す.Σが正則であるとき,確率密度関数 (pdf)が存在し
Np(x|µ,Σ) =1
(2π)p/2|Σ|1/2exp
−1
2(x− µ)TΣ−1(x− µ)
で与えられる.
Prop. 2.23 X ∼ Np(µ, Σ).
i) E(X) = µ, Var(X) = Σ, MX(t) := E(etTX) = eµ
T t+ 12tTΣt
ii) A : p× q, b : q-ベクトル.このとき,
AX + b ∼ Nq(Aµ+ b, AΣAT )
13
Prop. 2.24 X ∼ Np(µ, Σ). (p1 + p2 = p)
X =
[X1
X2
]p1
p2, µ =
[µ1
µ2
], Σ =
[Σ11 Σ12
Σ21 Σ22
]と書くと
· Cov(X1,X2) = Σ12
· X1 ∼ Np1(µ1, Σ11), X2 ∼ Np2(µ2, Σ22)
· X1||— X2 ⇐⇒ Σ12 = O
· A1, A2 :定数行列. A1X ||— A2X ⇐⇒ A1ΣAT2 = O
Prop. 2.25 X ∼ Np(µ, Σ). Σ > 0とする.前 Propと同様に分割す
る.X2 = x2が与えられた下でのX1 の条件付き分布は以下で与えら
れる.
1
(2π)p1/2|Σ11.2|1/2exp
− 1
2
(x1 − µ1 − Σ12Σ
−122 (x2 − µ2)
)T× Σ−1
11.2
(x1 − µ1 − Σ12Σ
−122 (x2 − µ2)
)すなわちX1|X2 = x2 ∼ Np1
(µ1 + Σ12Σ
−122 (x2 − µ2),Σ11.2
)であり.特に
E[X1|X2 = x2] =µ1 + Σ12Σ−122 (x2 − µ2)
Var[X1|X2 = x2] =Σ11.2
証明は Appendix にある.
Prop. 2.26 X ∼ Np(µ, Σ).
· E[(Xi − µi)(Xj − µj)(Xk − µk)(Xℓ − µℓ)] = σikσjℓ + σiℓσjk + σijσkℓ
· Cov[(Xi − µi)(Xj − µj), (Xk − µk)(Xℓ − µℓ)] = σikσjℓ + σiℓσjk
· Var[vec((X − µ)(X − µ)T )] = 2Np(Σ⊗ Σ) = 2Np(Σ⊗ Σ)Np = 2(Σ⊗ Σ)Np
· Var[v((X − µ)(X − µ)T )] = 2D+p (Σ⊗ Σ)D+T
p
演習問題 2.1 X1, . . . ,Xn
i.i.d.∼ Np(µ,Σ). X = 1n
∑ni=1X i.
S = 1n
∑ni=1(X i − X)(X i − X)T . 次式を示せ.
limn→∞
nVar[vec(S)] = 2Np(Σ⊗ Σ) Def. 2.16 X1, . . . , Xn
i.i.d.∼ N(0, 1) とする.∑n
i=1 X2i の分布を自由度
n のカイ2乗分布 (chi-square distribution) といい χ2n で表す.χ2
n の pdf
14
と積率母関数は,それぞれ,以下のようになる.
fχ2n(x) =
1
2n/2Γ(n/2)xn/2−1e−x/2 (x > 0)
Mχ2n(x) = E[etχ
2n ] = (1− 2t)−n/2 (t < 1/2)
Def. 2.17 X1, . . . ,Xni.i.d.∼ Np(0,Σ)とする.X =
∑ni=1X iX
Ti の分布
をWishart分布といい,Wp(n,Σ) で表す.Σ > 0, n ≥ pのときWp(n,Σ)
の確率密度関数 (pdf)が存在し,次式で与えられる.
c−1np |Σ|−
n2 |X|
12(n−p−1) exp
(−1
2tr[Σ−1X]
)(X > 0)
ここで cnpは正規化定数で,2np/2πp(p−1)/4Πpi=1Γ[
12(n+ 1− i)]である.
Prop. 2.27 X ∼ Np(0, Σ). A : p× p 対称.
XTAX ∼ χ2q ⇐⇒ ΣAΣAΣ = ΣAΣ, q = tr[AΣ]
上記の必要十分条件は,Σが正則のとき AΣA = A, Σ = Ipのとき A2 = A
となる.
Prop. 2.28 (Cochran’s Theorem) Ai: p× p 対称,Ip =∑n
i=1Ai,
X ∼ Np(0, Ip), Qi := XTAiX (i = 1, . . . , n) とする.
Qi ∼ χ2 (i = 1, . . . , n) ⇐⇒n∑
i=1
rank(Ai) = p
このとき,Qi (i = 1, . . . , n)は互いに独立である.
Def. 2.18Xn = [X
(n)1 , . . . , X
(n)p ]T
: p次元 r.v. の列.
i) a ∈ Rp. ∀ϵ > 0 に対して
limn→∞
Pr∥Xn − a∥ < ϵ = 1
が成り立つとき,Xn は a に確率収束 (convergence in probability) する
といい,XnP−→ a (n → ∞) と表す.ここで,∥X∥ =
√XTX.
ii) X = [X1, . . . , Xp]T : p次元 r.v.
limn→∞
PrX(n)1 ≤ x1, . . . , X
(n)p ≤ xp = PrX1 ≤ x1, . . . , Xp ≤ xp
が成り立つとき,Xn は X に分布収束 (convergence in distribution, or
法則収束 convergence in law) するといい,Xnd−→ X (n → ∞) と表
す.ここで,xk は PrXk = xk = 0 (k = 1, . . . , p) なる任意の実数.
注意: 以後 (n → ∞) を略すことがある.
15
Prop. 2.29 X1, . . . ,Xn : 独立同一分布をもつ p次元 r.v. E(X i) = µ,
Var(X i) = Σ. Xn = 1n
∑ni=1X i とおく.
i) E(Xn) = µ, Var(Xn) =1nΣ
ii) (大数の法則) XnP−→ µ (n → ∞)
iii) (中心極限定理)
√n(Xn − µ)
d−→ Np(0,Σ) (n → ∞) (1.2)
Proof. ii) Y ≥ 0 なる確率変数と K > 0 に対して Pr(Y ≥ K) ≤ E(Y )K
が成り立つ (Markov’s inequality). よって,
Pr(∥Xn − µ∥2 ≥ ϵ2) ≤ E(∥Xn − µ∥2)ϵ2
一方,
E[∥Xn − µ∥2] = tr[E(Xn − µ)(Xn − µ)T
]= tr[Var(Xn)] =
1
ntr(Σ) → 0 (n → ∞)
注意: (1.2)を Xn ∼ Np(µ,1nΣ) (n → ∞)のように書くことがある.同
様に Ynd−→ χ2
q (n → ∞) などと書く.
Prop. 2.30 Xn : p次元 r.v. の列.X : p次元 r.v. a ∈ Rp. g :
Rp → Rq: 連続.
i) XnP−→ a =⇒ g(Xn)
P−→ g(a) (確率収束の保存)
ii) Xnd−→ X =⇒ g(Xn)
d−→ g(X) (法則収束の保存)
Proof. i) g(x) の連続性より明.ii) 特性関数 ϕn(θ) = E(eiθT g(Xn)) の
収束を示す.
Prop. 2.31 (Slutsky’s Theorem) Yn : 確率変数.X, Xn, Y n : 確
率ベクトル,Zn : 確率行列.
i) Xn = [X(n)1 , . . . , X
(n)p ]T , a = [a1, . . . , ap]
T とすると,
· XnP−→ a ⇐⇒ X
(n)k
P−→ ak (k = 1, . . . , p)
· Xnd−→ a ⇐⇒ X
(n)k
d−→ ak (k = 1, . . . , p)
· Xnd−→ a ⇐⇒ Xn
P−→ a
ii) Xnd−→ X, Yn
P−→ 0 =⇒ XnYnP−→ 0
iii) Xnd−→ X, Xn − Y n
P−→ 0 =⇒ Y nd−→ X
16
iii)′ Xnd−→ X, Y n
P−→ 0 =⇒ Xn + Y nd−→ X
iv) Xnd−→ X, Y n
P−→ b, ZnP−→ A =⇒ ZnXn+Y n
d−→ AX+b
注意: Xnd−→ X, Y n
d−→ Y =⇒ Xn + Y nd−→ X + Y は成立し
ない.
Def. 2.19 (Mann-Waldの記号) Xn : p次元 r.v. an : 実数列.
i) Xn/anP−→ 0 のとき Xn = op(an) とかく.つまり
Xn = op(an) ⇐⇒ limn→∞
Pr[∥Xn/an∥ < ϵ] = 1 for ∀ϵ > 0
特に,an ≡ 1 のとき, Xn = op(1)(
⇐⇒ XnP−→ 0
)ii) ∀ϵ > 0, ∃M > 0 s.t. Pr[∥Xn/an∥ ≤ M ] > 1 − ϵ for ∀n のと
き,Xn = Op(an) とかく.特に,an ≡ 1 のとき,Pr[∥Xn∥ ≤ M ] >
1− ϵ(
⇐⇒ Xn = Op(1)). このとき,Xn は確率有界 (bounded in
probability) といわれる.
Prop. 2.32 Xn, Y n : r.v.
i) Xn = op(1) =⇒ Xn = Op(1)
ii) Xnd−→ X =⇒ Xn = Op(1)
iii) Xn = Op(1), Y n = Op(1) =⇒ Xn + Y n = Op(1)
Xn = op(1), Y n = op(1) =⇒ Xn + Y n = op(1)
iv) Xn = Op(1), Y n = Op(1) =⇒ XnYTn = Op(1)
Xn = op(1), Y n = Op(1) =⇒ XnYTn = op(1)
Prop. 2.33 (Delta theorem)√n(Xn − µ)
d−→ Np(0,Σ).
g(x) =
g1(x)...
gq(x)
: Rp −→ Rq は連続で,x = µ において全微分可能.
このとき,
√n(g(Xn)− g(µ))
d−→ Nq
(0,
(∂g(µ)
∂xT
)Σ
(∂g(µ)
∂xT
)T)
ここで,
(∂g(µ)
∂xT
)ij
=∂gi(x)
∂xj
∣∣∣∣x=µ
17
Example.分割表適合度検定のカイ2乗性(コクラン定理の応用)
本節の参考文献
• Billingsley, P. (1995). Probability and Measure (3rd edition). (Wi-
ley Series in Probability and Statistics).
• Chung, Kai Lai (2001). A Course in Probability Theory (3rd ed.)
Academic Press.
• Lehmann, E. L. (1998). Elements of Large-Sample Theory (Springer
Texts in Statistics).
• Rao, C. R. (1976). Linear Statistical Inference and its Applications
(2nd edition) Wiley.
• 稲垣宣生 (2003). 数理統計学(改訂版)裳華房.
• 園 信太郎 (2007). 統計学入門における分布の収束のある取り扱い
について.経済学研究,57(1), 47-49.
• 西尾真喜子 (1978). 確率論. 実教出版
• 吉田朋広 (2006). 数理統計学.朝倉書店.
18
Appendix A
Prop 2.25の証明 X1|X2 = x2 ∼ Np1
(µ1 +Σ12Σ
−122 (x2 − µ2),Σ11.2
) 次の関係式に注意する.[
Σ11 Σ12
Σ21 Σ22
]−1
=
[0 0
0 Σ−122
]+
[−I
Σ−122 Σ21
]Σ−111.2
[−I, Σ12Σ
−122
][Prop.1.9 i)]
|Σ| = |Σ22||Σ11.2| [Prop.1.9 iii)]
上式を用いると
Np(x|µ,Σ)
=1
(2π)p/2|Σ|1/2exp
−1
2(x− µ)TΣ−1(x− µ)
=
1
(2π)p/2(|Σ22||Σ11.2|)1/2exp
−1
2
[x1 − µ1
x2 − µ2
]T [Σ11 Σ12
Σ21 Σ22
]−1 [x1 − µ1
x2 − µ2
]
=1
(2π)p1/2|Σ22|1/2exp
−1
2(x2 − µ2)
TΣ−122 (x2 − µ2)
× 1
(2π)p2/2|Σ11.2|1/2
× exp
−1
2
[x1 − µ1
x2 − µ2
]T [I
−Σ−122 Σ21
]Σ−111.2
[I, −Σ12Σ
−122
] [x1 − µ1
x2 − µ2
]
=1
(2π)p1/2|Σ22|1/2exp
−1
2(x2 − µ2)
TΣ−122 (x2 − µ2)
× 1
(2π)p2/2|Σ11.2|1/2exp
[− 1
2
(x1 − µ1)
T − (x2 − µ2)TΣ−1
22 Σ21
× Σ−1
11.2
(x1 − µ1)− Σ12Σ
−122 (x2 − µ2)
]
=1
(2π)p1/2|Σ22|1/2exp
−1
2(x2 − µ2)
TΣ−122 (x2 − µ2)
× 1
(2π)p2/2|Σ11.2|1/2exp
− 1
2
(x1 − µ1 − Σ12Σ
−122 (x2 − µ2)
)T× Σ−1
11.2
(x1 − µ1 − Σ12Σ
−122 (x2 − µ2)
)=Np1(x2|µ2,Σ22)×Np2(x1|µ1 +Σ12Σ
−122 (x2 − µ2),Σ11.2)
を得る.すなわち,
Np(x|µ,Σ)Np1(x2|µ2,Σ22)
= Np2(x1|µ1 +Σ12Σ−122 (x2 − µ2),Σ11.2)
が成立する.
19
Prop 2.31 iii)′の証明 (1次元) Xn
d−→ X, YnP−→ 0 =⇒ Xn + Yn
d−→ X CX をX の分布関数 P (X ≤ t)の連続点の集合とする.CX は R上稠密(dense)である.
t ∈ CX とすると,∀ϵ1 > 0, ∃δ1 > 0 st.
|P (X ≤ t± δ1)− P (X ≤ t) | < ϵ1 (4)
以下の議論のため,δ1は t± δ1 ∈ CX となるように取っておく.
YP−→ 0より,∀ϵ2 > 0, ∀δ2 (= δ1) > 0, ∃n1 ∈ N st.
P (|Yn| > δ1) < ϵ2 for ∀n ≥ n1 (5)
Xnd−→ Xより,t± δ1 ∈ CX であるから,∀ϵ3 > 0, ∃n2 ∈ N st.
|P (Xn ≤ t± δ1)− P (X ≤ t± δ1)| < ϵ3 for ∀n ≥ n2 (6)
以上より,t, t+ δ1 ∈ CX に注意して,次式の成立が確認される.
P (Xn + Yn ≤ t) =P (Xn + Yn ≤ t, |Yn| ≤ δ1) + P (Xn + Yn ≤ t, |Yn| > δ1)
≤P (Xn ≤ t+ δ1) + P (|Yn| > δ1) (7)
<P (X ≤ t+ δ1) + ϵ3 + ϵ2 (by (6) and (5))
<P (X ≤ t) + ϵ1 + ϵ3 + ϵ2 (by (4))
∴P (Xn + Yn ≤ t)− P (X ≤ t) < ϵ for n ≥ maxn1, n2 (8)
ここで,ϵ = ϵ1 + ϵ3 + ϵ2.
(7)と同様にして
P (Xn + Yn ≤ t) ≥ P (Xn ≤ t− δ)− P (|Yn| > δ) (9)
であり,また
P (Xn + Yn ≤ t)− P (X ≤ t) > −ϵ for n ≥ maxn1, n2 (10)
を得る.(8)と (10)から目的の結果が証明される. Q.E.D.
HW (9)と (10)に証明をつけよ.
20
Delta theorem (univariate case of Prop 2.33)の証明 √n(Xn−µ)
d−→ N(0, σ2). g(x)をR上で定義された可測関数でx = µ
において微分可能とする.このとき次式が成立する.√n(g(Xn)− g(µ)
)d−→ N
(0, σ2g′(µ)2
)(n → ∞)
r(x)を次式で定義する.
g(x)− g(µ) = g′(µ)(x− µ) + r(x)
容易に√n(g(Xn)− g(µ)
)= g′(µ)
√n(Xn − µ) +
√nr(Xn)
√nr(Xn) = op(1)が示されれば,確率収束の保存と Slutsky定理を用い
て目的の結果が証明される.
可微分性より
limx→µ
r(x)
x− µ= 0
H(x)を次式で定義する.
H(x) =
r(x)
x− µ(x = µ)
0 (x = µ)
H(x) → 0 (as x → µ) より,H(x)は x = µで連続.√n(Xn − µ) = Op(1)だから,Xn
P−→ µ.確率収束の保存より
H(Xn)P−→ H(µ) = 0 (n → ∞)
また,次式は Xn = µを含めて常に成立する√nr(Xn) =
√n(Xn − µ)H(Xn)
= Op(1)× op(1)
= op(1)
21
相関係数の漸近分布の導出 √n(r − ρ)
d−→ N(0, (1− ρ2)2
)(n → ∞)
正規母集団からの標本:X1, . . . ,Xni.i.d.∼ Np(µ,Σ) with Σ = (σij)
標本共分散行列:S = (sij) =1
n
n∑α=1
(Xα − Xn)(Xα − Xn)T
母相関係数:ρij =σij√σiiσjj
,標本相関係数:rij =sij√siisjj
中心極限定理:√n
[1
n
n∑α=1
v((Xα − µ)(Xα − µ)T ))− v(Σ)
]d−→ Np∗(0,ΓN)
with ΓN = 2D+p (Σ⊗ Σ)D+T
p = Var[v((Xα − µ)(Xα − µ)T ))
](ΓN)ij,kl = σikσjl + σilσjk
Sの漸近分布:
S =1
n
n∑α=1
(Xα − Xn)(Xα − Xn)T
=1
n
n∑α=1
(Xα − µ)(Xα − µ)T + (Xn − µ)(Xn − µ)T
√n(v(S)− v(Σ)) =
√n
[1
n
n∑α=1
v((Xα − µ)(Xα − µ)T )− v(Σ)
]+ v
[√n(Xn − µ)(Xn − µ)T
]d−→Np∗(0,ΓN)
by Slutsky’s Theorem
Delta theorem:
g(S): q-vector valued function of S continuously differentiable around
S = Σ. G :=∂h(S)
∂v(S)T
∣∣∣S=Σ
√n(g(S)− g(Σ))
d−→ Nq(0, GΓNGT )
p = 2とする.r21 = r, ρ21 = ρと書く.一般性を失うことなく σ11 =
σ22 = 1とする.g(S) = s21√s11s22
である.
このとき,
22
ΓN =Var
(X1 − µ1)2
(X2 − µ2)(X1 − µ1)
(X2 − µ2)2
=
2σ211 2σ21σ11 2σ2
21
2σ21σ11 σ11σ22 + σ221 2σ22σ21
2σ221 2σ22σ21 2σ2
22
=
2 2σ21 2σ221
2σ21 1 + σ221 2σ21
2σ221 2σ21 2σ2
22
=
2 2ρ 2ρ2
2ρ 1 + ρ2 2ρ
2ρ2 2ρ 2
一階微分 G:
∂r
∂s11
∣∣∣S=Σ
= − 1
2s11× s21√
s11s22
∣∣∣S=Σ
=−ρ
2
∂r
∂s21
∣∣∣S=Σ
=1
√s11s22
∣∣∣S=Σ
= 1
∂r
∂s22
∣∣∣S=Σ
= − 1
2s22× s21√
s11s22
∣∣∣S=Σ
=−ρ
2
∴ G =[−ρ2, 1, −ρ
2
]漸近分散
GΓNGT =
[−ρ2, 1, −ρ
2
] 2 2ρ 2ρ2
2ρ 1 + ρ2 2ρ
2ρ2 2ρ 2
−ρ2
1−ρ2
= (1− ρ2)2
以上より以下を得る.
標本相関係数 rの漸近分布:√n(r − ρ)
d−→ N(0, (1− ρ2)2
)(n → ∞)
Fisherの z-変換:
g(x) =1
2log
1 + x
1− xとして,Delta theoremを適用すると
√n(g(r)− g(ρ)
)d−→ N(0, 1) (n → ∞)
なぜなら
g′(ρ)2(1− ρ2)2 =
[1
2
(1
1 + ρ+
1
1− ρ
)]2(1− ρ2)2 = 1
23
Appendix B: 測度論の補遺と条件付き確率・期待値
(Ω,A, µ)を測度空間 (measure space)とする.ここでΩは台集合 (抽象集合),AはΩ上の σ-集合体 (σ-field or σ-algebra),µは可測空間 (Ω,A)上の測度 (mea-
sure)である.Ωに距離 ρが定義されているとき,ρに基づく開集合を含む最小
の σ-集合体を特に Borel集合体といい Bと書く.(Ω,B)を Borel可測空間とい
う.特に,Rnの Borel可測空間を (Rn,Bn)と書く.
µ(Ω) < ∞ のとき µ を有限測度という.適当な An(∈ A) が存在して Ω =
∪∞n=1An, µ(An) < ∞とできるとき,µを σ-有限測度という.特に,µ(Ω) = 1
のとき µを確率測度 (probability measure)といい,このとき,(Ω,A, µ)を確率
空間 (probability space)という.
Def. 3.1 (可測と誘導測度) (i) (Ω,A)と (Ω′,A′)を可測空間とする.ΩからΩ′
への写像 f : (Ω,A) → (Ω′,A′) が
A′ ∈ A′ =⇒ f−1(A′) ∈ Aを満たすとき,写像 fはA/A′-可測 (measurable)であるという 2.また,(Ω′,A′)
が (Rp,Bp)であるとき,f をA-可測関数 (measurable function)という.特に,
確率論では,可測関数を確率変数 (random variable),もしくは,確率ベクトル
(random vector)と呼ぶ. (ii) µを (Ω,A)上の測度とするとき,(Ω′,A′)上の
測度を µf−1(A′)によって定義することができる.これを f によって (Ω′,A′)
に誘導された測度 (induced measure)といい 3,µf で表す.
Def. 3.2 (積分と可積) (Ω,A, µ)を測度空間とする.f をΩ上で定義された非
負のA-可測関数,fnを fの単関数 (simple function)近似とし fn f (n → ∞)
とする.このとき,f の積分は
∫f(ω)µ(dω) := lim
n→∞
∫fn(ω)µ(dω)によって定
義される.この値が有限のとき,f は µ-可積 (µ-integrable),または単に可積分
といわれる.fnとして最もよく用いられるのは
fn(ω) =n2n∑i=1
an,i1An,i(ω) with
an,i =
i−12n
An,i =ω ∈ Ω
∣∣ i−12n ≤ f(ω) < i
22
である.
f が非負でないときは f(ω) = f+(ω)− f−(ω)とする.ここで,
f+(ω) =
f(ω) if f(ω) > 0
0 if f(ω) ≤ 0, f−(ω) =
−f(ω) if f(ω) < 0
0 if f(ω) ≥ 0
である.f+ ≥ 0と f− ≥ 0の両者が µ-可積であるとき,f が µ-可積であると定
義する.これは,非負関数 |f |が µ-可積であることと同値である.
Prop. 3.1 (変数変換) Def. 3.1 の記号を引き継ぐ.可測写像 f : (Ω,A) →(Ω′,A′)と g : (Ω′,A′) → (R1,B1)について,g(f(ω))は µ-可積であるとする.
2単に,A-可測,可測ということもある.3像測度 (image measure)ともいう.f の (確率)分布 (probability distribution)とい
うこともある.
24
このとき ∫Ωg(f(ω))µ(dω) =
∫Ω′
g(ω′)µf (dω′) (3.1)
が成立する 4.たとえば,(Ω′,A′) = (R2,B2),f(ω) = [f1(ω), f2(ω)]のとき∫Ωg(f1(ω), f2(ω))µ(dω) =
∫R2
g(x, y)µf (dxdy) (3.2)
である.
Prop. 3.2 (Radon-Nikodym Theorem) µ, ν を (Ω,A)上の σ-有限測度と
し
ν ≪ µ(i.e., µ(A) = 0, A∈ A =⇒ ν(A) = 0
)とする (絶対連続, absolutely continuous)5.このとき,Ω上で定義されたA-可
測で µ-可積なる実数値関数 f が存在して
ν(A) =
∫Af(ω)µ(dω) (∀A ∈ A)
が成立する.f は µについてほとんど至る所 (almost everywhere; µ-a.e. ω) 一
意である 6.
上記の f を Radon-Nikodym 微分といい,f =dν
dµと書くことがある.Ω上
で定義されたA-可測関数 hが ν-可積であるとき,∫h(ω)ν(dω) =
∫h(ω)f(ω)µ(dω) (3.3)
が成立する 7.
Def. 3.3 (事象の条件付き確率) (Ω,A, P )を確率空間,G (⊂ A)をAの部分 σ-
集合体とする.A (∈ A)を与えて
Q(G) := P (A ∩G) (∀G ∈ G)は (Ω,G)上の確率測度であり,Q ≪ P on Gは自明である.Prop. 3.2より,Ω
上で定義された G-可測・P -可積関数 fAが存在し,
Q(G) = P (A ∩G) =
∫GfA(ω)P (dω) (∀G ∈ G) (3.4)
が成立する.fAを Gを与えた下での事象Aの条件付き確率 (conditional proba-
bility)といい,P (A|G)または P (A|G)(ω)によって表す.(3.4)においてG = Ω
とすれば,P (A) = E[P (A|G)]であることが容易にわかる.
例 3.1 Def. 3.3において G = ϕ,Ω, G,Gc (G = ϕ,Ω)とする.P (G) > 0,
P (Gc) > 0とする.fA(ω)は G-可測であるからGとGcの上でそれぞれ一定値
4証明は単関数近似による.5ν はより一般に符号付き σ-有限測度 (加法的集合関数)としてもよい.6A-可測関数 fiが
∫Af1(ω)µ(dω) =
∫Af2(ω)µ(dω) (∀A ∈ A)を満たすとき,A12 =
ω ∈ Ω|f1(ω) = f2(ω)とおくと µA12 = 0が成立する.7証明は単関数近似による.
25
をとる.すなわち
fA(ω) =
a, on G
b, on Gc
である.したがって,
P (A ∩G) =
∫GfA(ω)P (dω) = aP (G),
P (A ∩Gc) =
∫Gc
fA(ω)P (dω) = bP (Gc)
それゆえ
fA(ω) =
P (A ∩G)
P (G), on G
P (A ∩Gc)
P (Gc), on Gc
となる.
演習 1. 例 1を有限集合へ拡張する.→ HW
演習 2. 例 1を可算集合へ拡張する.→ HW
Def. 3.4 (E(Y |G)の定義) (Ω,A, P )を確率空間,Y = Y (ω)を Ω上のA-可
測関数で P -可積,G (⊂ A)をAの部分 σ-集合体とする.
Q(G) :=
∫GY (ω)P (dω) (∀G ∈ G)
は (Ω,G)上の (符号付き)σ-有限測度であり,Q ≪ P on Gは自明である.Prop. 3.2より
Q(G) =
∫GY (ω)P (dω) =
∫GfY (ω)P (dω) (∀G ∈ G) (3.5)
を満たす,Ω上のG-可測・P -可積関数 fY が存在する.fY をGを与えた下でのY
の条件付き期待値 (conditional expectation)といい,E(Y |G)またはE(Y |G)(ω)によって表す.(3.5)においてG = Ωとすれば E(Y ) = E[E(Y |G)]を得る.すなわち,(3.5)の条件はE(Y ) = E[E(Y |G)]を強めたものである.
例 3.2 Def. 3.4において,特に,A ∈ Aに対して
Y (ω) =
1, if ω ∈ A
0, if ω ∈ Ac(3.6)
を定義すると Y (ω)は Ω上で定義されたA-可測かつ P -可積関数である.この
Y (ω)の Gを与えた下での条件付き期待値 fY (ω)は
Q(G) =
∫GY (ω)P (dω) = P (A ∩G) =
∫GfY (ω)P (dω) (∀G ∈ G)
によって定義され,Def. 3.3から fY (ω)は条件付き確率 P (A|G)(ω)と一致する(P -a.e. ω).
例 3.3 Def. 3.4において,ある G (∈ G)の上で fY (ω)が一定値をとり,かつ,
26
P (G) > 0とする.このとき
fY (ω) =
∫G Y (ω)P (dω)
P (G)(ω ∈ G)
Def. 3.5 (E(Y |X = x)の定義) Def. 3.4の記号を引き継ぐ.X = X(ω)を
Ω 上で定義された A-可測関数とする.(R1,B1) 上の (符号付き) 測度として,∫X−1(B) Y (ω)P (dω)は
∫X−1(B) P (dω) =
∫B PX(dx)に対して絶対連続である.
したがって,Prop. 3.2から,R1上で定義された B-可測関数 gY (x)が存在して∫X−1(B)
Y (ω)P (dω) =
∫BgY (x)P
X(dx) (∀B ∈ B1) (3.7)
が成立する.gY (x)を可測関数X = xが与えられた下での Y の条件付き期待値
といい,E(Y |X = x)によって表す.gY (X) = E(Y |X = x)∣∣x=X
をE(Y |X)と
書くことがある.(3.7)において B = R1とれば E(Y ) = EX [E(Y |X)]を得る.
すなわち,(3.7)の条件はE(Y ) = EX [E(Y |X)]を強めたものである.
例 3.4 Def. 3.5において,あるB (∈ B1)の上で gY (x)が一定値をとり,かつ,
PX(B) > 0とする.このとき
gY (x) =
∫X−1(B) Y (ω)P (dω)
PX(B)=
∫Ω 1B(X(ω))Y (ω)P (dω)
PX(B)(x ∈ B)
Prop. 3.3 Def. 3.4とDef. 3.5の記号を引き継ぐ.σ(X)をX(ω)によって誘導
された Ω上の σ-加法族とする 8.このとき
E(Y |σ(X))(ω) = fY (ω) = gY (X(ω)) = E(Y |X = x)∣∣∣x=X(ω)
P -a.e. ω
が成立する.
Prop. 3.3は,σ-加法族 σ(X)を与えた下での Y の条件付き期待値は Ω上の
σ(X)-可測関数で,R1上の B1-可測関数である g(x) = E(Y |X = x)にX(ω)を
代入したもの (σ(X)-可測関数)とほとんど至る所等しいことを示す.
Proof of Prop. 3.3. G ∈ σ(X)に対してG = X−1(B)なるB ∈ B1が存在す
る.Def. 3.4より,条件付き期待値 fY (ω) = E(Y |σ(X))(ω)は∫X−1(B)
Y (ω)P (dω) =
∫X−1(B)
fY (ω)P (dω) (X−1(B) ∈ σ(X)) (3.8)
を満たす.また,Def. 3.5より,条件付き期待値 gY (x) = E(Y |X = x)は∫X−1(B)
Y (ω)P (dω) =
∫BgY (x)P
X(dx) (B ∈ B1) (3.9)
を満たす.よって (3.8)と (3.9)の右辺どうしは等しく,変数変換の公式 (3.1)に
8σ(X) = X−1(B)|B ∈ B1 ⊂ Aである.
27
より,(3.9)の右辺は∫BgY (x)P
X(dx) =
∫R1
1B(x)gY (x)PX(dx)
=
∫Ω1B(X(ω))g(X(ω))P (dω) =
∫X−1(B)
gY (X(ω))P (dω) (3.10)
となる.以上から∫X−1(B)
fY (ω)P (dω) =
∫X−1(B)
gY (X(ω))P (dω) (∀B ∈ B1)
が成立する.上式の被積分関数は σ(X)-可測であるから fY (ω) = gY (X(ω))
P -a.e. ω を得る. 証明終
例 3.5 (Ω,A, P )を確率空間,Y = Y (ω)をΩ上のA-可測関数でP -可積,X =
X(ω)をΩ上で定義されたA-可測関数とする.P (X,Y )とPXをそれぞれ (X,Y )
とXによって (R2,B2)と (R1,B1)へ誘導された確率測度とし,これらはLebesque
測度に関して絶対連続であるとする.すなわち,dP (X,Y )
dxdy = pX,Y (x, y),dPX
dx =
pX (x)が存在する.次式を定義する.
gY (x) :=
∫R1
ypX,Y (x, y)
pX (x)dy, if pX (x) > 0
0, if pX (x) = 0
(3.11)
この gY (x)は初等確率論で登場する条件付き期待値であり,ここでは gY (x)が
Def. 3.5の条件 (3.7)を満たすことを示す.
(3.11)から容易に∫B
∫R1
ypX,Y (x, y)dy
dx =
∫BgY (x)pX (x)dx (∀B ∈ B1) (3.12)
が導かれる.上式においてB = R1とすると,よく知られた公式
E(Y ) = E(gY (X))(= EX [E(Y |X)]
)を得る 9.(3.12)を満たす gY (x)が条件 (3.7)を満たすことを示そう.(3.7)と
(3.12)の右辺どうしが等しいことは (3.3)より明らかである.また,∫B
∫R1
ypX,Y (x, y)dxdy =
∫R1
∫R1
1B(x)ypX,Y (x, y)dxdy
=
∫R2
1B(x)yP(X,Y )(dxdy) (by (3.3))
=
∫Ω1B(X(ω))Y (ω)P (dω) (by (3.2))
=
∫X−1(B)
Y (ω)P (dω)
である.したがって,(3.11)で定義された gY (x)は (3.7)を満たし,E(Y |X = x)
と等価であることが示された.
Prop. 3.4 (条件付き期待値の性質) (Ω,A, P )を確率空間,Y (ω), Yi(ω) (i =
9条件 (3.12)はこの公式の一般形(より強い条件)と言える.
28
1, . . . , n)を (Ω,A, P )上の確率変数 (B1-可測関数)で P -可積,GをAの部分 σ-
集合体とする.
(i) E[E(Y |G)] = E(Y );
(ii) F をAの部分 σ-集合体とし,F ⊂ Gとする.E[E(Y |G) | F ](ω) = E(Y |F)(ω) = E[E(Y |F) | G](ω) (P -a.e. ω)
(iii) ai ∈ R1とする.
E
(n∑
i=1
aiYi
∣∣∣G) (ω) =
n∑i=1
aiE(Yi|G)(ω) (P -a.e. ω)
(iv) Y (ω) ≥ 0 (P -a.e. ω) =⇒ E(Y |G)(ω) ≥ 0 (P -a.e. ω)
(v) Z = Z(ω)を G/B1-可測関数,ZY を P -可積とする.
E(ZY |G)(ω) = Z(ω)E(Y |G)(ω) (P -a.e. ω)
Proof of 3.4. (i) Def. 3.4の中で示されている.
(ii) E[E(Y |G) | F ](ω)は∫FfY (ω)P (dω) =
∫FE(Y |G)(ω)P (dω) (∀F ∈ F)
を満たす F-可測関数 fY (ω)のことである.ところが∫FE(Y |F)(ω)P (dω) =
∫FY (ω)P (dω) =
∫FE(Y |G)(ω)P (dω) (∀F ∈ F)
であるから,Radon-Nikodym微分の一意性より fY (ω) = E(Y |F)(ω) (P -a.e. ω)
である.
E[E(Y |F) | G](ω)は∫GfY (ω)P (dω) =
∫GE(Y |F)(ω)P (dω) (∀G ∈)
を満たす F-可測関数 fY (ω)のことである.ところが
fY (ω) := E(Y |F)(ω)
は,明らかに上式を満たし,F-可測ゆえ G-可測である.Radon-Nikodym微分
の一意性より fY (ω) = E(Y |F)(ω) (P -a.e. ω)である.
(iii) E(Yi|G)は次式を満たす G-可測関数である.∫GYi(ω)P (dω) =
∫GE(Yi|G)(ω)P (dω)
よって ∫G
n∑i=1
aiYi(ω)P (dω) =
∫G
n∑i=1
aiE(Yi|G)(ω)P (dω)∑ni=1 aiE(Yi|G)は G-可測であるから,Radon-Nikodym微分の一意性より
E
(n∑
i=1
aiYi
∣∣∣G) (ω) =
n∑i=1
aiE(Yi|G)(ω) (P -a.e. ω)
(iv) E(Y |G)(ω) = f+Y (ω) − f−
Y (ω),G− := ω ∈ Ω|E(Y |G)(ω) < 0 ∈ G とお
29
く.このとき
0 ≤∫G−
Y (ω)P (dω) =
∫G−
E(Y |G)(ω)P (dω) =
∫G−
−f−Y (ω)P (dω) ≤ 0
を得,それゆえ ∫G−
f−Y (ω)P (dω) = 0
となる.f−Y (ω) ≥ 0に注意すれば f−
Y (ω) = 0 on G−,それゆえ,f−Y (ω) = 0 on G
が得られる.
(v) Y = Y +−Y −, Z = Z+−Z−とすると, (iv)より E(Y +|G) ≥ 0, E(Y −|G) ≥0である.(iv)での線形性から各々非負の4つの項の相等性を示せばよい.すな
わち,Y ≥ 0, Z ≥ 0, E(Y |G) ≥ 0としてよい.
Z(ω)の単関数近似を∑n
i=1 gn,i1Gn,i(ω) Z(ω)とする.ここで gn,i ∈ R1,
Gn,i ∈ Gである.単調収束定理より∫GZ(ω)E(Y |G)(ω)P (dω) = lim
n→∞
n∑i=1
gn,i
∫G1Gn,i(ω)E(Y |G)(ω)P (dω)
= limn→∞
n∑i=1
gn,i
∫G∩Gn,i
E(Y |G)(ω)P (dω)
= limn→∞
n∑i=1
gn,i
∫G∩Gn,i
Y (ω)P (dω)(E(Y |G)(ω)の定義
)= lim
n→∞
n∑i=1
gn,i
∫G1Gn,iY (ω)P (dω)
=
∫GZ(ω)Y (ω)P (dω) (∀G ∈ G)
Z(ω)E(Y |G)(ω)は G-可測であるから,Radon-Nikodym微分の一意性より
E(ZY |G)(ω) = Z(ω)E(Y |G)(ω) (P -a.e. ω)
を得る. 証明終
参考文献
• Billingsley, P. (1995). Probability and Measure (3rd edition). (Wiley
Series in Probability and Statistics).
• Chung, Kai Lai (2001). A Course in Probability Theory (3rd ed.) Aca-
demic Press.
• 西尾真喜子 (1978). 確率論. 実教出版
• 吉田朋広 (2006). 数理統計学.朝倉書店.
30