Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tutorial with R and BUGS"

Chapter 13

Goals, Power and Sample Size 分析目的検出力

標本サイズ Hajime SASAKI Policy Alternatives Research Institute. The University of Tokyo.

“Doing Bayesian Data Analysis: A Tutorial with R and BUGS.” 2013/08/31

中身

13.1 The Will to Power（なんで検出力の話をするのか） 13.1.1 Goals and Obstacles（分析における目的と障害） 13.1.2 Power（検出力とは） 13.1.3 Sample Size（サンプルサイズとは） 13.1.4 Other Expressions of Goals（分析目的いろいろ）

13.2 Sample Size for a Single Coin（ワンコインで買えるサンプルサイズ）

13.2.1 When the Goal Is to Exclude a Null Value（帰無値を超えて） 13.2.2 When the Goal Is Precision（精度が欲しい） 13.3 Sample Size for Multiple Mints（造幣局から愛をこめて）

13.4 Power: Prospective, Retrospective, and Replication(検出力分析もいろいろ)

13.4.1 Power Analysis Requires Verisimilitude of Simulated Data (そのデータ、現実を写しているの？)

13.5 The Importance of Planning（調査設計大事超大事） 13.6 R Code

13.6.1 Sample Size for a Single Coin 13.6.2 Power and Sample Size for Multiple Mints

13.7 Exercises(運動)

はじめに

!   本資料は, “Doing Bayesian Data Analysis: A Tutorial with R and BUGS”13章に書かれていないこともゆるめに記述してます。

!   原著では明示的に記述してないことを書いているページには右上に「補足ページ」と記してます。

補足ページ

13.1 The will to the power !   何らかの目的のために分析データ収集をするにしても、データ中にノイズが存在する以上、期待する結果が達成されるのはあくまで確率的なものである。

!   ここでいう目的(Goals)とは。：帰無仮説を棄却したい！とか、精度を求めたい！とか。

!   検出力：その命題が真である場合に、本当に真であると検出する確率。

!   達成の確率が低い分析目的に無駄な資源を費やしてはならない。研究・実験・分析において、高い検出力を求めるべき。

!   この章では検出力の定義と計算のしかたについて議論しよう。

13.1.1 Goals and Obstacle !   分析目的(Goals)

!   「特定のパラメータが帰無値を超えることを示したい」 !   95%HDIが帰無値以上に位置するもしくは、設定したROPE*以上に位置することを示す。。(*ROPE(Region Of Practical Equivalence):コインがフェアであることを期待するには表が出る確率は0.5であることを望むんだけど、それは0.49でも0.51も実質問題ないよね？その幅をROPEとして設定する。)

!   「一定以上の精度が欲しい」 !   95%HDIの幅が特定の幅を有することを示す。

!   障害(Obstacle) !   どんなに精密に作られたコインでも表の出る確率が常に正確に50%になるとは言い切れない。どんなに歪んだコインでも、場合によっては10回投げて5回表が出ることだってあるでしょ。

!   プラシーボ薬を投与して治療されることもあるだろうし、実際に効く薬を投与しても、試験によっては未処置群と大きな差は出ないかもしれないでしょ。

!   そういうことなので、検出力(Power)について考えましょう。

95%HDI

nullvalue

ROPE

95%HDI＞0.2

おさらい：2種類の過誤 n  第一種過誤（α過誤、偽陽性:False Positive）帰無仮説が実際には真であるのに棄却してしまう過誤。本当は帰無仮説が正しいので，棄却してはいけないのに，誤って棄却してしまう。例えば、ある女性が妊娠していないのに検査結果で妊娠していると判定される場合などを指す。 n  第二種過誤（β過誤、偽陰性: False Negative）対立仮説が実際には真であるのに帰無仮説を採用してしまう過誤。対立仮説が正しく，帰無仮説は棄却すべきなのに，棄却しない。妊娠しているのに、検査結果で検出できなかった場合を指す。

http://ja.wikipedia.org/wiki/第一種過誤と第二種過誤

第一種の過誤と第二種の過誤はトレードオフ。どちらの抑制を重視するかは目的によって異なる。

たまに分からなくなるのでこうやって覚える。 “第一種の過誤は冤罪。第二種の過誤は犯人見逃し。”

補足ページ

偽陽性率(False Positive Rate)：α 陰性の標本集団のうち誤って陽性と判定された標本の割合

真陽性(TP)＋偽陽性(FP)

偽陽性(FP) 偽陽性率α＝

1-αを特異度と定義。これが増えると、第一種過誤となる確率が下がり、一方で第二種過誤となる確率が上がる。

偽陰性率(False Negative Rate)：β 陽性の標本集団のうち誤って陰性と判定された標本の割合

真陰性(TN)＋偽陰性(FN)

偽陰性(FN) 偽陰性率β＝

1-βを検出力と定義。例）検出力：0.8、100回仮説検証を行った場合に80回は検出できる

補足ページ

13.1.2 Power 期待する効果を得るために我々にできること。

!   Method 1：ノイズを可能な限り減らす。薬剤の治療率を特定する際、患者のもつランダムな作用を取り除く（薬剤の投与タイミング、食事の変化など）。

!   Method 2：効果の検出を向上させること。例えば、クスリを可能なかぎり投与(dose)する。実際はいろいろな事情があるらしく、難しいことも。

!   Method3：サンプルサイズを増やすことで検出力をあげる。サンプルサイズを増やせばノイズが相殺される。一般的にサンプルサイズを増加させることで検出力は向上する。

サンプルサイズが増えるとどうなるのか。

2群の平均値の検定 x群のサンプルサイズmが10、y群のサンプルサイズnが10の場合 x群のサンプルサイズmが100、y群のサンプルサイズnが100の場合 x群のサンプルサイズmが200、y群のサンプルサイズnが200の場合 x群のサンプルサイズmが300、y群のサンプルサイズnが300の場合

http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/samplesize_pchi.htm

検定量サンプルサイズさえ大きくすれば、実際には大した差があるわけでもないのに有意差が認められてしまう。サンプルサイズが大きくなるほど検出力も大きくなる。

補足ページ

ベイズによる検出力の推定プロセス

実データ取得のプロセス

シミュレーションデータ取得のプロセス

一般的に検出力を概算推定するには下記の手順 1:データ生成器よりランダムなサンプルデータを生成。

生成器は実データ取得時でどのようにデータが収集されるかを考慮。 2: 事前分布にもとづきベイズによる事後確率を計算 3: 事後推定から目的達成されたかどうかを集計する。

95%HDIが帰無値付近でROPEを超える　or　95%HDIが設定幅より狭い。 4: 上記を繰り返す。検出力はその定義から目的が達成された回数に比例する。

13.1.3 Sample Size !   サンプルサイズを上げれば検出力は上がるけど、コストがかかるので、要求検出力を満たす最低限のサンプルサイズを知りたい。

!   サンプルサイズが増えれば、その分尤度関数は狭くなるので。事後分布も狭くなる。

!   確認：サンプル数とサンプルサイズは別ですよ。 •  サンプル数（標本数）：k 母集団から標本を抽出した回数 •  サンプルサイズ（標本の大きさ）:n 抽出された各標本に含まれる個体の数。

箱に入っている500円玉全てを母集団とすれば,つかみ取った回数がサンプル数（標本数）、それぞれ1回でつかみ取れた500円玉の数がサンプルサイズ（標本の大きさ）

アンチテーゼ：”ビッグデータなんていらんのじゃ”

!   「統計学ってのは限られたサンプル（抽出）データから、まだ見ぬ全体像を知るためのもの」「だからビッグデータなんて苦労して集める必要はない、サンプリングされたデータだけで十分だ」

!   という主張。えーと、半分はその通りだと思います。けれども、半分はそうでもないかなぁ、と。

!   何故なら、レコメンダーとかSPAMフィルタなどのバックエンドシステム開発では、できれば全数データを使って可能な限り精度を上げ続けた方が良いものが多いからです。だからHadoop以下大規模分散処理などの高度な手法を沢山駆使しているわけで、そこでは依然として全数データは非常に重要です。

!   引用：@TJO_datasci ”銀座で働くデータサイエンティストのブログ”　　　サンプリング時の最適なサンプルサイズをRパッケージ{pwr}で求める http://tjo.hatenablog.com/entry/2013/06/21/190729

!   でもやっぱりそれは限定的なケース。

!   多くの場合は依然として、適切な抽出方法とサンプルサイズ得られたデータを元にリーンに（）分析するのが現実的でしょ。

補足ページ

13.2 Sample size for a single coin !   13.2.1 When the Goal is to Exclude a Null value

2000回の試行に基づき、0.65の確率で表が出るように歪んでいると信じられているコイン。

このコインの表が出る確率分布の95%HDIがθ=0.5の外に位置することを示すために必要となるサンプルサイズ。

95%HDI Nullvalue(0.5)

Biased Coin(θ=0.65) Flip N times

歪んだコインを投げ続けてみる歪んだコインを投げ続けて表が出る確率分布。 •  コインの歪みっぷり：ベータ分布(連続確率分布) •  表が出るっぷり：二項分布(離散確率分布) のたたみ込み。

p(z | N ) = d! p(z | N,! )p(! )0

1!

= d!binomial(z | N,! )Beta(! | a,b)0

1!

= d! Nz

"

#$$

%

&''!

z (1(! )(N(z)! (a(1) / B(a,b)0

1!

= Nz

"

#$$

%

&''B(z+ a,N ( z+ b) / B(a,b)

→ベータ二項分布(BBD: Beta-Binomial Distribution) 別名：負の超幾何分布(Negative Hypergeometric Distribution) 別名：ポリア=エッゲンベルガー分布(Polya‐Eggenberger Distribution)

Nz

!

"##

$

%&&B(z+ a,N ' z+ b) / B(a,b)

(minNforHDIpower.R)

Logarithmic form to prevent underflow errors.

要求検出力(0.8)を超えるまでサンプリングサイズを増やし続ける。

•  HDImaxwid以下にするためのサンプルサイズ

•  95%HDIがnullvalueを超えるためのサンプルサイズ

genPriorN: N genPriorA: a genPriorB: b

要求検出力(0.8)を超えたらサンプルサイズを返して終わり。

さっきの式

•  90%の確率（検出力0.9)で、95%HDIが0.5を超えることを示すには、最低でも111回必要。

•  generating mean が増加するほど、表になる回数の割合が大きくなりHDIが早いうちにはしっこに偏るので、必要となるサンプルサイズは減少する。

•  要求検出力が増加するほど、サンプルサイズは劇的に増加する。

そもそも95%HDIがnull valueを超え得ないとき参院選東京選挙区出口調査10人に聞きました。「鈴木寛にいれたよ」：4人「山本太郎にいれたよ」：6人の情報を元に事前分布はベータ関数BETA(7,5)で与えられるとする。

Under 72% of HDI

95%HDI

0.841 0.318

サンプルサイズを増やしても　Θ=0.5において、 72%HDIが限界!!

> x<-seq(0,1,length=10) > p0<-dbeta(x,7,5) > plot(p0)

13.2.2 When the Goal is Precision

事後確率の精度を求めることをゴールにする。例えば、80%の確率で95%HDIの幅が0.2を下回るかどうかを基準とする。 95%HDIの幅が、設定したMaximal Width (0.2)を達成する際に必要となるサンプルサイズ。

要求検出力をあげても、必要となるサンプルサイズは微増。ちなみに、要求HDIの幅を小さくすればするほどサンプルサイズは急増する。 (たとえば0.2から0.1にするだけで検出力80%でθ=0.6におけるサンプルサイズは(92から)377に増える。)

13.3 Sample size for multiple Mints !   セクション9.3.1の(P219) filtration

condensation experiment. !   Filtration group (μ1 and μ2)

!   Condensation group(μ3 and μ4)

(μ1+μ2)/2-(μ3+μ4)/2の95%HDIが0.0を超えることを示したい。

この場合のサンプルサイズはN=6で検出力0.8を得ることができる！

13.3 Sample size for multiple Mints. (Cont.) 一方で、それぞれの group内における比較：

!   μ1-μ2の95%HDIが0を超えることを示したい。

!   ＞達成されず。なぜならN=6の時の検出力は0.04(4%)。ただし、N=40にすると検出力が0.43(43%)に向上。実データそのものが偶然だったことを意味する。

!   mu3とmu4の比較について考える。差がないことを示したい。いいかえるなら、mu3-mu4の95%HDIの幅が0.2以下であることを示したい。

!   このとき80%検出力を得るためのサンプルサイズは32である。

13.4 Power: Prospective, Retrospective and Replication

Prospective (a apiori) power analysis: 先行研究（ただし全く同じではない）を元にデータ分布の仮説をえる。 Retrospective power analysis: 実際に同じ条件で取得しているデータを元にパラメータをセットする。既に事後分布を

持っていることになる。fil-con実験はこれにあたる。 Replication power: 繰り返し実験をした際に、どのくらいの確率で目的を達成できるかを知りたい。 Retrospective power analysisと同様に、実際に同じデータを元に事後分布からデータを得る。ただし、事前分布も同様にに元のデータから得る。

13.4.1Power Analysis Requires Verisimilitude of Simulated Data

“検出力分析は、生成データが実データを模擬していることが前提”

13.5 The Importance of Planning

“結構みんなサンプルサイズ設計とか軽視するけど、それ良くないよ。” “データ取得した後に議論しても意味ないけど” “事前にやっておけば無駄なく実験・分析を進められるし。” “提案書を書くときとかも大事だよ。”

スモールデータで楽しい分析ライフを!

Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tutorial with R and BUGS"

Documents

Transcript of Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tutorial with R and BUGS"