仮説検証型 (hypothesis testing)の研究 仮説を立て...

20
仮説検証型 (hypothesis testing)の研究 仮説を立てる データ収集 分析 解釈 質問紙やテストなどの測定具 目に見えない能力を評価 測りたい能力を測れてる? (妥当性) 安定して正確な結果が得られる? (信頼性)

Transcript of 仮説検証型 (hypothesis testing)の研究 仮説を立て...

仮説検証型 (hypothesis testing)の研究

仮説を立てる

データ収集

分析

解釈

質問紙やテストなどの測定具

目に見えない能力を評価

測りたい能力を測れてる? (妥当性)

安定して正確な結果が得られる? (信頼性)

仮説検証型 (hypothesis testing)の研究

仮説を立てる

データ収集

分析

解釈

データを解釈可能な形にする

平均値に差はある?

得点間にはどんな関係がある?

どのくらいの差があった?

その結果は偶然ではない?統計分析が欠かせない =本書を学ぶ理由

ライティング能力を測りたいけど,採点に時間かかるから多肢選択式で出題しちゃおう!

採点が大変でも実際にエッセイを書かせよう…

評価にはいろーんな問題がある

社交性診断

1. 宿題は必ずやってくるほうだ

2. 期限は守れる方だ

当てはまらない        どちらでもない         当てはまる1 2 3 4 5

当てはまらない        どちらでもない         当てはまる1 2 3 4 5

この2つは同じような質問のため,同じ人が回答すれば似たような回答になる→信頼性はある

社交性を測るための質問項目として適切か? →妥当性は満たされない

妥当性といってもいろいろありまして 米国教育学会,米国心理学会,全米教育測定協議会 (1966)妥当性の種類 定義 検証法

内容的妥当性 測りたい能力や特性を測るのに十分な項目があるか 専門家の判断

基準関連妥当性 1.併存的妥当性 2.予測的妥当性

1.外部の基準との関連 2.ある時点の結果が将来のパフォーマンスをどの程度予測できるか

相関分析

構成概念妥当性 尺度が測定しようとしている構成概念をどの程度反映しているか

相関分析 因子分析 MTMM

表面的妥当性 測定したいもの測定しようとしているように見えるか

構成概念 (construct)

理論上仮定されている能力や特性のこと

例 スピーキング力

ライティング力

思考力

社交性

構成概念妥当性 (construct validity)

測定したい能力がちゃんと測定できているか?

結局は☝を検証できれば良いわけで…

妥当性の検証=構成概念妥当性の検証

単一の概念

妥当性テスト得点を用いたある特定の推論が,

適切であるか,意味があるか,有用であるかをこと

テストの妥当化その推論を裏付けるための証拠を累積するプロセス

単一の概念とは言っても妥当性に関する証拠は たくさんあったほうが良いわけで… Messick (1995, 1996)

妥当性の側面 証拠 収集法の例内容的 内容的妥当性にあたる 専門家の判断

本質的 項目やタスクに回答する実際の プロセスが理論と一致している

質問紙 発話プロトコル

構造的 尺度の得点が,構成概念の次元を反映している

SEM 因子分析

一般化可能性母集団が同じであれば,データの理論的特性(e.g., 平均点)が一

貫している

一般化可能性理論 アルファ係数

外的 併存的妥当性にあたる SEM

結果的 特定の尺度を使用することによる悪影響がない 波及効果の分析

MTMM (多特性・多方法行列分析法)収束的妥当性と弁別的妥当性から,構成概念妥当性を検証

異なる方法で,同じ能力を測定 → 得点の相関は高い同じ方法で,異なる能力を測定 → 得点の相関は低い

p. 8の例を参照

p. 8の表

波及効果テストが指導や学習に与える影響のこと有益な効果と有害な効果がある

テストが社会に与える影響はインパクトという

(washback/backwash effect)

Messick以降はというと

妥当性を,適切な証拠を積み上げていくことによって 論証するという考え方が提唱される

妥当性に関して詳しく知りたい方は小泉 (2018) がおすすめ

Kane (2006) の妥当性の論証によるアプローチ解釈的論証と妥当性論証の2段階の論証

解釈的論証テスト得点の解釈および使用に関わる推論と その前提を明確にする

妥当性論証推論の前提の裏付け となる証拠を提供し, 根拠や論拠を提示する.

具体的には,(1) 得点化,(2) 一般化,(3) 外挿,(4) 決定の4つの推論に対し,前提を明らかにし,根拠を提示する

Chapelle et al. (2008) およびChapelle (2015)6+1の合計7つの推論に基づく妥当性検証

(1) 領域定義 測定する構成概念が明確である (2) 評価   パフォーマンスが適切な形で素点になる (3) 一般化  一貫した結果が得られる(4) 説明   構成概念を測定しているという分析結果 (5) 外挿   テスト以外の状況で同じ能力を発揮できる (6) 使用    (7) 影響

Bachman and Palmer (2010)論拠と反証を明示し,正当化を行う

(1) 評価記録は一貫している (2) 解釈は意義がある (3) 偏見がない (4) 一般化できる (5) 関連性がある (6) 充足する

評価タスクから観測されたパフォーマンスに対し

得点に基づく決定に対し(7)価値がある (8) 公平である

信頼性については…得点の安定性や一貫性のこと

• 同じ人が同じ項目に回答すれば,結果はそこまで変わらないはず

• 似たような能力/特性を反映する項目は,同じような結果になるはず

古典的テスト理論では

得られたテスト得点は以下の前提を含む

• 誤差はランダムに生ずる,つまり真値との相関はゼロ

• 誤差はプラスとマイナスどちらの値もあり平均はゼロ

• 誤差同士の相関もゼロ

観測値=真値+誤差

古典的テスト理論では

得られたテスト得点は以下の前提を含む

• 分散とは,各データが平均からどのくら離れているかの平均(実際は2乗してプラスマイナスを打ち消す)

• 信頼性係数ρは真値の分散/観測値の分散

観測値の分散=真値の分散+誤差の分散

.80以上が良いとされる

※ただし,真値がわからないので求めることができない

信頼性係数の推定方法方法

再テスト 同一被験者に同じテストを実施

同等フォーム同一被験者に同じ形式のテスト

を2回テストを実施

内的一貫性同じ構成概念を測定する項目が,受験者内で似た結果になってるかを調査

評価者間信頼性 評価者間信頼性または評価者内一貫性 を算出