2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1...

18
2010/3/6 1 主観的判断を含むカテゴリカル・ 主観的判断を含むカテゴリカル・ データの多変量解析 データの多変量解析 ーコーパス用例分類の信頼性検討と 決定木分析のデモンストレーションー 木山 木山 幸子 幸子 麗澤大学大学院 日時: 2010213() 13:3016:50 場所: 名古屋大学全学教育棟・北棟406 名古屋大学大学院国際言語文化研究科主催 「対話創成力養成プロジェクト」 コーパス研究のためのワークショップ 麗澤大学大学院 言語教育研究科 博士後期課程 [email protected] 1 言語データを収集し,そのデータに対して質的分類を施し,それに 言語データを収集し,そのデータに対して質的分類を施し,それに 基づいて多変量解析を行うまでの過程を詳細に実演します。 基づいて多変量解析を行うまでの過程を詳細に実演します。 13:3015:00: 色々な評定者間信頼性指標の比較 形式に頼らず,内容の判断に基づいてデータの分類を行う場合,個人 の主観による判断の揺れが避けられません。そこで,複数の評定者の 間の判断の一致度に基づいて,信頼性を確保する必要があります。前 半では,複数の統計的指標 (coefficients of interrater reliability) の特性 について比較した上で,最近の内容分析 (content analysis) の領域で推 奨されているKrippendorff’s alphaの算出過程をご紹介します。 15:0015:20: 休憩 15:2016:50: 決定木分析のための一連の作業 ある観点で分類を施した質的データについて,その分類結果に影響す る複数の要因群の階層性を検討するために,決定木分析 (Decision Tree Analysis) が役立ちます。後半では,決定木分析のためのデータ セットの用意の仕方から,SPSS Classification Treesのソフトを使って 実際に分析を行うまでの過程をご紹介します。 2 ・・・という予定だったのですが・・・、 もう少し内容を追加することになりました。 予定していた内容は後半でまとめて扱います。 そして前半では・・・、 3 本日のスケジュール(修正後) 本日のスケジュール(修正後) 13:30 13:3015:00 15:00: クラスタ分析で分類、判別分析で評価 クラスタ分析で分類、判別分析で評価 得られた量的データについて、どのような観点で分類してよいか分か 得られた量的データについて、どのような観点で分類してよいか分か らない場合には、まずクラスタ分析でどのようなクラスタが見出せる らない場合には、まずクラスタ分析でどのようなクラスタが見出せる かを検討することが一つの手段です。しかし、クラスタ分析で得られ かを検討することが一つの手段です。しかし、クラスタ分析で得られ た分類が「意味のあるまとまりの良い群」であるとは限りません。こ た分類が「意味のあるまとまりの良い群」であるとは限りません。こ で、判別分析を使うと、クラスタ分析で得られたクラスタのまとまり で、判別分析を使うと、クラスタ分析で得られたクラスタのまとまり の良さを(その有意性を)統計的に検討することができます。前半で の良さを(その有意性を)統計的に検討することができます。前半で は、量的データ(とくに比率データ)についてのクラスタ分析及び判 は、量的データ(とくに比率データ)についてのクラスタ分析及び判 別分析の過程をご紹介します。 別分析の過程をご紹介します。 15:0015:20: 休憩 15:2016:50: 評定者間信頼性の検討と決定木分析 複数の統計的指標 (coefficients of interrater reliability) の特性について 比較した上で,最近の内容分析 (content analysis) の領域で推奨されて いるKrippendorff’s alphaの算出過程をご紹介します。そのようにして 信頼性を得られた質的データに基づいて、複数の要因の階層構造を検 討する決定木分析のための過程をご紹介します。 4 それでははじめます。 5 自他両用の「- 自他両用の「-化する 化する」動詞における 」動詞における 自動詞用法と他動詞用法 自動詞用法と他動詞用法 (木山・玉岡 (木山・玉岡, , 投稿中) 投稿中) (1) 名古屋大学の研究ますます活性化する。 (2) 名古屋大学研究ますます活性化する本日のワークショップで扱うデータ 本日のワークショップで扱うデータ 自動詞用法 自動詞用法 (2) 名古屋大学研究ますます活性化する(3) 名古屋大学の研究ますます活性化される。 (4) 名古屋大学の研究ますます活性化させる自動詞用法 自動詞用法 他動詞用法 他動詞用法 自動詞用法 自動詞用法 ( (受身形接辞使用 受身形接辞使用)) 他動詞用法 他動詞用法 ( (使役形接辞使用 使役形接辞使用)) 同じ形が自動詞にも他動詞にもなる 同じ形が自動詞にも他動詞にもなる: : 和語にない、漢語動詞の特徴 和語にない、漢語動詞の特徴 (小林 小林, 2000; , 2000; 田窪 田窪, 1996) , 1996) 受身 受身/ /使役形接辞で自動詞用法と他動詞用法を表す 使役形接辞で自動詞用法と他動詞用法を表す: : 自他明確化の動き?? 自他明確化の動き?? (永澤 永澤, 2007) , 2007) 6

Transcript of 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1...

Page 1: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

1

主観的判断を含むカテゴリカル・主観的判断を含むカテゴリカル・データの多変量解析データの多変量解析

ーコーパス用例分類の信頼性検討と決定木分析のデモンストレーションー

木山木山 幸子幸子麗澤大学大学院

日時: 2010年2月13日(土) 13:30‐16:50場所: 名古屋大学全学教育棟・北棟406

名古屋大学大学院国際言語文化研究科主催「対話創成力養成プロジェクト」

コーパス研究のためのワークショップ

麗澤大学大学院言語教育研究科

博士後期課程[email protected]

1

言語データを収集し,そのデータに対して質的分類を施し,それに言語データを収集し,そのデータに対して質的分類を施し,それに基づいて多変量解析を行うまでの過程を詳細に実演します。基づいて多変量解析を行うまでの過程を詳細に実演します。

13:30‐15:00: 色々な評定者間信頼性指標の比較形式に頼らず,内容の判断に基づいてデータの分類を行う場合,個人の主観による判断の揺れが避けられません。そこで,複数の評定者の間の判断の一致度に基づいて,信頼性を確保する必要があります。前半では,複数の統計的指標 (coefficients of inter‐rater reliability) の特性について比較した上で,最近の内容分析 (content analysis) の領域で推奨されているKrippendorff’s alphaの算出過程をご紹介します。

15:00‐15:20: 休憩

15:20‐16:50: 決定木分析のための一連の作業ある観点で分類を施した質的データについて,その分類結果に影響する複数の要因群の階層性を検討するために,決定木分析 (Decision Tree Analysis) が役立ちます。後半では,決定木分析のためのデータセットの用意の仕方から,SPSS Classification Treesのソフトを使って実際に分析を行うまでの過程をご紹介します。 2

・・・という予定だったのですが・・・、

もう少し内容を追加することになりました。予定していた内容は後半でまとめて扱います。

そして前半では・・・、

3

本日のスケジュール(修正後)本日のスケジュール(修正後)

13:3013:30‐‐15:0015:00: : クラスタ分析で分類、判別分析で評価クラスタ分析で分類、判別分析で評価得られた量的データについて、どのような観点で分類してよいか分か得られた量的データについて、どのような観点で分類してよいか分からない場合には、まずクラスタ分析でどのようなクラスタが見出せるらない場合には、まずクラスタ分析でどのようなクラスタが見出せるかを検討することが一つの手段です。しかし、クラスタ分析で得られかを検討することが一つの手段です。しかし、クラスタ分析で得られた分類が「意味のあるまとまりの良い群」であるとは限りません。こた分類が「意味のあるまとまりの良い群」であるとは限りません。こで、判別分析を使うと、クラスタ分析で得られたクラスタのまとまりで、判別分析を使うと、クラスタ分析で得られたクラスタのまとまりの良さを(その有意性を)統計的に検討することができます。前半での良さを(その有意性を)統計的に検討することができます。前半では、量的データ(とくに比率データ)についてのクラスタ分析及び判は、量的データ(とくに比率データ)についてのクラスタ分析及び判別分析の過程をご紹介します。別分析の過程をご紹介します。

15:00‐15:20: 休憩

15:20‐16:50: 評定者間信頼性の検討と決定木分析複数の統計的指標 (coefficients of inter‐rater reliability) の特性について比較した上で,最近の内容分析 (content analysis) の領域で推奨されているKrippendorff’s alphaの算出過程をご紹介します。そのようにして

信頼性を得られた質的データに基づいて、複数の要因の階層構造を検討する決定木分析のための過程をご紹介します。 4

それでははじめます。5

自他両用の「-自他両用の「-化する化する」動詞における」動詞における自動詞用法と他動詞用法自動詞用法と他動詞用法(木山・玉岡(木山・玉岡, , 投稿中)投稿中)

(1) 名古屋大学の研究がますます活性化する。(2) 名古屋大学の研究をますます活性化する。

本日のワークショップで扱うデータ本日のワークショップで扱うデータ

自動詞用法自動詞用法 (2) 名古屋大学の研究をますます活性化する。

(3) 名古屋大学の研究がますます活性化される。(4) 名古屋大学の研究をますます活性化させる。

自動詞用法自動詞用法

他動詞用法他動詞用法

自動詞用法自動詞用法((受身形接辞使用受身形接辞使用))

他動詞用法他動詞用法((使役形接辞使用使役形接辞使用))

同じ形が自動詞にも他動詞にもなる同じ形が自動詞にも他動詞にもなる::和語にない、漢語動詞の特徴和語にない、漢語動詞の特徴 ((小林小林, 2000; , 2000; 田窪田窪, 1996), 1996)

受身受身//使役形接辞で自動詞用法と他動詞用法を表す使役形接辞で自動詞用法と他動詞用法を表す::自他明確化の動き??自他明確化の動き?? ((永澤永澤, 2007), 2007) 6

Page 2: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

2

自他両用の「-自他両用の「-化する化する」の実際の使用状況において,」の実際の使用状況において,自動詞用法,他動詞用法,使役形接辞「-させる」,自動詞用法,他動詞用法,使役形接辞「-させる」,及び受身形接辞「-される」はどのように分布して及び受身形接辞「-される」はどのように分布しているか。また,自動詞用法を基本とする語群と他動いるか。また,自動詞用法を基本とする語群と他動詞用法を基本とする語群とがあるとしたら,それぞ詞用法を基本とする語群とがあるとしたら,それぞれの特徴はどのようなものであるか。れの特徴はどのようなものであるか。

本日のワークショップで扱う研究課題本日のワークショップで扱う研究課題

RQ1RQ1前半前半RQ1RQ1前半前半

RQ2RQ2後半後半

自他両用の「-自他両用の「-化する化する」が実際の文中で使われると」が実際の文中で使われるとき,肯定的変化を表すか否定的変化を表すかには何き,肯定的変化を表すか否定的変化を表すかには何が影響しているか。「-が影響しているか。「-化する化する」の前項という語彙」の前項という語彙の違いと,自動詞用法であるか他動詞用法であるかの違いと,自動詞用法であるか他動詞用法であるかという統語上の違いのという統語上の違いの22つが考えられるが,これらつが考えられるが,これらの影響の度合いはどのようであるか。の影響の度合いはどのようであるか。

クラスタ分析クラスタ分析→→判別分析判別分析

分類の信頼性検討分類の信頼性検討→→決定木分析決定木分析 7

つまり、

コーパスコーパスから得られたデータに基づいて、

量的・質的量的・質的双方のデータセットを用意し、

それぞれに見合った多変量解析多変量解析の手法を用いて、(SPSS, Ver, 15.0を使います)

「-「-化する化する」の自他明確化の動きを探る」の自他明確化の動きを探る8

多変量解析のいろいろ多変量解析のいろいろ足立 (2006: 8) の表1.6を一部変更・追加して利用

分析データの性質

志向性 主要目的

探索 確認空間表現

分類因果分析

クラスタ分析 量的

○ ○

判別分析 ○ ○ ○

(多変量) 分散分析 ○ ○

主成分分析 ○ ○

前半の前半の話題話題

前半の前半の話題話題

重回帰分析 ○ ○

パス解析 ○ ○

探索的因子分析 ○ ○

確認的因子分析 ○ ○

構造方程式モデリング ○ ○

決定木分析 両方 ○ ○

数量化分析 質的

○ ○

多次元尺度法 ○ ○

コレスポンデンス分析 ○ ○

後半の後半の話題話題

++信頼性検討信頼性検討((分析前確認分析前確認))

9

自他両用の「-自他両用の「-化する化する」の実際の使用状況において,」の実際の使用状況において,自動詞用法,他動詞用法,使役形接辞「-させる」,自動詞用法,他動詞用法,使役形接辞「-させる」,及び受身形接辞「-される」はどのように分布して及び受身形接辞「-される」はどのように分布しているか。また,自動詞用法を基本とする語群と他動いるか。また,自動詞用法を基本とする語群と他動詞用法を基本とする語群とがあるとしたら,それぞ詞用法を基本とする語群とがあるとしたら,それぞ

RQ1RQ1RQ1RQ1

詞用法を基本とする語群とがあるとしたら,それぞ詞用法を基本とする語群とがあるとしたら,それぞれの特徴はどのようなものであるか。れの特徴はどのようなものであるか。

10

コーパス・データコーパス・データ日本語用例・コロケーション抽出システム『茶漉』 (深田, 2007) から、小説と新聞データを利用する。

『青空文庫コーパス』: 8,370,720語1991‐1999の毎日新聞記事: 273,514,662語

このコーパスから100例以上抽出できる自他両用の「-化する」を検索する。24例ある。

強化する,本格化する,活発化する,活性化する,具体化する,自由化する,多様化する,正常化する,明確化する,顕在化する,一般化する,細分化する,浄化する,弱体化する,複雑化する,国際化する,組織化する,現実化する,スリム化する,同化する,単純化する,効率化する,近代化する,民主化する

11

2323種の自他両用の「-種の自他両用の「-化する化する」は、」は、44つのつのタイプタイプ ((自動詞用法、他動詞用法、使役形自動詞用法、他動詞用法、使役形接辞使用、受身形接辞使用接辞使用、受身形接辞使用) ) の観点によっの観点によっ

て、どのように類別されるか。クラスタ分て、どのように類別されるか。クラスタ分析によって分類を試みる。析によって分類を試みる。

12

Page 3: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

3

クラスタ分析クラスタ分析

変数

志向性 主要目的

探索 確認空間表現

分類因果分析

量 ○ ○

以下のクラスタ分析についての説明は、朝野 (2000) と繁桝・柳井・森 (1999) に基づく。 13

分析用データ・セット分析用データ・セット

基本的に、表1の通りにSPSSで分析するためのデータセットも構成される。

行行 (横方向の配列): 動詞の種類列列 (縦方向の配列): 自動詞用法、他動詞用法、

使役形接辞使用、受身形接辞使用

しかし、コーパスで得られた出現頻度は動詞によって著しく異なり、偏りが生じている。そのため、比率に置き換えてクラスタ分析を行う。

まず、エクセルで頻度データを間違えずに間違えずに用意し、比率に変換した上で、SPSSを起動してそれを読み込む。

Demonstrate!Demonstrate!14

確認確認: : 分析データの用意分析データの用意

頻度データの横に頻度データの横に44列作り、各タイプが全体頻列作り、各タイプが全体頻度に占める比率を算出する。まず =度に占める比率を算出する。まず =D2 (D2 (自動自動

後に、求めている計算後に、求めている計算 ((割っている方と割られているほう割っている方と割られているほうがきちんと選択されているかがきちんと選択されているか) ) を確認する。セルをダブルクを確認する。セルをダブルク

リックして中身を見ると、計算式が見え、計算対象となってリックして中身を見ると、計算式が見え、計算対象となっているセルが個別の色枠で浮き上がる。いるセルが個別の色枠で浮き上がる。

度に占める比率を算出する。まず、度に占める比率を算出する。まず、 D2 (D2 (自動自動詞詞) / $C2 () / $C2 (コーパス頻度セルコーパス頻度セル))を入力する。このを入力する。このとき、とき、C (C (コーパス頻度コーパス頻度))の前に「の前に「$$」を入力し」を入力し

て列を固定する。その後、そのセルから他のて列を固定する。その後、そのセルから他の部分までドラッグしてコピーする。部分までドラッグしてコピーする。

15

①①[[開く開く]]→→[[データデータ]]を選択を選択

②②

該当するフォルダ該当するフォルダ→→[Excel][Excel]→→該当する該当するファイルファイルを選択を選択

③③該当するシート該当するシートを選択を選択

④④あっという間にあっという間にSPSSSPSSデータのできあがり!データのできあがり!

16

1分類の対象はデータ行列の

□ケース(行)□変数(列)

階 的方法

クラスタ分析のオプションクラスタ分析のオプション

朝野 (2000: 76) の表5.1から引用

クラスタ分析を実際に行うには、自分で指定しなければならないオプションがいくつかある。

2 分類の形式□階層的方法□非階層的方法

3 対象間の距離□ユークリッド距離□相関係数の逆数□その他

4 クラスタの合併法□ウォード法□重心法その他

17

1分類の対象はデータ行列の

□ケース(行)□変数(列)

クラスタ分析のオプションクラスタ分析のオプション

←←

列列

((

縦方縦方

←← 行行 ((横方向横方向): ): 動詞ごとの動詞ごとの44用法の比率用法の比率 →→

方向方向):

):

用法ごとの動詞の違い

用法ごとの動詞の違い

→→

18

Page 4: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

4

2 分類の形式□階層的方法□非階層的方法

クラスタ分析のオプションクラスタ分析のオプション

階層的 (hierarchical) 方法は、分類数が分か

らない場合に用いる。非階層的方法は、分類場合 用 。非階層的方法 、分類数があらかじめ分かっている場合に用いる。

表1の23種の動詞からは、今のところ分類の

観点が見いだせないので、分類数を指定しない階層的方法を選択する。

19

3 対象間の距離□ユークリッド距離□相関係数の逆数□その他

クラスタ分析のオプションクラスタ分析のオプション

対象間の距離を測る方法はいろいろあるが、方 ド 離(平方) ユークリッド距離 (squared Euclidean 

distance) が も一般的である。

これは、モノとモノの距離を近い順にまとめる方法である (朝野, 2000: 79)。

20

4 クラスタの合併法□ウォード法□重心法その他

クラスタ分析のオプションクラスタ分析のオプション

クラスタ化の方法にもいろいろある ( 近隣法、

遠隣法、メジアン法、群平均法、重心法、ウォ ド法など) どれを用いても 良のクラスウォード法など)。どれを用いても 良のクラスタが得られている。これらの中ではウォード法(Ward’s method) が一般的である。

これは、各クラスタの残差が も小さくなるように、残差の増分の も小さいクラスタを併合していく (繁桝・柳井・森, 1999: 199‐200)。

Demonstrate!Demonstrate!21

確認確認: SPSS: SPSSの操作の操作

分析を始める前に、余分な要素がないかどう分析を始める前に、余分な要素がないかどうか確認しておくか確認しておくか確認しておく。か確認しておく。

空白であるべきセルに、よく見ると不要な空白であるべきセルに、よく見ると不要な「「..」」((ドットドット) ) が入り込んでいる場合があり、が入り込んでいる場合があり、

分析結果に影響する恐れがあるので、これら分析結果に影響する恐れがあるので、これらはクリアしておくはクリアしておく ((右クリック右クリック→→[[クリアクリア])])。。

22

①①[[分析分析]]→→ [[分類分類]]→→[[階層階層クラスタクラスタ]]を選択を選択

②②[[変数変数]]はは44用法、用法、[[ラベルラベル]]は動詞、は動詞、[[クラスタクラスタ]]はは[[ケースケース]]を選択を選択

③③[[作図作図]]をクリックをクリック[[デンドログラムデンドログラム]]を選択を選択

④④[[方法方法]]をクリックをクリック[[クラスタ化の方法クラスタ化の方法]]はは[Ward[Ward法法]]、、[[距離距離]]はは[[平方ユークリッド平方ユークリッド]]を選択を選択

23

あっという間にあっという間にクラスタ分析のできあがりクラスタ分析のできあがり

あとは、あとは、

デンドログラムデンドログラムを見て出力のを見て出力の

クラスタを解釈クラスタを解釈するだけするだけ

①①2525ポイントでポイントで22つのつのクラスタクラスタができるができる

②②55ポイントでさらにポイントでさらに22つのつのクラスタができるクラスタができる

24

Page 5: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

5

33つのつのクラスタが見出されたクラスタが見出された

クラスタクラスタII

クラスタクラスタIIII

クラスタクラスタIIIIII25

クラスタ分析の限界クラスタ分析の限界

クラスタ分析は、類似した群を見出すために利用できる探索的探索的な手法ではあるが、得られたクラスタが「意味のあるまとまりの良い」ものである保証はない (繁桝・柳井・森, 1999)。

そこで、階層的クラスタ分析で得られた群について、判別分析を援用して、個々の動詞が3つのク

ラスタにきちんと振り分けられているかを確認確認することにする。 26

判別分析判別分析

変数

志向性 主要目的

探索 確認空間表現

分類因果分析

量 ○ ○ ○

以下の判別分析についての説明は、足立 (2006) , 小野寺・山本編著 (2004) に基づく。 27

判別分析の概略判別分析の概略

判別分析には、既知群データ既知群データが要る。何らかの方法で、各個体がどの群に割り当てられるかが分かっている必要がある。通常、クラスタ分析や因子分析などの分類目的の手法でグループ分けしてあるデータが適用される (足立, 2006)。( , )

本研究では、あらかじめ階層的クラスタ分析によって得られた3つのクラスタが、真に意味のある

まとまりをもっているかどうかを再検証する目的で、判別分析を適用する。

28

分析用データ・セット分析用データ・セット

クラスタ分析で使ったデータセットを少し加工するだけ。

行行 (横方向の配列): 動詞の種類列列 (縦方向の配列): 自動詞比率、他動詞比率、

使役形接辞比率、受身形接辞比率

まず、動詞の順番を、クラスタ分析の結果の通りに並べ替える。 (行の入れ替え)

これに、クラスタ分析で得られた3つのクラスタを変数に加えればOK! (列の追加)

Demonstrate!Demonstrate!29

確認確認: : 分析データの用意分析データの用意

もともとコーパスの出現頻度の順に並んでいもともとコーパスの出現頻度の順に並んでいた動詞を、クラスタ分析の結果の順番通りにた動詞を、クラスタ分析の結果の順番通りに並べ替える 行を切り取って並べ替える 行を切り取って (Ctrl + X) (Ctrl + X)  並べ並べ並べ替える。行を切り取って並べ替える。行を切り取って (Ctrl + X) (Ctrl + X) 、、並べ並べ替える先のところで右クリックし、替える先のところで右クリックし、[[切り取っ切り取ったセルの挿入たセルの挿入]]をクリックする。このとき、行をクリックする。このとき、行

の一番左側の番号のところをクリックしないの一番左側の番号のところをクリックしないと、行全体が選択されないので注意。と、行全体が選択されないので注意。

30

Page 6: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

6

確認確認: : 分析データの用意分析データの用意

①クラスタ分析で得ら①クラスタ分析で得られたデンドログラムをれたデンドログラムを見て、見て、33つのつのクラスタのクラスタの

通りに色分けしておく通りに色分けしておくと便利。と便利。

②一番右に新しい列をつ②一番右に新しい列をつくり、一番上の行にくり、一番上の行に[[ククラスタラスタ]]と書く。そして、と書く。そして、

色ごとに番号を書いてい色ごとに番号を書いていくく ((必ず半角で!必ず半角で!))。。

③これを保存して、③これを保存して、SPSSSPSSで読み込めばで読み込めばOK (OK (読み込読み込

みの方法は先ほどと同みの方法は先ほどと同じじ))。。

31

判別分析の手順判別分析の手順((いろいろあるが、本研究の場合いろいろあるが、本研究の場合))

① 3つ以上の群の違いを もよく区別する判別軸 (判別関数) を求める正準判別分析正準判別分析を行う。→[変数の数]または[群の数-1]個のうちの

小さい方の数と同数の判別関数が得られる。(小野寺・山本編, 2004)*本研究では 変数が4 (用法)*本研究では、変数が4 (用法)、

3群のクラスタ-1=2なので、2つの判別関数が得られる。

② 各群の確率分布に基づき、判別対象の個体を適切な群へ分類する。交差妥当化交差妥当化 (cross validation) (cross validation) によって正判別率、判別的中率を算出する。

Demonstrate!Demonstrate!32

確認確認: SPSS: SPSSの操作の操作

判別分析用のデータを起動判別分析用のデータを起動((起動の仕方はどの分析でも同じ起動の仕方はどの分析でも同じ))

33

②②[[グループ化変数グループ化変数]]にクラスタをにクラスタを入れ入れ [[範囲の定義範囲の定義]]をクリックをクリック

①①[[分析分析]]→→ [[分類分類]]→→[[判別分析判別分析]]を選択を選択

入れ、入れ、[[範囲の定義範囲の定義]]をクリックをクリック[[ 小値小値]]をを11、、[[ 大値大値]]をを33にする。にする。

③③[[独立変数独立変数]]にに44用法の頻度を用法の頻度を入れる入れる ((クラスタ分析と同じクラスタ分析と同じ)) 34

⑤⑤[[分類分類]]をクリックし、をクリックし、[[交差妥当化交差妥当化]]にチェッにチェックを入れるクを入れる

④④[[統計統計]]をクリックし、をクリックし、[[標準化されていな標準化されていないい]]にチェックを入れにチェックを入れるる

⑥⑥[[保存保存]]をクリックし、をクリックし、[[判別得点判別得点] ] にチェックをにチェックを入れる入れる ((出力ではなくデー出力ではなくデータエディタのほうに出るタエディタのほうに出る))

35

あっという間にあっという間に判別分析のできあがり判別分析のできあがり

出力にはいろい出力にはいろい出力にはいろい出力にはいろいろな情報が出てろな情報が出てくるが、見るべくるが、見るべきポイントがいきポイントがいくつかある。くつかある。

36

Page 7: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

7

判別分析の出力の見方判別分析の出力の見方 そのその11各判別関数の正準相関各判別関数の正準相関

固有値固有値

関数ごとに関数ごとに正準相関正準相関がが得られる。得られる。

正準相関が有意である正準相関が有意である関数が、分析に用いら関数が、分析に用いられている。れている。

正準相関が有意である正準相関が有意であるかどうかは、かどうかは、WilksWilksのラのラ

ムダのムダの有意水準有意水準を参照を参照すればよい。すればよい。

37

判別分析の出力の見方判別分析の出力の見方 その2その2構造行列構造行列

構造行列構造行列

関数ごとに判別得点と関数ごとに判別得点と変数とのグループ内相変数とのグループ内相関係数を示した行列関係数を示した行列

→→各関数が、どのよう各関数が、どのような観点からグループ分な観点からグループ分けをしているか探るこけをしているか探ることができる。とができる。

関数関数1:1:

自動詞が強い負の相関、自動詞が強い負の相関、他動詞が強い正の相関他動詞が強い正の相関

→→自動詞と他動詞の対比自動詞と他動詞の対比に注目した関数に注目した関数

関数関数2:2:

自動詞と他動詞が強い正の相関、自動詞と他動詞が強い正の相関、受身形と使役形が負の相関受身形と使役形が負の相関

→→基本形と接辞使用の対比に注目基本形と接辞使用の対比に注目した関数した関数

*受身形は判別に*受身形は判別に使われていない。使われていない。

38

判別分析の出力の見方判別分析の出力の見方 その3その3交差妥当化交差妥当化

分類結果の注分類結果の注ccを見るだけを見るだけ::[[交差妥当化で交差妥当化で95.7%95.7%のケースが正しくのケースが正しく分類されました分類されました] ] →→判別的中率判別的中率のことのこと39

これで基本的には終わりこれで基本的には終わり::でも、さらなる理解のために、でも、さらなる理解のために、

判別得点を検討してみる。判別得点を検討してみる。

データエディタの右側に、 初はなデータエディタの右側に、 初はなかったかった22列が追加されている!列が追加されている!

→→第一判別関数の判別得点と、第二判第一判別関数の判別得点と、第二判別関数の判別得点別関数の判別得点

40

0

1

2

‐6 ‐4 ‐2 0 2 4 6 8

これさえなければ完璧

第一関数と第二関数の判別得点に基づいて第一関数と第二関数の判別得点に基づいて散布図を描いてみると散布図を描いてみると……

‐3

‐2

‐1

クラスタクラスタII

クラスタクラスタIIII

クラスタクラスタIIIIII判別的中率 (正判別率) は、95.7%95.7%=23個体のうち22個体が判別できている。22/23したがって、3つの各クラスタは非常にまとまりがよいと判断できる。 41

考察:各クラスタは何を分けているか考察:各クラスタは何を分けているか??クラスタクラスタII自動詞優勢自動詞優勢

タタクラスタクラスタIIII自他拮抗自他拮抗

クラスタクラスタIIIIII他動詞優勢他動詞優勢

42

Page 8: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

8

考察:各クラスタに含まれる動詞群は、考察:各クラスタに含まれる動詞群は、語彙的意味に何かの共通性があるか語彙的意味に何かの共通性があるか??

自動詞優勢語群:自動詞優勢語群:

抽象的関係を表す抽象的関係を表す語が多い語が多い

自他拮抗語群:自他拮抗語群:

抽象的関係以外、抽象的関係以外、また記載のない語また記載のない語

が多いが多い

他動詞優勢語群:他動詞優勢語群:

抽象的関係を表す抽象的関係を表す語が多い語が多い

43

自他両用の「-自他両用の「-化する化する」の実際の使用状況におい」の実際の使用状況において,自動詞用法,他動詞用法,使役形接辞「-させて,自動詞用法,他動詞用法,使役形接辞「-させる」,及び受身形接辞「-される」はどのように分る」,及び受身形接辞「-される」はどのように分布しているか。また,自動詞用法を基本とする語群布しているか。また,自動詞用法を基本とする語群と他動詞用法を基本とする語群とがあるとしたら,と他動詞用法を基本とする語群とがあるとしたら,それぞれの特徴はどのようなものであるか。それぞれの特徴はどのようなものであるか。

RQ1RQ1RQ1RQ1 へのへの答えは答えは……

44通りの用法の比率に基づいて階層的クラスタ分析通りの用法の比率に基づいて階層的クラスタ分析

と正準判別分析を行った結果、自動詞優勢語群、他と正準判別分析を行った結果、自動詞優勢語群、他動詞優勢語群、そして自他拮抗語群が見出された。動詞優勢語群、そして自他拮抗語群が見出された。自他いずれかが優勢である語群の語彙的意味は、自他いずれかが優勢である語群の語彙的意味は、「-「-化する化する」の造語成分として典型的とされる「抽」の造語成分として典型的とされる「抽象的関係」象的関係」((野村野村, 1978) , 1978) であることが多いのに対しであることが多いのに対し

て、自他拮抗語群ではそれ以外の意味や新奇な語がて、自他拮抗語群ではそれ以外の意味や新奇な語が多いという違いが見られた。多いという違いが見られた。

AAAA

44

前半の内容に関する参考文献前半の内容に関する参考文献

深田淳 (2007) 「日本語用例・コロケーション情報抽出システム『茶漉』」『日本語科学』22: 161‐172.

小林英樹 (2000) 「漢語動名詞の自他」『日本語教育』107: 75‐84.国立国語研究所 (1964) 『分類語彙表』, 国立国語研究所資料集

6. 東京: 秀英出版.永澤済 (2007) 「漢語動詞の自他体系の近代から現代への変化」

『日本語の研究』3(4): 17‐32.野村雅昭 (1978) 「接辞性字音語基の性格」『電子計算機による

国語研究IX  国立国語研究所報告6 』 8  東京  秀英出版

理論理論

国語研究IX: 国立国語研究所報告61』101‐138. 東京: 秀英出版.田窪行則 (1986) 「-化」『日本語学』5(3): 81‐84.

足立浩平 (2006) 『多変量データ解析法: 心理・教育・社会系のための入門』京都: ナカニシヤ出版.

朝野煕彦 (2000) 『入門多変量解析の実際』第二版. 東京: 講談社.小野寺孝義・山本嘉一郎編著 (2004) 『SPSS辞典: BASE編』京都: 

ナカニシヤ出版.繁桝算男・柳井晴夫・森敏昭 (編著) (1999) 『Q&Aで知る統計

データ解析: DOs and DON’T s』, 心理学セミナーテキストライブラリ3. 東京: サイエンス社.

統計統計

45

役に立ちそうなサイト役に立ちそうなサイト

群馬大学 青木繫伸先生の「おしゃべりな部屋」掲示板での質疑応答がすごい。http://aoki2.si.gunma‐u.ac.jp/

数学・統計用語集日本語と英語の統計用語の対応表があって便利。http://www.qmss.jp/qmss/glossary/

IBM SPSS JAPANのホームページ

時々無料のオンラインセミナーがダウンロードできたりする。年に1回学生は無料のユーザーカンファランスがある (2009年に玉岡先生も講演!)http://www.spss.co.jp/

46

47

お疲れさまですお疲れさまです前半はこれで終わりです前半はこれで終わりです

休憩休憩

48

Page 9: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

9

それでは後半ですもうしばらくおつきあいください

49

後半の話題に入る前にちょっと確認後半の話題に入る前にちょっと確認

前半のクラスタ分析と判別分析は、量的データ量的データを対象とする多変量解析 (比率を扱った)

後半では、質的データ質的データ ((カテゴリカル・データカテゴリカル・データ))についての多変量解析のプロセスを紹介

50

RQ2RQ2後半後半

自他両用の「-自他両用の「-化する化する」が実際の文中で使われる」が実際の文中で使われるとき,肯定的変化を表すか否定的変化を表すかにとき,肯定的変化を表すか否定的変化を表すかには何が影響しているか。「-は何が影響しているか。「-化する化する」の前項とい」の前項という語彙の違いと,自動詞用法であるか他動詞用法う語彙の違いと,自動詞用法であるか他動詞用法であるかという統語上の違いのであるかという統語上の違いの22つが考えられるつが考えられるが,これらの影響の度合いはどのようであるか。が,これらの影響の度合いはどのようであるか。

分類の信頼性検討分類の信頼性検討→→決定木分析決定木分析

51

データは、前半で利用したものと同じデータは、前半で利用したものと同じ

→→これに質的判断を施すこれに質的判断を施す

52

肯定的変化を表すか肯定的変化を表すか VS VS  否定的変化を表すか否定的変化を表すか

具体的には、「-具体的には、「-化する化する」が指す変化に、好ましい」が指す変化に、好ましい積極的な努力を含むか否かの観点から分類する。積極的な努力を含むか否かの観点から分類する。

肯定的変化肯定的変化::「目標達成のための積極的な努力のプロ「目標達成のための積極的な努力のプロ

自他両用の「-自他両用の「-化する化する」が実際の文中で」が実際の文中でどのように使われているかどのように使われているか

肯定的変化肯定的変化::「目標達成のための積極的な努力のプロ「目標達成のための積極的な努力のプロセスが含まれる変化」セスが含まれる変化」

(1)(1) 一方,行政,経済界などの建設推進に向けての一方,行政,経済界などの建設推進に向けての動きが活発化してきた。動きが活発化してきた。[[毎日新聞毎日新聞19981998年記事年記事]]

(2) (2) 我が町の区画整理事業案もいよいよ具体化してき我が町の区画整理事業案もいよいよ具体化してきています。ています。[[毎日新聞毎日新聞19961996年記事年記事]]

(3) (3) 一方で,不法就労者と仲介業者,雇用主の取り一方で,不法就労者と仲介業者,雇用主の取り締まりを強化する。締まりを強化する。[[毎日新聞毎日新聞19911991年記事年記事]]

53

否定的変化否定的変化::「望ましい目標達成のための積極的努力「望ましい目標達成のための積極的努力が含まれない変化」が含まれない変化」

(4)(4) しかし今回の騒ぎの中で他の少数民族対黒人しかし今回の騒ぎの中で他の少数民族対黒人という“もう一つの”対立の構図が顕在という“もう一つの”対立の構図が顕在化して化してきた。きた。[[毎日新聞毎日新聞19921992年記事年記事]]

(5)(5) 細分化された現在の行政システムでは,役所細分化された現在の行政システムでは,役所はルーチンワークに手を取られ住民のはルーチンワークに手を取られ住民の ための行ための行政ができません政ができません 毎 新毎 新 年 事年 事政ができません。政ができません。[[毎日新聞毎日新聞19991999年記事年記事]]

(6)(6) ウイルスがまん延し,一般化してきた結果とウイルスがまん延し,一般化してきた結果とみる。みる。[[毎日新聞毎日新聞19911991年記事年記事]]

分類不能分類不能: : ことの善悪,是非が分からないことを文ことの善悪,是非が分からないことを文中で明記しているもの中で明記しているもの

(7) (7) よしあしは別にして,食卓はとっくに国際化しよしあしは別にして,食卓はとっくに国際化している。ている。[[毎日新聞毎日新聞19951995年記事年記事]] 54

Page 10: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

10

肯定肯定//否定判断の結果否定判断の結果

これらの判断は 形式に頼らず 文の内容に基づいているたこれらの判断は 形式に頼らず 文の内容に基づいているたこれらの判断は、形式に頼らず、文の内容に基づいているたこれらの判断は、形式に頼らず、文の内容に基づいているため、個人の主観による判断の揺れが起こり得る。め、個人の主観による判断の揺れが起こり得る。

→→分類の分類の信頼性信頼性を確認しておかなければならない!を確認しておかなければならない!

55

いかに誤差を少なくし、安定した測定を行うか。いかに誤差を少なくし、安定した測定を行うか。=測りたいものをどのくらい正確に測っているか、=測りたいものをどのくらい正確に測っているか、その方法でその方法で何度やっても同じ結果が得られるか何度やっても同じ結果が得られるか((中澤・大野木・南中澤・大野木・南, 1997), 1997)

いろいろな種類の信頼性いろいろな種類の信頼性::

質問紙質問紙 ((尺度尺度 ))の構成要素の構成要素 ((項目項目 ))に対するに対する

信頼性信頼性 = = 測定の一貫性測定の一貫性

質問紙法質問紙法質問紙質問紙 ((尺度尺度: scale) : scale) の構成要素の構成要素 ((項目項目: item) : item) に対するに対する被験者から得られる回答の一貫性被験者から得られる回答の一貫性: : 量的変数量的変数ex.ex.再検査法による信頼性再検査法による信頼性:: 22回の実施で推定回の実施で推定Cronbach’sCronbach’s alpha (alpha (内的整合性の係数内的整合性の係数):): 11回の実施で推定回の実施で推定

複数の評定者間で分類・評定の一致率複数の評定者間で分類・評定の一致率: : 質的質的//量的変数量的変数ex.  ex.  単純一致率単純一致率 (percent agreement)(percent agreement)

Cohen’s kappa (Cohen’s kappa (偶然一致する確率を補正した係数偶然一致する確率を補正した係数))

観察・発話等の内容判断観察・発話等の内容判断: : 本研究で問題になる信頼性本研究で問題になる信頼性

56

測りたいものを測っているか測りたいものを測っているか((中澤・大野木・南中澤・大野木・南, 1997), 1997)

いろいろな種類の妥当性いろいろな種類の妥当性::

内的妥当性内的妥当性 (internal validity)(internal validity)

信頼性が高くても妥当性が高いとは限らない信頼性が高くても妥当性が高いとは限らない

妥当性妥当性 とはとは

( y)( y)この方法で、本当に仮説が検証できるか。この方法で、本当に仮説が検証できるか。論理的に検証するべきもの。論理的に検証するべきもの。

外的妥当性外的妥当性 (external validity)(external validity)

観察から得られた結論が他の条件にもあてはまるか。観察から得られた結論が他の条件にもあてはまるか。一般化可能性。追試検証の必要がある。一般化可能性。追試検証の必要がある。

信頼性に限界はあるが、オリジナルな質的分類方法に信頼性に限界はあるが、オリジナルな質的分類方法に説得力を持たせるために報告する必要があるだろう。説得力を持たせるために報告する必要があるだろう。57

準備するもの準備するもの・・22人以上の評定者人以上の評定者 ((木山・玉岡木山・玉岡))・全データから・全データからランダムにランダムに抽出した一部のデータ抽出した一部のデータデータの性質によって何データの性質によって何%%抽出すべきか抽出すべきかはは異なる。異なる。

多くは多くは1010‐‐20%20%程度抽出される。本研究では、全データ程度抽出される。本研究では、全データがが23,30623,306例と大量であるため、例と大量であるため、5%5%のの1,1651,165例とした。例とした。

評定者間信頼性評定者間信頼性 (inter(inter‐‐rater reliability)rater reliability)のの検証のプロセス検証のプロセス

がが23,30623,306例と大量であるため、例と大量であるため、5%5%のの1,1651,165例とした。例とした。

手順手順・分類は相互に排他的・分類は相互に排他的 (mutually exclusive) (mutually exclusive) なもの。なもの。・本番用とは別に説明・練習用のデータを用意し、・本番用とは別に説明・練習用のデータを用意し、評定者同士で分類の基準を確認する。評定者同士で分類の基準を確認する。

・分類方法を理解したら、・分類方法を理解したら、独立に独立に ((途中で相談しては途中で相談してはいけないいけない) ) 本番用のデータをコーディング本番用のデータをコーディング((分類・判定分類・判定) ) していく。していく。 Demonstrate!Demonstrate!

58

btamaoka

total

1positive

2negative

本研究の分類結果を本研究の分類結果をクロス表クロス表 (cross table) (cross table) で表してみるとで表してみると……

一致部分一致部分

akiyama

1positive

1008 13 1021

2negative

22 122 144

total 1030 135 1165

不一致部分不一致部分59

btamaoka

total

1positive

2negative

主対格要素主対格要素に全てが入るに全てが入る

もし、信頼性が完全であるもし、信頼性が完全である ((完全に一致完全に一致しているしている) ) なら、対称行列が得られる。なら、対称行列が得られる。

akiyama

1positive

1030 0 1030

2negative

0 135 135

total 1030 135 1165

非主対格要素非主対格要素がゼロがゼロ

これさえなければ完璧

周辺度数が等しくなる

60

Page 11: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

11

代表的な指標代表的な指標

・・percent agreement measure: percent agreement measure: 単純一致率単純一致率

・・Scott’s pi: Scott’s pi: ππ パイ係数パイ係数 (( 初の評定者間信頼性係数初の評定者間信頼性係数))

評定者間信頼性の指標のいろいろ評定者間信頼性の指標のいろいろ

・・Cohen’s kappa: Cohen’s kappa: κκ カッパ係数カッパ係数 (( もポピュラーもポピュラー))

・・Krippendorff’sKrippendorff’s alpha: alpha: ααアルファ係数アルファ係数 (( 新新))((Cronbach’sCronbach’s alphaalphaとは別物とは別物))

これらを簡単に比較してみようこれらを簡単に比較してみよう

ギリシャ文字:統計ギリシャ文字:統計的推測的推測 ((確率的に補確率的に補正正) ) を行っている。を行っている。

61

Professor A total

Yes No

P f Y

簡単な例で検討簡単な例で検討

某某ProbabilityProbability大学大学院大学大学院ReliabilityReliability研究科の受験者研究科の受験者5050人人の研究計画書を、の研究計画書を、AA教授と教授とBB教授がそれぞれ読んで、教授がそれぞれ読んで、可とすべきか不可とすべきかを独立に判断した。可とすべきか不可とすべきかを独立に判断した。

Professor B

Yes 20 5 25

No 10 15 25

total 30 20 50

単純一致率単純一致率 (percent agreement) = (percent agreement) =  PPaaPPaaは、観察された評定者間の一致率は、観察された評定者間の一致率

ここでは、ここでは、 (20+15)/50 = (20+15)/50 = .70.70

不一致の分布不一致の分布を考慮していを考慮してい

ないない

62

なぜ単純一致率だけでは不十分であるか?なぜ単純一致率だけでは不十分であるか?

・不一致のセルの分布を考慮していない。・不一致のセルの分布を考慮していない。

・偶然高い・偶然高い//低い一致率が得られただけかもしれない。低い一致率が得られただけかもしれない。

Percent agreement measure Percent agreement measure 単純一致率単純一致率

・分類のカテゴリー数が少ないときに、バイアスが・分類のカテゴリー数が少ないときに、バイアスが生じやすい。生じやすい。

→→22分類の方が、分類の方が、55分類より一致しやすい。分類より一致しやすい。22分類であれば分類であれば0.500.50××0.50 = 0.250.50 = 0.2555分類であれば分類であれば0.200.20××0.20 = 0.040.20 = 0.04

この後紹介する信頼性指標は、いずれもこのこの後紹介する信頼性指標は、いずれもこのような確率的なバイアスを補正する目的で開ような確率的なバイアスを補正する目的で開

発された発された係数係数 (coefficient)(coefficient)である。である。 63

Scott (1955)Scott (1955)のパイ係数とのパイ係数とCohen (1960) Cohen (1960) のカッパ係数のカッパ係数は基本的に同じ数式で表現されるは基本的に同じ数式で表現される

PPaa –– PPee

1 1 –– PPee

Scott’s pi: Scott’s pi: ππとと Cohen’s kappaCohen’s kappa : : κκ

ここで、ここで、 PPaaは観察された一致率は観察された一致率 (observed (observed agreement) agreement) 、、 PPeeは偶然一致すると仮定される確率は偶然一致すると仮定される確率(chance agreement) (chance agreement) 

パイ係数とカッパ係数の違いは、パイ係数とカッパ係数の違いは、 PPee (chance (chance agreement) agreement) の導出が異なること。の導出が異なること。

64

Professor A total

Yes No

Professor B

Yes 20 5 25

No 10 15 25

total 30 20 50

ππ係数を計算してみる係数を計算してみる

PPaa –– PPee

1 1 –– PPee

PPaa = (20 + 15) /50 = 0.70= (20 + 15) /50 = 0.70PPee joint proportionjoint proportion: : 各評定者の周辺度数の和各評定者の周辺度数の和 / / 総頻総頻

度数度数××評定者数評定者数→→これを平方和する。これを平方和する。

Prof. A Prof. B Joint proportion JP Squared

Yes 30 25 (30+25)/50*2= 0.55 0.3025

No 20 25 (20+25)/50*2= 0.45 0.2025

これをこれを足すと足すと0.5050.505::PPee

0.70 0.70 –– 0.505             0.505             1 1 –– 0.5050.505

=0.39393939…=0.39393939…

65

Professor A total

Yes No

Professor B

Yes 20 5 25

No 10 15 25

total 30 20 50

κ κ 係数を計算してみる係数を計算してみる

PPaa –– PPee

1 1 –– PPee

PPaa = (20 + 15) /50 = 0.70= (20 + 15) /50 = 0.70PPee probability of random agreementprobability of random agreement::

Prof. AProf. Aはは3030人に人にYesYes、、2020人に人にNoNoと判定と判定→→6060%%ののYesYesProf. BProf. Bはは2525人に人にYesYes、、2525人に人にNoNoと判定と判定→→5050%%ののYesYes→→両教授が両教授がYesYesというランダム確率はというランダム確率はo.60o.60××0.50=0.300.50=0.30

両教授が両教授がNoNoというランダム確率はというランダム確率は0.400.40××0.50=0.20 0.50=0.20 したがって全体のランダム確率はしたがって全体のランダム確率は0.30+0.20 = 0.30+0.20 = 0.5: 0.5: PPee

0.70 0.70 –– 0.50              0.50              1 1 –– 0.500.50=0.40=0.40

66

Page 12: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

12

・統計的には、・統計的には、Cohen’s Cohen’s κκよりよりScott’s Scott’s ππが望ましいが望ましい。。Cohen’s Cohen’s κκは、評定者の奇異な評定を考慮しない。そは、評定者の奇異な評定を考慮しない。その結果、しばしば値を膨張させてしまうの結果、しばしば値を膨張させてしまう (Hayes & (Hayes & KrippendorffKrippendorff, 2007), 2007)。。ππの算の算出プロセスにおける出プロセスにおけるJoint proportion Joint proportion (probability) (probability) というのが、 もシンプルかつ頑健なというのが、 もシンプルかつ頑健な(robust) (robust) 測定法と考えられている測定法と考えられている ((UebersaxUebersax, 1987), 1987)。。

Scot’s pi: Scot’s pi: ππとと Cohen’s kappa : Cohen’s kappa : κκの違いの違い

( )( ) (( , 9 ), 9 )

・しかし、・しかし、Scott’s  Scott’s  ππは、は、binary (2binary (2××2) 2) の分類、の分類、22人の人の評定者の一致率しか測定できない。評定者の一致率しか測定できない。

Fleiss’sFleiss’s κ (κ (1971) 1971) ははScott’s Scott’s ππを拡張しており、を拡張しており、 33条件以条件以上の分類、上の分類、 22人以上の評定者を適用できる人以上の評定者を適用できる ((同じ同じκκででも、も、CohenCohenの係数を拡張したのではないの係数を拡張したのではない))。。Krippendorff’sKrippendorff’s α α (2004) (2004) は、さらに、すべての尺度は、さらに、すべての尺度((名義、順序、間隔、比率名義、順序、間隔、比率) ) に適用できるようにした。に適用できるようにした。

67

Krippendorff’sKrippendorff’s alpha (KALPHA)alpha (KALPHA)

開発した人開発した人 プログラムを書いた人プログラムを書いた人

Andrew F. HayesHayes, Ph.D.Associate Professor

School of Communication,The Ohio State University

Klaus KrippendorffKrippendorff, Ph.D.Professor

Annenberg School for Communication,

University of Pennsylvania 68

①① 各評定者の分散に基づいた値が算出される各評定者の分散に基づいた値が算出される→→Cohen’s kappaCohen’s kappaの欠点を克服の欠点を克服

②② 分類数がいくつでもよい分類数がいくつでもよい ((kk××ll))→→Scott’s piScott’s piの欠点を克服の欠点を克服

③③ 評定者が何人でもよい評定者が何人でもよい

KALPHAKALPHAの基本的特徴の基本的特徴

③③ 評定者が何人でもよい評定者が何人でもよい→→ Scott’s pi, Cohen’s kappaScott’s pi, Cohen’s kappaの欠点を克服の欠点を克服

④④ 名義・順序・間隔・比率全ての尺度に適用できる名義・順序・間隔・比率全ての尺度に適用できる→→ Scott’s pi, Cohen’s kappa, Scott’s pi, Cohen’s kappa, Fleiss’sFleiss’s kappakappaの欠点をの欠点を

克服克服

⑤⑤ ブートストラップブートストラップ法による区間推定をしている法による区間推定をしている

69

KALPHAKALPHAは次の一般化した数式で表されるは次の一般化した数式で表される::

αα = 1 = 1 ‐‐

ここで、ここで、DDooは観察された不一致、は観察された不一致、DDeeは偶然の確率をは偶然の確率を考慮した不一致である。考慮した不一致である。

t  g tt  g tではなく「不 致」を利用していではなく「不 致」を利用してい

KALPHAKALPHAの基本的特徴の基本的特徴

DDoo

DDee

percent agreementpercent agreementではなく「不一致」を利用していではなく「不一致」を利用しているのは、既存の種々の指標をるのは、既存の種々の指標を総括総括するため。するため。

・もしデータが名義尺度で、評定者が・もしデータが名義尺度で、評定者が22人であれ人であれば、ば、

Scott’s πScott’s πと漸近的に同じと漸近的に同じ・もしデータが順序尺度で、評定者が・もしデータが順序尺度で、評定者が22人であれ人であれば、ば、

SpearmanSpearmanの順位相関係数の順位相関係数ρρと同一と同一・もしデータが間隔尺度で、評定者が・もしデータが間隔尺度で、評定者が22人であれ人であれ

KALPHAKALPHAcompanycompany 70

KALPHAKALPHAのさらなる利点のさらなる利点

ブートストラップブートストラップ (bootstrap) (bootstrap) 法による法による区間推定を行ってくれる!区間推定を行ってくれる!

統計学におけるブートストラップとは統計学におけるブートストラップとは

母集団のパラメータ母集団のパラメータ ((この場合はこの場合はα) α) をコンピュータをコンピュータ

を使って推定するノンパラメトリックな方法。数値を使って推定するノンパラメトリックな方法。数値計算を何回も繰り返しながら区間推定などを行う。計算を何回も繰り返しながら区間推定などを行う。コンピュータが乱数コンピュータが乱数 (random numbers) (random numbers) を発生さを発生さ

せ、その乱数により母集団を再現するところが見どせ、その乱数により母集団を再現するところが見どころころ ((石村・アレン石村・アレン, 1997), 1997)。。

KALPHAKALPHAでは、 低では、 低10001000回、以後回、以後10001000の倍数でいくの倍数でいくらでも増やせる。らでも増やせる。

71

KALPHAKALPHAを計算してみるを計算してみる

22人の評定者で、人の評定者で、22××22のデータであればのデータであればScott’s πScott’s πと同と同じなので、行列を使った手計算は繰り返さない。じなので、行列を使った手計算は繰り返さない。

KALPHAKALPHAは、は、SPSSSPSSややSASSASといった統計ソフトにマクロといった統計ソフトにマクロを組み込むことで、簡単に計算できる。を組み込むことで、簡単に計算できる。

SPSSSPSSでデモンストレーションでデモンストレーション

データを用意データを用意::・評定者につき・評定者につき11列、各判定につき列、各判定につき11行用意する。行用意する。

SPSSSPSSでデモンストレーションでデモンストレーション

Demonstrate!Demonstrate! 72

Page 13: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

13

確認:分析データの用意確認:分析データの用意

たったたった22列の縦長データ列の縦長データExcelExcelで用意で用意

・データ入力は数値でしておく・データ入力は数値でしておく((そうでないとそうでないとKALPHAKALPHAののsyntaxsyntaxががデータを認識しないデータを認識しない))。。もともと文字列で入力してあ たもともと文字列で入力してあ た・もともと文字列で入力してあった・もともと文字列で入力してあった場合は場合は11から始まる整数にから始まる整数に置き換える。置き換える。

・列の変数名・列の変数名 ((評定者の評定者のID) ID) はは半角の半角のa, b, c…a, b, c…とするとする ((それがそれがKALPHA KALPHA ののsyntaxsyntaxのデフォルトだからのデフォルトだから))

SPSSSPSSで作ったデータを起動で作ったデータを起動((前半と同じやり方前半と同じやり方))

73

プログラムを書いたプログラムを書いたHayesHayes氏のページでフリーで氏のページでフリーで提供されている提供されている (or Hayes & (or Hayes & KrippendorfKrippendorf, 2007), 2007)。。http://www.comm.ohiohttp://www.comm.ohio‐‐state.edu/ahayes/state.edu/ahayes/

KALPHAKALPHAののsyntaxsyntaxをダウンロードするをダウンロードする

こんなページが出てくるこんなページが出てくるこんなページが出てくる。こんなページが出てくる。下の方へどんどんスクロール下の方へどんどんスクロール

SPSSSPSS用の用のsyntaxsyntax

をクリックしてをクリックして保存する保存する

74

Syntax EditorSyntax Editorの中で指定することの中で指定すること

KALPHAKALPHAののsyntaxsyntaxを、を、自分の分析用に指定して動かす自分の分析用に指定して動かす

こんなファイルこんなファイル

①① 評定者評定者 (a, b, c…(a, b, c…どう指定してもよいが、半角でどう指定してもよいが、半角で))②② 尺度の種類尺度の種類 ((名義名義: 1, : 1, 順序順序: 2, : 2, 間隔間隔: 3, : 3, 比率比率: 4): 4)③③ 詳細詳細 ((すべての情報を出力するすべての情報を出力する: 1, : 1,  低限低限: 0): 0)④④ ブートストラップブートストラップ (( 低低10001000回、あとは回、あとは10001000のの

倍数で何回でも可倍数で何回でも可))

Demonstrate!Demonstrate!75

確認:確認:SyntaxSyntax指定指定

①こんなファイル①こんなファイルが立ち上がる。上が立ち上がる。上 ②いじるのはこの②いじるのはこの

番下 行 み番下 行 みの方は関係ないのの方は関係ないので、一番したまでで、一番したまでスクロールする。スクロールする。

一番下の行のみ。一番下の行のみ。それ以外はそれ以外は決して決していじってはいけないじってはいけない。必ずい。必ず半角半角でで

半角空き半角空き 半角空き半角空き 半角空き半角空き 半角空き半角空き

KALPHA KALPHA judges = a bjudges = a b//levellevel = 1= 1//detail = 1detail = 1//boot = 1000boot = 1000..

評定者評定者 尺度の種類尺度の種類 詳細詳細 ((出力出力)) ブートストラップブートストラップ↓↓ ↓↓ ↓↓ ↓↓

76

確認:確認:SyntaxSyntaxを走らせるを走らせる

②②KALPHAKALPHAを出したいデーを出したいデー

タエディタが一番新しタエディタが一番新しく立ち上げたファイルく立ち上げたファイルであるか確認するであるか確認する ((他の他の

①①((直接該当フォルダか直接該当フォルダか

らファイルをクリッらファイルをクリックしてもクしてもOK)OK)[[ファイルファイル]]→→[[開く開く]]→→[[シンタックスシンタックス]]を選択を選択

((SPSSSPSSデータは閉じておデータは閉じてお

いた方が確実いた方が確実))

③③[[実行実行]]→→[[すべてすべて]]を選択を選択

77

((フリーズしたかと思うくらいフリーズしたかと思うくらい))しばらくするとしばらくすると、、KALPHAKALPHAが出てくる!が出てくる!

LL95%CI; Ul95%CILL95%CI; Ul95%CILower/upper limit 95% Lower/upper limit 95% confidence intervalconfidence interval95%95%信頼区間の上限信頼区間の上限//下限下限

報告すべきこと報告すべきことα = .8575α = .85759595%信頼区間%信頼区間: : 下限下限:  .8046:  .8046上限上限:  .9064:  .9064

78

Page 14: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

14

参考:参考:Cohen’s KappaCohen’s KappaははSPSSSPSSで出せる!で出せる!

②②[[分析分析]]→→[[記述統計記述統計]]→→[[クロス表クロス表]]を選択を選択

①①KALPHAKALPHA用データと同じ用データと同じものを用意ものを用意

79

参考:参考:Cohen’s KappaCohen’s Kappaの指定の指定

④④[[統計統計]]をクリックし、をクリックし、[kappa][kappa]にチェックをにチェックを入れる入れる

③③[[行行]]とと[[列列]]に各評定に各評定者を入れる者を入れる((どちらにどちらをどちらにどちらを入れてもよい入れてもよい))

80

あっという間にあっという間にKappaKappaが出てくる!が出てくる!

κκ = .858 = .858 とあるとある

81

結局、本研究の「-結局、本研究の「-化する化する」の」の用いられ方の判断の一致度は用いられ方の判断の一致度は……

・・percent agreement measure:  .9699percent agreement measure:  .9699

・・Cohen’s kappa: .8575072949975Cohen’s kappa: .8575072949975

・・Krippendorff’sKrippendorff’s alpha: alpha: .8575 (95%CI = .8046.8575 (95%CI = .8046‐‐ .9064).9064)

論文で報告する場合は、論文で報告する場合は、小数点小数点22位または位または33位ま位まででよい。ででよい。

・信頼性係数は、単純一致率よりかなり厳密である・信頼性係数は、単純一致率よりかなり厳密であることが分かる。ことが分かる。

・今回の場合、・今回の場合、Cohen’s kappaCohen’s kappaととKalphaKalphaにはにはほとんどほとんど違いはなかった違いはなかった (SPSS(SPSSの通常の出力では、値をダブの通常の出力では、値をダブルクリックすると小数点以下がルクリックすると小数点以下が1313ケタ表示されるケタ表示されるが、が、KalphaKalphaでは小数点では小数点44位までしか出ない。そのた位までしか出ない。そのため小数点め小数点55位以下の違いはここでは検討できない位以下の違いはここでは検討できない))。。82

KALPHAKALPHAはどの程度高ければよいか?はどの程度高ければよいか?

検定における有意水準ほどの一致見解はないが検定における有意水準ほどの一致見解はないが……

KrippendorffKrippendorff (2004) (2004) によれば、によれば、

・慣例的には・慣例的には .800.800以上が求められる。以上が求められる。・暫定的に結論を出すには、 低・暫定的に結論を出すには、 低 .667.667以上。以上。

プ がデ タ全体をど 程度代表プ がデ タ全体をど 程度代表・そのサンプルがデータ全体をどの程度代表して・そのサンプルがデータ全体をどの程度代表しているかを示すために、信頼区間も報告すべきでいるかを示すために、信頼区間も報告すべきである。ある。

・・22つ以上の指標を報告するとよい。つ以上の指標を報告するとよい。

本研究では本研究では .858.858が得られたので、信頼性は確保でが得られたので、信頼性は確保で

きたとみなし、この分類に基づいてさらなる分析きたとみなし、この分類に基づいてさらなる分析を行う。を行う。 83

決定木分析決定木分析

分析データ

志向性 主要目的

探索 確認空間表現

分類因果分析

両方 ○ ○

84

Page 15: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

15

#「-化する」

の前項クラスタ

コーパス検索頻度

自動詞文 他動詞文

肯定的 否定的 肯定的 否定的1 顕在化する

自動詞優勢

437 55 343 11 28

2 多様化する 1,041 915 40 86 0

3 一般化する 356 252 55 27 22

4 複雑化する 307 13 240 4 50

5 同化する 176 121 35 17 2

6 活発化する 2,339 1,702 211 382 44

7 本格化する 3,273 2,449 205 587 32

8 国際化する 218 175 6 33 3

9 弱体化する 314 7 229 14 64

10 現実化する 203 80 75 40 7

肯定肯定//否定の判断に影響する要因否定の判断に影響する要因

①① 自動詞文自動詞文 ((受身形使用を受身形使用を

←← 自動詞文自動詞文 vsvs 他動詞文他動詞文 →→

←←

動詞の違い

動詞の違い

((

クク10 現実化する 203 80 75 40 7

11 民主化する

自他拮抗

111 85 2 24 0

12 スリム化する 186 86 1 99 0

13 具体化する 1,339 611 9 717 2

14 近代化する 137 64 9 60 4

15 活性化する 1,400 443 3 951 23

16 細分化する 329 125 56 132 15

17 組織化する 213 73 35 99 5

18 正常化する

他動詞優勢

596 171 0 425 0

19 単純化する 161 41 11 82 26

20 効率化する 143 15 0 127 1

21 明確化する 474 55 4 415 0

22 浄化する 319 75 1 237 6

23 強化する 8,034 949 108 6,810 166

①① 自動詞文自動詞文 ((受身形使用を受身形使用を含む含む) ) か他動詞文か他動詞文 ((使役形使使役形使用を含む用を含む) ) かという統語上のかという統語上の違い違い

②「-②「-化する化する」の前項の語彙」の前項の語彙による違いによる違い

先行研究からは先行研究からは22つのつの要因が要因が

考えられるが、これらがどの考えられるが、これらがどのように影響しているか。ように影響しているか。

クラスタごとに分析

クラスタごとに分析))

→→

85

なぜ決定木分析か?なぜ決定木分析か?

・カテゴリカル・データに関して、・カテゴリカル・データに関して、33要因以上要因以上のデザのデザインが設定できるインが設定できる (2(2要因であればカイ要因であればカイ22乗検定も可乗検定も可))。。

・多数の条件・多数の条件 (3(3条件以上条件以上) ) を含む要因において、有意を含む要因において、有意

差がみられたとき、どの条件とどの条件の差が有意差がみられたとき、どの条件とどの条件の差が有意であるかを検討できるであるかを検討できる ((カイカイ22乗検定でも残差分析が乗検定でも残差分析ができるが、できるが、22要因デザインに留まる要因デザインに留まる))→→多重比較多重比較

・複数の要因の影響が問題であるとき、各要因自身・複数の要因の影響が問題であるとき、各要因自身の効果の効果 ((主効果主効果) ) とともに要因間のとともに要因間の交互作用交互作用が検討でが検討できる。量的データは分散分析が適用できるが、きる。量的データは分散分析が適用できるが、33要因要因

以上の高次の交互作用の解釈は非常に煩雑になる。以上の高次の交互作用の解釈は非常に煩雑になる。しかし決定木は、その都度 適な交互作用を選択ししかし決定木は、その都度 適な交互作用を選択して木に描くので、解釈が容易である。て木に描くので、解釈が容易である。

・質的データ・質的データ ((名義・順序名義・順序))にもにも量的データにも適用量的データにも適用できる。前者はカイできる。前者はカイ22乗検定、後者は乗検定、後者はFF検定を施す。検定を施す。86

決定木のイメージ決定木のイメージ木の成長は何を意味するか?木の成長は何を意味するか?

ドド 節節 分か分か

いくつ子ノードいくつ子ノードが生まれるかにが生まれるかに多重比較の結果多重比較の結果が示されるが示される

それ以上の有意な交互作用なし

ノードノード ((節節))の分かれの分かれ目が 適な交互作用目が 適な交互作用

詳細は詳細は SPSS (2006), SPSS (2006), 玉岡玉岡 (2006)(2006)を参照を参照 87

ChChii‐‐squared squared AAutomatic utomatic IInteraction nteraction DDetectoretector ((KassKass, 1980), 1980)

SPSSSPSSのソフトでできる!のソフトでできる! ((ただし別売ただし別売))SPSS (Ver. 15) Classification Trees (SPSS, 2006)SPSS (Ver. 15) Classification Trees (SPSS, 2006)

アルゴリズムのアルゴリズムの

Gordon V. KassKass, Ph.D.Associate ProfessorSchool of Statistics & Actuarial Science,

University of the Witwatersrand, Johannesburg

アルゴリズムのアルゴリズムの開発者開発者

88

SPSSSPSSで実際に分析するで実際に分析する

ExcelExcelで分析データを用意する。で分析データを用意する。

・カテゴリカル・データの場合、各カテゴリの・カテゴリカル・データの場合、各カテゴリの「頻度」を扱う。「頻度」を扱う。→→SPSSSPSSで読み込むときに、データの「重みで読み込むときに、データの「重みづづけ」をする必要がある。け」をする必要がある。

・クラスタごとに決定木分析をする。・クラスタごとに決定木分析をする。→→SPSSSPSSで、「ケースの選択」機能を使ってフィで、「ケースの選択」機能を使ってフィ

ルタリングする。ルタリングする。

Demonstrate!Demonstrate!89

確認確認: : 分析データの準備分析データの準備

2323×× 2 2 ×× 2 2 = 92= 92行の頻度データ行の頻度データ動詞動詞 自他自他 判断判断

ExcelExcelで用意したファイで用意したファイルをルをSPSSSPSSで読み込むで読み込む

90

Page 16: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

16

確認確認: SPSS: SPSSの準備①の準備①ケースの重みづけケースの重みづけ ((頻度データに必要頻度データに必要))

②②

初は左のウィンドウにある初は左のウィンドウにある「頻度」にカーソルをあてた上「頻度」にカーソルをあてた上で、で、[[重みづけする重みづけする]]にチェックにチェックを入れ、を入れ、[[頻度変数頻度変数]]に「頻度」に「頻度」が入ったことを確認するが入ったことを確認する

①①[[データデータ]]→→[[ケースの重みづけケースの重みづけ]]をクリックをクリック

91

確認確認: SPSS: SPSSの準備②の準備②ケースの選択ケースの選択 ((クラスタごとに分析するためクラスタごとに分析するため))

②②

初は左のウィンドウにある「頻初は左のウィンドウにある「頻度」にカーソルをあてた上で度」にカーソルをあてた上で [[条件条件

①①[[データデータ]]→→[[ケースの選択ケースの選択]] 度」にカ ソルをあてた上で、度」にカ ソルをあてた上で、[[条件条件

が満たされた場合が満たされた場合]]にチェックを入れ、にチェックを入れ、[[もしもし]]をクリックをクリック

[[デ タデ タ]]→→[[ケ スの選択ケ スの選択]]をクリックをクリック

③③

初は左のウィンドウにある「クラスタ」を右初は左のウィンドウにある「クラスタ」を右のウィンドウに移し、入力パッドまたはキーのウィンドウに移し、入力パッドまたはキーボードを使ってボードを使って [[クラスタクラスタ = 1]= 1]と入力と入力 (2(2、、33と入力と入力すればクラスタすればクラスタ22やクラスタやクラスタ33だけが選択されるだけが選択される))

92

確認確認: SPSS: SPSSの決定木分析の決定木分析

①①[[分析分析]]→→[[分類分類]]→→[[ツリーツリー]]をクリックをクリック

②②[[従属変数従属変数]]は「判断」、は「判断」、[[独立変数独立変数]]は「語彙」「統語」は「語彙」「統語」[[成長方法成長方法]]はは[CHAID][CHAID]をクリックをクリック((デフォルトのままデフォルトのまま)) 93

あっという間に決定木分析のあっという間に決定木分析のできあがり!できあがり!

第第11要因は要因は語彙:動詞の違い語彙:動詞の違い

第第22要因は部分的に要因は部分的に統語上の違い統語上の違い ((自動自動詞文か他動詞文か詞文か他動詞文か))

3つのクラスタともに、語彙が第1要因で、統語上の違いはそれに次ぐ

部分的な影響 94

木をきれいに描く木をきれいに描く ((植木職人植木職人))

SPSSSPSS出力の決定木は、あまり洗練された形とはい出力の決定木は、あまり洗練された形とはいえない。えない。

ふつう論文はふつう論文はカラー印刷でカラー印刷ではないはない

フォントが自分フォントが自分の論文で用いての論文で用いているものと違ういるものと違う

Demonstrate!Demonstrate!だから自分で描き直す。だから自分で描き直す。

検定の値が検定の値が読みにくい読みにくい

何より、何より、

子ノードの並び子ノードの並び方が値の大きさ方が値の大きさの通りでないの通りでない

95

ExcelExcelで決定木を書くやり方で決定木を書くやり方 ((一案一案))

列の高さと行の長さ列の高さと行の長さを同じにして、方眼を同じにして、方眼紙のようにしておく紙のようにしておくと便利と便利

つなげて書く部つなげて書く部分は、分は、[[セルを結セルを結合合]]しておくしておく

終的に終的にセルの枠セルの枠線の表示線の表示をとるをとる

ノードは、横はノードは、横は88列、列、縦は分類数+縦は分類数+33行と行とり、太枠で囲むり、太枠で囲む

木の枝を書くとき、図形で直木の枝を書くとき、図形で直線を挿入すると垂直・水平に線を挿入すると垂直・水平に描くのが難しいので、セルの描くのが難しいので、セルの罫線を利用した方が便利罫線を利用した方が便利 ((印刷印刷

してかすれないように、太いしてかすれないように、太い罫線がよい罫線がよい))

できるだけ文字は大きめにする (論文の印刷は縮小されることが多

いから) 96

Page 17: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

17

ExcelExcelで描きなおした決定木の例で描きなおした決定木の例

子ノードの並び子ノードの並び方を比率に合わ方を比率に合わせて並べかえた。せて並べかえた。

論文には、Excelで作った

決定木を

ビットマップの画像として貼り付ける。

97

自他両用の「-自他両用の「-化する化する」が実際の文中で使われると」が実際の文中で使われるとき,肯定的変化を表すか否定的変化を表すかには何き,肯定的変化を表すか否定的変化を表すかには何が影響しているか。「-が影響しているか。「-化する化する」の前項という語彙」の前項という語彙の違いと,自動詞用法であるか他動詞用法であるかの違いと,自動詞用法であるか他動詞用法であるかという統語上の違いのという統語上の違いの22つが考えられるが,これらつが考えられるが,これらの影響の度合いはどのようであるか。の影響の度合いはどのようであるか。

RQ2RQ2RQ2RQ2 へのへの答えは答えは……

語彙の違いと統語的な違いの語彙の違いと統語的な違いの22つ要因の影響の仕方つ要因の影響の仕方

について、決定木分析を用いて分析したところ、について、決定木分析を用いて分析したところ、も大きな要因は,語彙の違いであり,それに次いで,も大きな要因は,語彙の違いであり,それに次いで,統語上の違いが部分的に影響することを示した。統統語上の違いが部分的に影響することを示した。統語上の違いが認められる場合には,田窪語上の違いが認められる場合には,田窪 (1986) (1986) の指の指

摘の通り、一貫して他動詞文のほうが,自動詞文よ摘の通り、一貫して他動詞文のほうが,自動詞文より肯定的変化を表しやすいという有意差を示した。り肯定的変化を表しやすいという有意差を示した。

AAAA

98

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20, 37‐46.

Fleiss, J. L. (1971). Measuring nominal scale among many raters. Psychological Bulletin, 76, 378‐382.

Hayes, A. F. and Krippendorff, K (2007). Answering the call for a standard reliability measure for coding data. Communication Methods and Measures, 1,77‐89. 

石村貞夫・デズモンド・アレン (1997). すぐわかる統計用語. 東京出版. Kass, G. V. (1980). An exploratory technique for investigating large quantities of 

categorical data. Journal of Applied Statistics, 29, 119‐127. Krippendorff K (2004) Content analysis: An introduction to its methodology

後半の内容に関する参考文献後半の内容に関する参考文献

Krippendorff, K. (2004). Content analysis: An introduction to its methodology. Second Edition. Thousand Oaks, CA: Sage.

中澤潤・大野木裕明・南博文 (1997). 心理学マニュアル観察法. 京都: 北大路書房.

Scott, W. (1955). Reliability of content analysis: The case of nominal scale coding. Public Opinion Quarterly, 17, 321‐325.

SPSS Inc. (2006). SPSS Classification Trees (Version 15.0) [Computer software and manual]. Chicago.

玉岡賀津雄 (2006) .「決定木」分析によるコーパス研究の可能性: 副詞と共起する接続助詞「から」「ので」「のに」の文中・文末表現を例に. 自然言語処理, 13(2), 169‐179.

Uebersax, J. S. (1987). Diversity of decision‐making models and the measurement of interrater agreement. Psychological Bulletin, 101, 140‐146.

99

役に立ちそうなサイト役に立ちそうなサイト

Klaus Krippendorffさんの信頼性についてのサイトKALPHAの算出のプロセスを詳述http://www.asc.upenn.edu/usr/krippendorff/dogs.html

Andrew F. HayesさんのSPSSマクロのサイトSPSSやSASの色々なマクロをフリーで提供http://www.comm.ohio‐state.edu/ahayes/

SlideShareパワーポイントのスライドをフリーで提供(時々有料のページへのリンクがあるので注意)http://www.slideshare.net/

100

お願いお願い

この研究はまだ投稿中ですので、引用や転載はなさらないようにお願いいたします。

ご質問・コメントは、木山までお願いいたします。

木山幸子 (KIYAMA, Sachiko)[email protected]

101 102

Page 18: 2009.2.13 - kiyamaWS reliability...2010/02/13  · 2010/3/6 1 主観的判断を含むカテゴリカル・ データの多変量解析 ーコーパス用例分類の信頼性検討と

2010/3/6

18

お疲れさまですお疲れさまですこれですべて終了ですこれですべて終了です

長時間のおつきあい、長時間のおつきあい、本当にありがとうございました。本当にありがとうございました。

103