Wikipedia カテゴリグラフにおける分散度を用いた...

8
DEIM Forum 2016 E6-5 Wikipedia カテゴリグラフにおける分散度を用いた 見出し語の専門度算出 伊川 洋平 鈴木 祥子 †日本アイ・ビー・エム株式会社 103-8510 東京都中央区日本橋箱崎町 19-21 E-mail: {yikawa, e30126}@jp.ibm.com あらまし 情報検索技術の発展により,ウェブ上のコンテンツを新たな知識獲得のための学習コンテンツとして 利用することが可能になった.コンテンツの専門度を算出することで,膨大な数のコンテンツから学習者のレベル に合った学習コンテンツを提示する助けとなる.本稿では, Wikipedia のカテゴリグラフにおける分散度を用いて見 出し語の専門度を算出するための手法を提案する.それと併せて,見出し語の専門度に基づき,コンテンツの専門 度を算出するための手法を示す.Wikipedia には世の中の様々なコンセプトが登録されており,Wikipedia の見出し 語の専門度を基に,多様な分野のコンテンツに対して専門度を算出できることが期待される.評価実験では,既存 手法では同程度の専門度となるような見出し語についても,実際には専門度に大きな差があり,提案手法によって それらを弁別できることを示した.また,学年ラベルが付与された学習コンテンツを用いて評価を行い,ベースラ インと比較して提案手法がより適切にコンテンツの専門度を算出できることを確認した. キーワード Wikipedia,情報検索,コンテンツ分析 1. はじめに 情報検索技術の発展により,蓄積された膨大なコン テンツの中から,特定の条件に合致するものを検索し, 素早くアクセスできるようになった.これにより,新 しい知識を獲得する“学習”を目的として,ウェブ上 の教科書や解説記事,技術文書,学術論文から,学習 対象のコンセプトについて説明しているものを発見す るための情報検索が広く行われている. 膨大な数のコンテンツから学習者のレベルに合った 学習コンテンツを提示するために,コンテンツの理解 容易度を算出する手法が重要視されている.同じコン セプトについて説明した学習コンテンツであっても, 対象としている読者が初学者か,あるいは専門家かに よって使用される語彙は大きく異なる.検索エンジン は検索クエリと関連性の高いコンテンツを検索結果と して返すが,一般に理解容易度については考慮されて いない. 本研究では,コンテンツの理解容易度のうち“専門 度”を対象とする. Gray [7] はコンテンツの理解容易 度に影響を与える要素として,内容( Content ),文体 Style ),外 観( Format ),構 成( Organization )の 4 を挙げている.このうち,本研究が対象とする“専門 度”は,内容に基づく理解容易度である. 本研究では,限られた分野において使用される語を, 専門度の高い語と定義する.使用される分野が限定さ れればされるほど,その語の専門度は高くなる.そし て,専門度の高い語がより多く含まれるコンテンツを, 専門度の高いコンテンツとする.専門度の高いコンテ ンツを理解するためには,特定の分野において限定的 に用いられる語を理解している必要があり,その分野 の専門知識が必要とされる.逆に,専門度の低いコン テンツには,一般に広く用いられている語が使用され るため,理解のために分野特有の専門知識は不要であ る.ここで定義した専門度は,コンテンツを理解する のに必要な専門知識の量と関連しており,内容に基づ く理解容易度の一つの側面であると言える. 本稿では, Wikipedia に登録されている見出し語に対 して専門度を算出し,それに基づいてコンテンツの専 門度を算出する手法を提案する. Wikipedia には世の中 の様々なコンセプトが登録され,世界各国の言語で説 明が記述されている. Wikipedia を外部知識として用い るアプローチは,適用分野や言語を限定することなく, 多様なコンテンツに対して専門度の算出が可能である. また,特定のコーパスを新たに準備する必要がなく, 手法の精度がコーパスの量や品質に左右されることが ない. 提案手法は, Wikipedia のカテゴリグラフにおける分 散度を用いて見出し語の専門度を算出する.はじめに, 対象の見出し語を引用している Wikipedia の記事集合 を特定する.そして,それらの属するカテゴリが,カ テゴリグラフにおいてどれだけ分散しているかを評価 することにより,見出し語の専門度を判定する.分散 度が高ければ,その見出し語は幅広い分野で使われて いる語であり,専門度は低いと判定される.逆に分散 度が低ければ,その見出し語は特定の分野に限定して 使われている語であり,専門度は高いと判定される. 提案手法の特徴として,既存研究において広く行わ れてきたコーパス中の語の出現頻度に基づく手法とは

Transcript of Wikipedia カテゴリグラフにおける分散度を用いた...

Page 1: Wikipedia カテゴリグラフにおける分散度を用いた …近年では,機械学習のアプローチを適用して理解容 易度を算出する研究が広く行われている.[3]はナイー

DEIM Forum 2016 E6-5

Wikipediaカテゴリグラフにおける分散度を用いた 見出し語の専門度算出 伊川 洋平† 鈴木 祥子†

†日本アイ・ビー・エム株式会社 〒103-8510 東京都中央区日本橋箱崎町 19-21 E-mail: †{yikawa, e30126}@jp.ibm.com

あらまし 情報検索技術の発展により,ウェブ上のコンテンツを新たな知識獲得のための学習コンテンツとして利用することが可能になった.コンテンツの専門度を算出することで,膨大な数のコンテンツから学習者のレベル

に合った学習コンテンツを提示する助けとなる.本稿では,Wikipediaのカテゴリグラフにおける分散度を用いて見出し語の専門度を算出するための手法を提案する.それと併せて,見出し語の専門度に基づき,コンテンツの専門

度を算出するための手法を示す.Wikipedia には世の中の様々なコンセプトが登録されており,Wikipedia の見出し語の専門度を基に,多様な分野のコンテンツに対して専門度を算出できることが期待される.評価実験では,既存

手法では同程度の専門度となるような見出し語についても,実際には専門度に大きな差があり,提案手法によって

それらを弁別できることを示した.また,学年ラベルが付与された学習コンテンツを用いて評価を行い,ベースラ

インと比較して提案手法がより適切にコンテンツの専門度を算出できることを確認した. キーワード Wikipedia,情報検索,コンテンツ分析

1. はじめに 情報検索技術の発展により,蓄積された膨大なコン

テンツの中から,特定の条件に合致するものを検索し,

素早くアクセスできるようになった.これにより,新

しい知識を獲得する“学習”を目的として,ウェブ上

の教科書や解説記事,技術文書,学術論文から,学習

対象のコンセプトについて説明しているものを発見す

るための情報検索が広く行われている. 膨大な数のコンテンツから学習者のレベルに合った

学習コンテンツを提示するために,コンテンツの理解

容易度を算出する手法が重要視されている.同じコン

セプトについて説明した学習コンテンツであっても,

対象としている読者が初学者か,あるいは専門家かに

よって使用される語彙は大きく異なる.検索エンジン

は検索クエリと関連性の高いコンテンツを検索結果と

して返すが,一般に理解容易度については考慮されて

いない. 本研究では,コンテンツの理解容易度のうち“専門

度”を対象とする.Gray ら [7]はコンテンツの理解容易度に影響を与える要素として,内容(Content),文体(Style),外観(Format),構成(Organization)の 4 つを挙げている.このうち,本研究が対象とする“専門

度”は,内容に基づく理解容易度である. 本研究では,限られた分野において使用される語を,

専門度の高い語と定義する.使用される分野が限定さ

れればされるほど,その語の専門度は高くなる.そし

て,専門度の高い語がより多く含まれるコンテンツを,

専門度の高いコンテンツとする.専門度の高いコンテ

ンツを理解するためには,特定の分野において限定的

に用いられる語を理解している必要があり,その分野

の専門知識が必要とされる.逆に,専門度の低いコン

テンツには,一般に広く用いられている語が使用され

るため,理解のために分野特有の専門知識は不要であ

る.ここで定義した専門度は,コンテンツを理解する

のに必要な専門知識の量と関連しており,内容に基づ

く理解容易度の一つの側面であると言える. 本稿では,Wikipedia に登録されている見出し語に対して専門度を算出し,それに基づいてコンテンツの専

門度を算出する手法を提案する.Wikipedia には世の中の様々なコンセプトが登録され,世界各国の言語で説

明が記述されている.Wikipedia を外部知識として用いるアプローチは,適用分野や言語を限定することなく,

多様なコンテンツに対して専門度の算出が可能である.

また,特定のコーパスを新たに準備する必要がなく,

手法の精度がコーパスの量や品質に左右されることが

ない. 提案手法は,Wikipedia のカテゴリグラフにおける分散度を用いて見出し語の専門度を算出する.はじめに,

対象の見出し語を引用している Wikipedia の記事集合を特定する.そして,それらの属するカテゴリが,カ

テゴリグラフにおいてどれだけ分散しているかを評価

することにより,見出し語の専門度を判定する.分散

度が高ければ,その見出し語は幅広い分野で使われて

いる語であり,専門度は低いと判定される.逆に分散

度が低ければ,その見出し語は特定の分野に限定して

使われている語であり,専門度は高いと判定される. 提案手法の特徴として,既存研究において広く行わ

れてきたコーパス中の語の出現頻度に基づく手法とは

Page 2: Wikipedia カテゴリグラフにおける分散度を用いた …近年では,機械学習のアプローチを適用して理解容 易度を算出する研究が広く行われている.[3]はナイー

異なる観点で語の重み付けを行う点が挙げられる.

Wikipedia は百科事典というメディアの性質上,世の中のあらゆるコンセプトを網羅することを目的としてお

り,専門的な記事が多いという特徴がある.その結果,

限定された分野でしか使用されないような語であって

も,出現頻度が高くなる傾向が見られる.そのような

ケースにおいて,提案手法によりカテゴリの分散度を

評価することで,より適切に専門度を算出できる可能

性がある. 例として,“Dice(サイコロ)”と“Binomial distribution(二項分布)”という 2 つの語に対して,Wikipedia をコーパスとして語の出現頻度に基づく語の重み付けを

行うことを考える.ここでは,Wikipedia におけるハイパーリンクによる見出し語の引用回数を,その見出し

語の出現頻度とする.すると,“Dice”の引用回数は65,“Binomial distribution”の引用回数は 181 であり,“Dice”よりも“Binomial distribution”の方が 3 倍近くも使用されやすい語であるということになるが,こ

の結果は直感に反する. 一方で,これらの語に対して提案手法を適用した結

果を図 1に示す.左は“Dice”,右は“Binomial distribution”を引用している記事が属するカテゴリをカテゴリグラ

フ上にマッピングした例である.“Dice”は一般に広く用いられる語であり,数学における確率の基礎的な説

明で用いられる他,ゲーム,映画,音楽等の幅広い分

野の記事から引用されており,カテゴリグラフにおけ

る分散度は高くなる.一方,“Binomial distribution”は一般に広く用いられている語とは言えず,確率論や統

計学などの限定された分野の記事からの引用が多いた

め,分散度は低くなる.結果として,“Dice”は専門度の低い語,“Binomial distribution”は専門度の高い語と判定される.このように,提案手法は従来の語の出現

頻度に基づく手法とは異なる観点で専門度を算出する

ことができる. また本稿では,提案手法により算出された Wikipedia見出し語の専門度を用いて,コンテンツの専門度を算

出する手法を示す.コンテンツ中に出現する見出し語

に対して,専門度と Wikipedia における引用回数に基づくフィルタリングを行い,より適切にコンテンツの

専門度が算出されるようにする. 評 価 実 験 で は , 提 案 手 法 に よ っ て 算 出 さ れ た

Wikipedia 見出し語の専門度と,コンテンツの専門度の評価を行った.見出し語の専門度の評価では,従来用

いられてきた専門度指標では同程度の専門度となるよ

うな見出し語についても,実際には専門度に大きな差

があり,提案手法によってそれらを弁別できることを

示した.また,コンテンツの専門度の評価では,学年

ラベルが付与されたテキストを用いて評価を行った.

ベースラインと比較して,提案手法により算出された

専門度は,コンテンツの学年ラベルとより強い相関を

示し,提案手法が良好な結果を示すことを確認した.

図 1. カテゴリグラフにおける分散度

2. 関連研究 コンテンツの理解容易度に関する研究は,1920 年代

に文の長さや語の出現頻度を用いた方法が発見されて

以来,これまで非常に多くの研究が行われてきた [5].伝統的な指標は,文の長さや音節数のような表層的な

特徴を用いるものと,語の出現頻度に基づくものがあ

る.代表的な指標である, Flesch Reading Ease[6],Flesch-Kincaid Grade Level[8]は,一文あたりの平均語数と,一語あたりの平均音節数に基づく指標を提案し

ている.SMOG Index[10]も表層的な情報を用いる手法で,3 音節以上の語数に基づく指標である.語の出現頻度に基づく伝統的な指標として, [4]は 3,000 語の簡単な語のリストを事前に定義しておき,このリストに

載っていない語の割合を用いた指標を提案している. 近年では,機械学習のアプローチを適用して理解容

易度を算出する研究が広く行われている.[3]はナイーブベイズ分類器,[14]は SVM を用いてコンテンツの理解容易度を算出している.これらはいずれも表層的な

特徴を用いているが,[9]では構文木を用いて文法の複雑さを考慮した手法を提案している.また, [13]は日本語のコンテンツを対象とした手法を提案している. また,コンテンツの理解容易性の指標として,内容

の一貫性( cohesion)を評価する研究も広く行われている [2][12][15].[15]はコンテンツ中に出現するコンセプトを MeSH シソーラスにマッピングして分散度を算出することで内容の一貫性を評価している.分散度の

算出方法については本研究と同じ考え方に基づいてい

るが,本研究ではコンセプトの専門度を評価する目的

で分散度を用いている点が異なる.[1]は章構成を持ったコンテンツに対して,コンセプトが順序立てて説明

されているかを評価する指標を提案している.これは,

教科書のような一定の長さを持ったコンテンツを対象

としており,読者が理解しやすいような章構成になっ

Page 3: Wikipedia カテゴリグラフにおける分散度を用いた …近年では,機械学習のアプローチを適用して理解容 易度を算出する研究が広く行われている.[3]はナイー

ているかどうかを評価するものである. 外部知識を用いて語の重み付けを行う手法として

は [11][15]がある.[15]は MeSH シソーラスにおける階層の深い語は専門度が高いとして語に重み付けを行っ

ている.[11]は Wikipedia を用いた手法で,情報検索における利用を想定している.検索クエリに対して

Wikipedia のカテゴリ構造を用いて専門分野を特定し,その専門分野の記事からの引用回数を用いて語の重み

付けを行っている.いずれも,外部知識を用いて語の

重み付けを行い,それに基づいてコンテンツの理解容

易度を算出している点で本研究と類似したアプローチ

だが,本研究では語の重み付けに Wikipedia のカテゴリグラフにおける分散度を用いる点で異なっている.

3. 提案手法 本章では,Wikipedia 見出し語の専門度を算出し,それを基にコンテンツの専門度を算出する手法について

述べる.

3.1. Wikipedia 見出し語の専門度算出 Wikipedia の記事は,見出し語とそれに対する説明文により構成されている.説明文において他の見出し語

が使われる場合は,その見出し語の記事にハイパーリ

ンクを設定する形で引用される.また,Wikipedia の記事には 1 つ以上のカテゴリが割り当てられている.カテゴリ間には親子関係が規定されており,カテゴリグ

ラフが形成されている. 提案手法は,Wikipedia 見出し語の専門度を算出する

ために,Wikipedia カテゴリグラフにおけるノード集合の分散度を用いる.この分散度が高いほど多様な分野

と関連した語であり,専門度は高いと判定される.逆

に,分散度が低いほど特定の分野に偏りのある語であ

り,専門度は低いと判定されることになる. 最初に,対象の見出し語の関連カテゴリ集合を特定

する(3.1.1 節).関連カテゴリ集合は,対象の見出し語を引用している記事が属しているカテゴリの集合と

して規定される.続いて,カテゴリグラフにおける関

連カテゴリ集合の分散度を算出し,これを専門度とす

る(3.2.2 節).

3.1.1. 関連カテゴリの特定 専門度を算出する対象の見出し語を 𝑡とする.最初に,見出し語 𝑡を引用している Wikipedia の記事の集合𝐴(𝑡)を特定する.Wikipedia の記事が見出し語 𝑡を引用しているかどうかは,記事中に含まれるハイパーリンクの

リンク先として見出し語 𝑡が含まれているかどうかを確認することで容易に特定可能である.記事中に見出

し語が含まれているにも関わらず,ハイパーリンクが

設定されていない場合もあるが,一般的に語には表記

が同じであっても意味が異なる語義曖昧性の問題があ

り,これを解決することは容易ではない.ハイパーリ

ンクであれば,見出し語 𝑡に曖昧性がある場合であっても,リンク先が見出し語 𝑡かどうかを確認するだけでよい.従って,ここでは記事中のハイパーリンクのみを

対象として,Wikipedia の記事が見出し語 𝑡を引用しているかどうかを判定することとする. 続いて,見出し語 𝑡を引用している Wikipedia の記事𝑎 ∈ 𝐴(𝑡)に対して,対応付けられているカテゴリ集合𝐶(𝑎)を特定し,関連カテゴリ集合ℭ(𝑡) = {𝐶(𝑎)|𝑎 ∈ 𝐴(𝑡)}を得る.Wikipedia の記事には,対応するカテゴリが特定のフォーマットで記載されており,𝐶(𝑎)は記事の内容から容易に特定可能である.一般に,Wikipedia の記事には複数のカテゴリが付与されており,それらは関

連性が高い順に順序付けがなされているように見える.

しかし,そこには編集者の主観が含まれ得るため,こ

こでは全てのカテゴリを同等なものとして取扱うこと

とする. 図 2 に,Wikipedia 見出し語“Hooke’s law”に対する関連カテゴリ集合の特定例を示す.Hooke’s law は

Spring,Material mechanics,Potential energy などの記事から引用されている.そしてこれらの記事は,spring,applied mechanics,potential energy のカテゴリに属しており,これが関連カテゴリ集合となる.

図 2. Wikipedia 見出し語“Hooke’s law”に対する関連カテゴリ集合の特定例

Page 4: Wikipedia カテゴリグラフにおける分散度を用いた …近年では,機械学習のアプローチを適用して理解容 易度を算出する研究が広く行われている.[3]はナイー

3.1.2. 関連カテゴリの分散度の算出 関連カテゴリ集合の分散度を算出する準備として,

Wikipedia カテゴリグラフ𝐺 = (𝐶,𝐸)を定義する.ここで,𝐶はカテゴリのノード集合,𝐸はカテゴリの親子関係を表す有向辺の集合である.Wikipedia において,親カテゴリは子カテゴリを包含するより抽象度の高いカテゴ

リとなるように親子関係が定めらており,原則として

閉路は存在しない.(実際にはごくわずかではあるが閉

路が存在する.しかし,それらは編集者のミスによる

ものであり,本来は存在すべきでないものである.)ま

た,各カテゴリは複数の親カテゴリを持つことができ

るため,𝐺は DAG(Directed Acyclic Graph,有向非巡回グラフ)とみなすことができる. 𝐺に お け る カ テ ゴ リ の 組 𝑐! , 𝑐! ∈ 𝐶に 対 す る 距 離𝑑𝑖𝑠𝑡(𝑐! , 𝑐!)は次式で定義される.

𝑑𝑖𝑠𝑡(𝑐! , 𝑐!) = 𝑑𝑖𝑠𝑡(𝑐! , 𝑙𝑐𝑎(𝑐! , 𝑐!)) + 𝑑𝑖𝑠𝑡(𝑐! , 𝑙𝑐𝑎(𝑐! , 𝑐!))

ここで,𝑙𝑐𝑎(𝑐! , 𝑐!)は𝐺における 𝑐! , 𝑐!の LCA(Last Common

Ancestor,最近共通祖先)である.これを用いて,𝐺にお け る カ テ ゴ リ 集 合 の 組 𝐶! ,𝐶! ⊆ 𝐶に 対 す る 距 離𝑑𝑖𝑠𝑡(𝐶! ,𝐶!)は次式で定義される.

𝑑𝑖𝑠𝑡(𝐶! ,𝐶!) = min!!∈!!,!!∈!!

𝑑𝑖𝑠𝑡(𝑐! , 𝑐!)

カテゴリグラフ𝐺において,関連カテゴリ集合ℭ(𝑡)の分散度𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)は以下のように算出される.

𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) =𝑑𝑖𝑠𝑡(𝐶! ,𝐶!)!"# !"" !"#$% !" (!!,!!) !" ℭ(!)

𝑁𝑢𝑚𝑏𝑒𝑟𝑂𝑓𝑃𝑎𝑖𝑟𝑠(ℭ(𝑡))

ここで,

𝑁𝑢𝑚𝑏𝑒𝑟𝑂𝑓𝑃𝑎𝑖𝑟𝑠(ℭ(𝑡)) =|ℭ(𝑡)|(|ℭ(𝑡)| − 1)

2

である.𝑁𝑢𝑚𝑏𝑒𝑟𝑂𝑓𝑃𝑎𝑖𝑟𝑠(ℭ(𝑡))は,見出し語 𝑡を引用している記事数の組合せ数であるため,場合によっては膨

大な計算時間が必要になるが,ある程度正確な値が算

出されていれば十分であり,厳密な値を求めることに

それほどの重要性はない.そこで,見出し語 𝑡を引用している記事数がある閾値 𝜃を超えた場合は,ランダムサンプリングされたℭ(𝑡)の部分集合を用いて計算時間を削減することも考えられる.

3.2. コンテンツの専門度算出 Wikipedia 見出し語の専門度を元に,コンテンツの専門度を算出する.最初に,コンテンツに出現する見出

し語を全て抽出する.これをコンセプト集合と呼ぶこ

とにする.続いて,コンテンツの専門度がより適切に

算出されるように,コンセプト集合に対してフィルタ

リングを行う(3.2.1 節).そして,このフィルタリングされたコンセプト集合を元にコンテンツの専門度を

算出する(3.2.2 節).

3.2.1. コンセプト集合のフィルタリング 専門度を算出するコンテンツ𝑑に出現する全ての見出し語の集合をコンセプト集合𝑇!(𝑑)とする.コンテンツの専門度がより適切に算出されるように,以下の 2つの指標によるフィルタリングを行う.

• 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) 専門度の高いコンテンツであっても,一定の割合で

専門度の低いコンセプト,すなわち一般語が含まれて

いる.コンテンツの専門度を算出する際には,そのコ

ンテンツ中に含まれるコンセプトから一般語をフィル

タリングして,専門度の高いコンセプトを重要視する

ことにより,コンテンツの専門度の差をより際立たせ

る効果が期待できる.

• 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) 見出し語 𝑡を引用している Wikipedia の記事数 |𝐴(𝑡)|を 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) と す る . 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) の 低 い 語 は ,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の計算において,少数のカテゴリノードのみを用いてカテゴリグラフの分散度を算出している.

このようなケースでは,引用した記事がたまたまカテ

ゴリグラフ上で離れたカテゴリに属している,または

その逆のケースがありうるため,算出された専門度の

信頼性が低いと考えられる.このようなコンセプトを

フィルタフィングすることにより,より信頼性の高い

コンテンツの専門度が得られる効果が期待される. これらの指標を用いて,コンテンツ中に出現するコ

ンセプトのフィルタリングを行う.フィルタリングの

際には,各コンテンツにおけるコンセプトの指標のパ

ーセンタイルに対して閾値を設定する.指標の値に対

して閾値を設定しない理由は,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)によるフィルタリングの際に,そのようにすることで専門度の低

いコンテンツにおいて多くの語が除外されてしまう恐

れがあるためである.𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡),𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)のパーセンタイルに対してそれぞれ閾値𝛼,𝛽を設定し,フィルタリングされたコンセプト集合 𝑇!(𝑑,𝛼,𝛽) ⊆ 𝑇!(𝑑)を得る. 𝑇!(𝑑,𝛼,𝛽) = {𝑡|𝑡 ∈ 𝑇!(𝑑)

∧ 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑒(𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡),𝑇!(𝑑)) < 𝛼∧ 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑒(𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡),𝑇!(𝑑)) > 𝛽}

𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑒(𝑓(𝑥),𝑋)は,集合𝑋における要素𝑥 ∈ 𝑋が値𝑓(𝑥)を取る時の𝑥のパーセンタイルであり,次式で定義される.

𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑒(𝑓(𝑥),𝑋) =𝑅𝑎𝑛𝑘(𝑓(𝑥))

|𝑋|×100

𝑅𝑎𝑛𝑘(𝑓(𝑥))は集合𝑋において𝑓(𝑥)の値を昇順にソートした時の𝑥の順位である.

3.2.2. コンテンツの専門度算出 フィルタリングされたコンセプト集合𝑇!(𝑑,𝛼,𝛽)を用いて,コンテンツの専門度を算出する.提案手法であ

Page 5: Wikipedia カテゴリグラフにおける分散度を用いた …近年では,機械学習のアプローチを適用して理解容 易度を算出する研究が広く行われている.[3]はナイー

る 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)に 基 づ く コ ン テ ン ツ の 専 門 度 を ,Category Dispersion Average (𝐶𝐷𝐴)と呼ぶ.𝐶𝐷𝐴はコンセプト集合の平均として定義され,次式により算出され

る.

𝐶𝐷𝐴(𝑇!(𝑑,𝛼,𝛽)) =𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)!∈!!(!,!,!)

|𝑇!(𝑑,𝛼,𝛽)|

4. 評価実験 提案手法の評価を行うために,次の 2 つの項目につ

いて評価実験を行った. (1) Wikipedia 見出し語の専門度の評価(4.1 節) 3.1節で述べた方法で算出された Wikipedia見出し語

の専門度𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)について,その特徴を評価する. (2) コンテンツの専門度の評価(4.2 節) 3.2 節で述べた方法で算出されたコンテンツの専門

度について,学年ラベルが付与された教育コンテンツ

を用いて評価を行う. 本実験では,2015 年 5 月 15 日の時点で最新の英語

版 Wikipedia のデータベースダンプを用いた.また,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の計算において,引用している記事数が多い場合にランダムサンプリングを行う閾値は𝜃 = 20とした.

4.1. Wikipedia 見出し語の専門度の評価 4.1.1. 実験の概要 提案手法により算出された 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)について,

その特徴を評価する.比較対象としては,Wikipediaにおける見出し語 𝑡の引用回数 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)を用いた.𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)は,見出し語の出現頻度そのものではないものの,出現頻度と密接に関連した指標であり,

𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)が大きくなるほど見出し語の専門度は低くなることが期待される.Wikipedia における引用回数をベースにしたアプローチは,既存研究 [11]においても採用されており,見出し語の専門度を測るための一般

的な指標であると考えられる. は じ め に , 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)と , 比 較 対 象 で あ る

𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)の 2 つの指標の間の関係性について調査する(4.1.2 節).そして,それぞれの指標において専門度が高い,あるいは低いと判断された語を確認するこ

とで,提案手法である𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)を専門度の指標としての妥当性を評価する(4.1.3 節).

4.1.2. 𝑫𝒊𝒔𝒑𝒆𝒓𝒔𝒊𝒐𝒏(𝒕)と 𝑰𝒏𝒅𝒆𝒈𝒓𝒆𝒆(𝒕)の関係性 物理学に関する 774 の Wikipedia 見出し語を対象と

して,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)と 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)の関係性を調査した.見出し語の選定については,物理学カテゴリを起点と

してサブカテゴリを探索し,物理学に関連するカテゴ

リを特定した.そして,それらのカテゴリに属する見

出し語のうち,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)が算出可能な引用回数が 2以上のものを対象とした.

図 3 に,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)と 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)の関係を示す.この図から,これらの指標の間には正の相関が認められ

るものの,相関係数は𝑅! = 0.01178であり,ほぼ独立した値を取る指標であることが分かる. ま た , こ の 図 か ら 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)が 小 さ い 時 に は

𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)のばらつきが大きいことが分かる.これは,少数のカテゴリノードのみを用いて𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) を算出しているため,安定した結果が得られていないこと

が原因であると考えられる.よって,コンテンツの専

門度を算出する際には,このような語を除外するため

に,3.2.1 節で述べたようなフィルタリングが重要であることが確認できる.

図 3. Wikipedia における引用回数 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)と提案手法𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の関係

4.1.3. 𝑫𝒊𝒔𝒑𝒆𝒓𝒔𝒊𝒐𝒏(𝒕)の妥当性評価 それぞれの指標においてどのような見出し語が専

門度の高い,あるいは低い語として特定されたかを具

体的に示すことで,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の専門度を表す指標としての妥当性を評価する.ここでは,4.1.2 節で議論した よ う に , 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の 値 が 安 定 し て い る ,𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)が 50 より大きい見出し語を対象としている. • 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)が高い見出し語 表 1 に, 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)が高い,すなわち既存の指標において専門度が低いと判断された見出し語の上位 10語を示す.いずれも物理学の高度な専門書でなくても

目にするような語である.ここで𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)が低い“ string theory(弦理論)”に着目する.“ string theory”は物理学における分野の名称だが,種々の分野の総称

である“mechanics(力学)”よりも近年に研究が発達した専門性の高い分野である.引用回数としては

“ string theory”と“mechanics”は同程度だが,引用される記事のカテゴリの分散度が大きく異なっているこ

とを示している.これらの𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)が低い語は,限られた分野の記事において言及されており,他の語と

Page 6: Wikipedia カテゴリグラフにおける分散度を用いた …近年では,機械学習のアプローチを適用して理解容 易度を算出する研究が広く行われている.[3]はナイー

比較して専門度は相対的に高いと言える.提案手法は,

このように引用回数のみからは分からない,特定のカ

テゴリの記事から偏って引用されているような見出し

語を特定することができる. • 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)が高い見出し語 表 2 に,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)が高い,すなわち提案手法により専門度が低いと判定された見出し語の上位 10 語を示す.表 1 と比較すると,物理現象に関するものが多いのが特徴的である.これらの語は,あらゆる分野の

記事において一般的な物理現象を説明する際に使われ

るため,カテゴリの分散度が高くなったと考えられる.

これらの語は,引用回数こそ多くはないが,一般に広

く用いられている語である.提案手法は,このように

引用回数は決して多くはないが,幅広い分野の記事か

ら引用されるような語を,専門度の低い語として特定

することができる. 続いて,𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)が 50 から 100 の間にある見出し

語に対して,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の値が高い,あるいは低いものを確認する.これらの見出し語は, 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)を専門度の指標とした場合,いずれも専門度が高いと判定

されるような語である.これらの語においても,

𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)によれば専門度には大きな差が存在する. • 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)と𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の両方が高い見出し語 表 3 に,引用回数が少なく,提案手法による専門度が高い見出し語の上位 10 語を示す.全体的に,素粒子物理学などの基礎研究に関連する語が中心で,高度

な専門書でなければ言及されないような語で占められ

ている.一般の読者を対象にした新聞や雑誌でこれら

の語を見かけることは極めて稀であり,専門度が高い

語であると言える. • 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)は低いが𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)が高い見出し語 表 4 に,引用回数は少ないが,提案手法による専門度が低い見出し語の上位 10 語を示す.全体的な特徴として,表 2 と同じく物理現象に関する見出し語が多く見られる.表 1 や表 2 と比較すると,一般に広く用いられているとは言い難い語も含まれるが,物理学の

高度な専門書でなくても,身の回りの物理現象を説明

するために使用され得る語である. 物理学に精通していなくても,意味を表面的に理解することは可能であ

り,少なくとも,表 3 のような語と比較した時に,相対的に専門度は低いと言える. このように, 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)を専門度の指標とした場合

に,いずれも専門度が同程度に高いと判定されるよう

な語においても,実際には専門度に差が存在している.

提案手法によって,これらの専門度をより適切に算出

できることが期待される.

表 1. Wikipedia における引用回数の多い見出し語上位 10 語

見出し語 日本語訳 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) physics 物理学 8610 6.53

particle physics

素粒子物

理学

1361 6.14

plasma プラズマ 1270 7.04

electronvolt 電子ボルト 878 6.18

electric charge

電荷 877 4.64

cosmic ray 宇宙線 866 5.99

mechanics 力学 756 7.18

aurora オーロラ 750 6.42

turbulence 乱流 682 7.72

string theory 弦理論 649 4.06

表 2. 提案手法により専門度が低いと判定された見

出し語上位 10 語 見出し語 日本語訳 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)

ablation 切除 253 7.74

turbulence 乱流 682 7.72

mechanics 力学 756 7.18

plasma プラズマ 1270 7.04

molecular physics

分子物理学 99 6.75

corona コロナ 55 6.72

physics 物理学 8610 6.53

laser ablation レーザー切除 77 6.53

scattering 散乱 369 6.47

solar flare 太陽フレア 335 6.46

表 3. Wikipedia における引用回数が 50 から 100 の

間で,提案手法により専門度が高いと判定され

た見出し語上位 10 語 見出し語 日本語訳 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)

position and momentum space

位置空間と

運動量空間

62 2.81

strangeness ストレンジ

ネス

68 3.18

barn (unit) バーン(単位) 83 3.33

kaluza-klein theory

カルツァ=ク

ライン理論80 3.61

isospin アイソスピン 94 3.65

qcd matter QCD 物質 56 3.65

chirality (physics)

カイラリティ 73 3.88

debye length デバイの長さ 61 4.10baryon number バリオン数 74 4.14

gauge boson ゲージ粒子 81 4.19

Page 7: Wikipedia カテゴリグラフにおける分散度を用いた …近年では,機械学習のアプローチを適用して理解容 易度を算出する研究が広く行われている.[3]はナイー

表 4. Wikipedia における引用回数が 50 から 100 の間で,提案手法により専門度が低いと判定され

た見出し語上位 10 語 見出し語 日本語訳 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)

molecular physics

分子物理学 99 6.75

corona コロナ 55 6.72

laser ablation レーザー切除 77 6.53

ultra-high-energy cosmic ray

超高エネル

ギー宇宙線

51 6.41

wake turbulence

後方乱気流 72 6.39

clear-air turbulence

晴天乱気流 54 6.38

astrophysical jet

宇宙ジェット 90 6.34

synchrotron light source

放射光 62 6.20

power density

電力密度 86 6.18

electric discharge

放電 71 5.88

4.2. コンテンツの専門度の評価 4.2.1. 実験の概要 提案手法により,コンテンツの専門度が他の指標と

比較してより適切に算出されるかを評価する.本研究

では,より客観的な評価を行うために,中学校と高等

学校の数学の学習コンテンツを用いた.コンテンツに

は学年ラベルが付与されており,これを専門度の目安

として評価を行う. ここで,学年ラベルはコンテンツの専門度をある程

度表しているとはいえ,あくまで目安であることに注

意する.その理由は,同じ学年のコンテンツであって

も,基礎から応用的な内容が混在しており,必ずしも

学年ラベルが専門度を正確に表しているとは限らない

ためである.また,科目が数学に限定されているとは

いえ,その中にも解析学,代数学,幾何学など複数の

分野が存在しており,異なる分野間では専門度を一元

的に比較することは難しい.例えば,人手により三平

方の定理と正弦定理についての学習コンテンツの専門

度を比較する場合に,多くの人が正弦定理の専門度の

方が高いと判断する一方で,三平方の定理と順列組合

せの比較については,判断が分かれることが予想され

る.以上の理由により,コンテンツの学年ラベルを用

いた評価は,複数の指標間の相対評価を目的として実

施するものであり,学年ラベル当ての精度を評価する

ためではない. 評価用の学習コンテンツは,米国において作成され

た数学のテキストで,学年ラベルは 6 から 12 の 7 段階が付与されており,これらはおおよそ日本における中

学校と高等学校に相当する.評価に使用したコンテン

ツ数は104である. 提案手法については,コンセプト集合のフィルタリ

ングを行わない𝐶𝐷𝐴(𝑇!(𝑑))と,フィルタリングを行った𝐶𝐷𝐴(𝑇!(𝑑,𝛼,𝛽))について評価を行った.また,フィルタリングのためのパラメータは,予備実験により,

𝛼 = 40,𝛽 = 10としている.比較対象のベースラインの指標としては,Concept Density (𝐶𝐷),Concept In-degree Average (𝐶𝐼𝐴)を用いた.

𝐶𝐷(𝑑) =|𝑇(𝑑)|

𝑊𝑜𝑟𝑑𝐶𝑜𝑢𝑛𝑡(𝑑)

𝐶𝐼𝐴(𝑇!(𝑑)) =𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)!∈!!(!)

|𝑇!(𝑑)|

𝐶𝐷は語の専門度を考慮しなかった場合,𝐶𝐼𝐴は語の専門度に 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)を用いた場合に相当する.コンテンツに対してこれらの指標を算出し,学年ラベルと各指

標の間のスピアマンの順位相関係数による評価を行う.

4.2.2. 結果 表 5 に各指標によるコンテンツの専門度と学年ラベルとの相関を表すスピアマンの順位相関係数を示す.

提案手法の相関係数は負の値を取っているのは,

𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)と専門度が負の相関関係にあるためであり,意図した通りの結果である.一方, 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)をベースにした指標𝐶𝐼𝐴(𝑇!(𝑑))についても,専門度と負の相関になると期待していたが,実際には相関係数は正

の値となった.また,提案手法においては,コンセプ

トのフィルタフィングを行うことで相関度合いが向上

し,フィルタリングの有効性が確認された. 表 5. コンテンツの専門度指標と学年ラベルの相関

コンテンツの専門度指標 スピアマンの 順位相関係数

𝐶𝐷(𝑑) 0.146 𝐶𝐼𝐴(𝑇!(𝑑)) 0.319 𝐶𝐷𝐴(𝑇!(𝑑))(提案手法) −0.531 𝐶𝐷𝐴(𝑇!(𝑑,𝛼,𝛽))(提案手法) −0.584

5. おわりに 本稿では,Wikipedia カテゴリグラフにおける分散度

を用いた見出し語の専門度算出手法を提案した.それ

と併せて,見出し語の専門度に基づきコンテンツの専

門度を算出する手法を示した.評価実験では,提案手

法によって算出された Wikipedia見出し語の専門度と,コンテンツの専門度の評価を行った.見出し語の専門

度の評価では,従来用いられてきた専門度指標では同

程度の専門度となるような見出し語についても,実際

には専門度に大きな差があり,提案手法によってそれ

らを弁別できることを示した.コンテンツの専門度の

評価では,学年ラベルが付与された数学のテキストを

用いた評価を行い,提案手法により算出された専門度

Page 8: Wikipedia カテゴリグラフにおける分散度を用いた …近年では,機械学習のアプローチを適用して理解容 易度を算出する研究が広く行われている.[3]はナイー

は,ベースラインと比較してコンテンツの学年ラベル

とより強い相関を示すことを確認した. 今後の課題としては,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)と他の指標を組み

合わせることで,より適切に専門度が算出できるよう

にすることが挙げられる.本稿において比較対象とし

た 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)は,提案手法とは異なる観点での語に対する重み付けであり,組み合わせの有力な候補である.

また,評価実験について,ユーザーによる主観評価も

併せて検討していく必要があると考える.

参 考 文 献 [1] R. Agrawal, S. C h a k r a b o r t y , S . G o l l a p u d i , A .

K a n n a n , a n d K . K e n t h a p a d i . "Empowering authors to diagnose comprehension burden in textbooks." Proceedings of SIGKDD , 2012.

[2] R. Barzilay and M. Lapata. “Modeling local coherence: An entity-based approach.” Computational Linguistics, 34(1):1–34, 2008.

[3] K. Collins‐Thompson, and J. Callan. " A L a n g u a g e M o d e l i n g A p p r o a c h t o P r e d i c t i n g R e a d i n g D i f f i c u l t y . " Proceedings o f N A A C L - H L T , 2 0 0 4 .

[4] E. Dale, and J.S. Chall. "A formula for predicting readability." Educational research bulletin, 1948.

[5] W.H. DuBay. "The Principles of Readability." Impact Information, 2004.

[ 6 ] R . F l e s c h . " A n e w r e a d a b i l i t y y a r d s t i c k . " J o u r n a l o f A p p l i e d P s y c h o l o g y 3 2 , 1 9 4 8 .

[7] W.S. Gray, and B.E. Leary. "What makes a book readable." Chicago University Press, 1935.

[8] J.P. Kincaid, R.P. F i s h b u r n e , R . L . R o g e r s , a n d B . S . C h i s s o m . “Derivation of new readability formulas.” Technical Report, Naval Technical Training, 1975.

[9] M.J. Heilman, K. Collins‐Thompson, J. Callan, and M. Eskenazi. "Combining lexical and grammatical features to improve readability measures for first and second language texts." Proceedings of NAACL-HLT, 2007.

[10] G.H. McLaughlin. "SMOG grading: A new readability formula." Journal of reading 12.8, 1969.

[11] M. Nakatani, A. Jatowt, and K. Tanaka. "Easiest-first search: towards comprehension-based web search." Proceedings of CIKM , 2009.

[12] E. Pitler, and A. Nenkova. "Revisiting readability: A unified framework for predicting text quality." Proceedings of EMNLP, 2008.

[13] S. Sato, S. Matsuyoshi, and Y. Kondoh. "Automatic Assessment of Japanese Text Readability Based on a Textbook Corpus." Proceedings of LREC , 2008.

[14] S.E. Schwarm, and M. Ostendorf. "Reading level assessment using support vector machines and statistical language models." Proceedings of ACL, 2005.

[15] X. Yan, D. Song, and X. Li. "Concept-based document readability in domain specific information retrieval." Proceedings of CIKM , 2006.