ÝÞææ ÄÐ¿« Zt²Zo

情報処理学会研究報告IPSJ SIG Technical Report

メモリ駆動型トピック導出に向けて

野本忠司†1,a)

概要：本稿では，ウィキペディアを使った新たなトピック検出方法について述べる．基本的に辞書の逆引きの要領で，ニューステキストのトピックを導出する．しかし，この手法では辞書（ウィキペディア）に載っていない事象についてのトピックを付与することができない．このため本稿では文圧縮の技術を取り入れることで，トピックラベルの候補を柔軟に生成し，ニュース内容により近いトピックを構成することを考える．有効性を確認するため，二つのニュースコーパス（英語）を利用して実験を行い．従来手法に比べて，本手法が優れていることを確認した．

Leveraging Wikipedia to Find What the Story is About

Nomoto Tadashi†1,a)

Abstract: This paper talks about a novel approach for finding what a news story is about. Basically whatwe do consists of looking up the Wikipedia backward to identify a topic in a news story, i.e., we start withwhat amounts to be a definition, and ask Wikipedia what label matches that definition. An obvious issuewith this approach is that there is no way to get a label for an event that is not listed in Wikipedia. This isan issue we address in this paper. Our solution makes use of sentence compression to generate on the fly aset of potential labels from the label we find in Wikipedia, choosing among them those that best representthe content of the story. We ran experiments on a test data derived from the New York Times and TDTPilot Study Corpus, which found that our approach fared quite favorably compared to prior work, includingTextRank, a state of the art in this field.

1. はじめに本稿では，ニュース報道記事に対して自動的にトピックを付与する方法を考える．一般にニュースに対して任意のトピックを付与することは容易ではない．図 1は，ニューヨークタイムズの 2013年 6月から 12月にかけてオンラインで出版された記事に付与されたトピックラベルの頻度を順位付けしたものである．一見して明らかように，付与されたトピックラベルのほとんどは数回しか現れない．表 1は，ラベルの出現回数をまとめたものであるが，半年間に一回しか現れないラベルは全体の 42.3%，2回以下は62.0%，5回以下は 78.9%, 10回以下に至っては実に全体の 87.4%に及ぶ．このような低頻度ラベルが多数出現するニュースでは．自動分類が有効に機能しないことが十分に

†1 現在，国文学研究資料館・総合研究大学院大学a) [email protected]

予想される．実際， Liu ら [1]は，SVMを大規模なカテゴリーセットを使った SVMの分類実験で，明らかな精度劣化を確認したと報告している．本稿では，このような背景のもと，ウィキペディアを用いたニュース記事の教師なしトピック検出方法を検討する．従来トピック検出は様々な角度から研究されてきたが，可読性が共通の問題として 2000年代後半から，認識され始めた [2–5]．例えば，近年 LDAベースにしたトピック抽出が盛んではあるが，出力が単語のクラスターであるため，その解釈が主観的，恣意的に成らざるを得ない，という欠点を持つ．

表 1 出現数の割合Table 1 The proportion of topic labels on and under a partic-

ular frequency.

1 ≤ 2 ≤ 5 ≤ 10

42.3% 62.0% 78.9% 87.4%

1ⓒ 2015 Information Processing Society of Japan

Vol.2015-IFAT-117 No.12015/2/6


図 1 ニューヨークタイムズ（2013年）のトピックラベルの頻度順位Fig. 1 Frequencies of hand created topic labels

0 2000 4000 6000 8000

0100

200

300

400

500

600

Rank of Topic Descriptor

Frequency

図 2 ウィキペディアページの例Fig. 2 A hypothetical Wikipedia page with a corresponding

graph representation

Hong Kong

Society

Population

Hong Kong

Society

Population

図 3 依存構造木の枝狩りFig. 3 Clipping dependency structure

detention

2009ofhikers

American

byIran

C1

C2C3

2. メモリ駆動型トピック導出以下，簡単にメモリ駆動型トピック導出について説明する．基本的に入力文書 dについてそのトピックラベル候補l∗d を出力することが目的である．本提案手法では，両者を以下の関係を用いて表す．

l∗d = arg maxl:p[l]∈U

f(p[l], ~θ|N,d) (1)

ここで，U はウィキペディア，p[l]は，タイトルが lのウィキペディア・ページ，~θ|N,d は dのベクター・スペースモデル (VSM)，つまり，d = (w1, . . . , wi, . . . , wN )．但し，wi

は dに属する単語 ti の TFIDF値とする．なお，p[l]も長

図 4 名詞句の利用Fig. 4 Exploiting NP fragments

detention

2009of

hikers

American

by

Iran

さ N の VSMで表現されているとする．f は以下で定義する．

f(p[l], ~θ|N,d) = λSr(p[l], ~θ|N ) + (1 − λ)Lo(l, ~θ)

λは適当なスカラー値．後述する実験では 0.5．Sr, Loは以下で定義する．

Sr(r,q) =(

1 +N∑t

(q(t) − r(t))2)−1

(2)

Lo(l,v) =∑|l|

i I(l[i],v)| l |

− 1, (3)

但し，

I(w,v) =

{1 if w ∈ v

0 otherwise.

Sr(r,q)は VSM r及び qの類似度，Lo(l,v)はラベル lとVSM vの乖離度を表す．ここで，l[i]はラベル lの i番目の単語を示す．つまり，ラベルを構成するすべての単語が文書 vに存在すれば，Loの値は 0になる．いま，abなるラベルがあり，bが文書中に存在しない場合．Loの値は−0.5. ab いずれも存在しない場合は −1となる．平たく言えば，モデル 1の意味するところは，それがタイトルとして現れるウィキペディア・ページが入力文書と類似性が高く，かつ入力文書と乖離が少ないラベルを優先する，ということになる．ただ，モデル 1にはウィキペディアにタイトルとして現れないトピックは生成されないという大きな問題がある．つまり，モデル 1ではウィキペディアに未掲載の事象に関する報道に対して適切なトピックを付与することができないのである．例えば，「福島第一原発事故」に関する記事は，事故以前のウィキペディアを使ってトピック付与を行うと「チェルノブイリ原発事故」となる．このため，モデル 1に対して何らかの改良を行う必要がある．本稿では，以下の二つの方法で拡張を行う．(1) ウィキペディアのリディレクト・ページのタイトルを候補対象に加える．つまり，U′ = U ∪ {p[l′] | l′ ∈ RE(l), ∀p[l] ∈U}ここで， RE(l) = {j | j → l}.

(2) 文圧縮を使ってページタイトルを加工し，候補を生成する．


Vol.2015-IFAT-117 No.12015/2/6


図 5 TDP ラティスFig. 5 TDP trellis for “2009 detention of American hikers by

Iran”

detention

2009

of

hikers

American

by

Iran

detention detention

tdp tdp tdpstart end

<s> </s>

文圧縮とは，テキスト要約を文レベルで実施するもので，基本的に文法性を破壊しないよう，冗長，不要な箇所を文から取り除くことを目的とする．具体的には，ページタイトルから依存構造木を構成し，ブランチの先端を枝狩りしてタイトルの短縮（圧縮）版を生成する．これをラベル候補と考える．図 3では，‘2009 detention of American

hikers by Iran’ についてその圧縮の様子を示している．ここで，C1, C2, C3は可能は枝狩りのパスを示している．例えば，C2は，‘detention of hikers’に相当するパスを表す．本稿では，任意のタイトルについて可能な短縮版をすべて生成し，ラベルの候補に加えることを考える．つまり，U′′ = U′ ∪ {p[l′′] | l′′ ∈ T (l), ∀p[l] ∈ U}. ここで，T (l)

は，l から生成されるすべての短縮版 l の集合を表す．また，文圧縮はページタイトル中の含まれる名詞句すべてについても適用しラベル候補を抽出する．図 4 を参照．ここでは，‘2009 detention of American hikers by Iran’ では‘2009 detention ’ ‘American hikers ’ ‘Iran’が名詞句として存在する．これらがすべて圧縮の対象になる．短縮版の生成方法を概略する．本手法では依存構造木上の末端の葉からルートまでの枝をすべて取り出し（Ter-

minating Dependency Path, TDPと呼ぶ），図 5の様にラティスとして配置，その上で始点 (〈s〉)から終点 (〈/s〉)までのルート（以下，Cutting Pathまたは CPと呼ぶ）をすべて走査し，文法条件を満たしているものだけを取り出す．以下に例を示す．d1, d2, d3 は図 3の TDPを表す．これらを縦に並べると図 5ができる．

d1 = 〈20091, detention0〉d2 = 〈American3,hikers2, of1,detention0〉d3 = 〈Iran2,by1, detention0〉

以下は CPの例である．

〈s〉0 − 20091 − hikers2 − detention0 − 〈/s〉0

ここで，CPはラティス上の各コラムの要素番号の列で表される．CPは元単語列の短縮形をエンコードしている．また CPを単語列に変換するには，以下の操作を行う．任意の CP 〈k1, k2, . . . , kn〉について,

( 1 ) S =∪{d1[x ≤ k1], d2[x ≤ k2], . . . , dn[x ≤ kn]} を

図 6 文圧縮によるラベルの汎化Fig. 6 Generalizing labels with compressed NPs

構成，

( 2 ) S中の要素の重複を取り除き，元の出現順序に従って，S 中の要素を整列する．

di[x ≤ j] は i番目の TDP di 中の j 以下のインデックスを持つ要素の集合．以下を列挙すれば，ラティス中のすべての CPが得られる．

G = {〈kz1 , kz2 , . . . , kzn〉 | z1 ∈ I(d1) ∧ · · · ∧ zn ∈ I(dn)},

ここで，I(di)は TDP di中のインデックスの集合．例えば

d2 = 〈American3,hikers2, of1,detention0〉

のとき，I(d2) = {0, 1, 2, 3}である．このような操作を経て，‘2009 detention of American

hikers by Iran’ から図 6のようなラベル候補が得られる．薄茶の部分はタイトルの圧縮で得られたラベル，薄青の部分はタイトル中の名詞句を圧縮して得られたラベルである．また，圧縮操作は当該タイトルへのリディレクト・ラベルすべてについても実施される．

3. 評価実験は，2 つのコーパスを使って行う．ニューヨークタイムズ紙オンライン版（2013 年 6 月～12 月）（以下，NYT2013）とTDT パイロットスタディコーパス（1994年7月～1995年 6月）（以下，TDT-PILOT）である．記事総数は前者が 19,952，後者が 15,863 である．TDT-PILOT

のデータは，CNNとロイターの対談番組の書き起こしで構成されている．これらコーパスで重要なポイントは，トピックが人手で付与されているという点である．図 9及び8にそれぞれのデータのサンプルを掲載した，赤枠で囲んであるのが人手付与されたトピックである．例えば，図 9

では，China, Economic Conditions and Trends, Inflation

(Economics), Factories and Manufacturingなどがトピッ


Vol.2015-IFAT-117 No.12015/2/6


図 7 データのサンプル (NYT2013). 赤枠内が記事に人手付与されたトピック標識

Fig. 7 New York Times Corpus (NYT 2013)

図 8 データのサンプル (TDT-PILOT)

Fig. 8 TDT Pilot Study Corpus (TDT PILOT)

クとして示されている．評価は比較の容易さから [2]に従うことにした．ニュース記事をトピックごとに分け，クラスターを作る．評価は，出来るだけ正解トピックに近い出力をしたシステムに高い評価を与える．今回の実験では，NYT2013では 97のクラスター（クラスター当たり平均文書数：206），TDT-PILOT

では 46のクラスター（クラスター当たり平均文書数：289）を作成した．各クラスターの記事総数は少なくとも 100

を超えるようにした．ベースラインは T-Score (TSC) [6],

χ2, point-wise mutual information (PMI) [2], TextRank

(TRANK) [7]を採用した．評価尺度は ROUGE-W [8]を用いて決める．

ROUGE-Wとは，単語列同士の類似度を，共通部分文字列の最大長 (longest common subsequnce)をベースに与えるものである．クラスター単位で式 4を用いてトップ kの

図 9 表 2 のプロットFig. 9 Plot of Table 2

2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

0.30

NYT2013

TOP-K

ROUGE-W

χ2

PMITSCTRANKPED/SWKL/S

ラベル候補と正解の類似度を測る．表 4に ROUGE-Wのスコアの例を載せた．完全一致の場合，1，完全不一致の場合は 0 になる．C|k は，クラスターから出力された上位 k番目までのラベル候補の集合を表す．

S(C|k, l) =1k

∑c∈C|k

rouge-w(c, l), (4)

WKL/Sが文圧縮を導入したラベル付与，PED/Sが文圧縮を導入しない手法を表している．つまり，ラベル空間として前者は U′′ を対象とし，後者は U′ を対象にしている．なお，WKL/S, PED/S, TRANKはいずれも文書単位でラベルを付与するように設計されている．このため，実験では，クラスターに含まれる各記事に当該手法を適用した後，出力されたラベルに付随するスコア f のクラスター内総和に基づきラベルを降順に並べ，上位 k個を候補とした．他方ベースラインは，クラスター単位でラベルが出力されるため，そのスコアに従って候補を決定した．結果を表 2, 3に記す．表から明らかなように本提案手法は従来のベースラインを大幅に上回っており，効果が確認されたと言える．（TRANK が再現可能な State of the

Art．）特に文圧縮が精度の向上に大きく貢献していることも注目に値する．TDTにおいて精度の全体的に劣化が見られるが，これはデータの性質（インタビュー記事）に起因していると想像される．最後に図 11, 12, 13 に本手法の応用例であるメディアメータを紹介する．このアプリケーションでは米国のオンラインニュース*1 に対してラベル付与を行い，バーストモデル [9]を使ってトレンドになっているニューストピックを検出している．グラフは，テーマリバー (ThemeRiver)

法を用いて描画した [10]. 詳しくは，プロジェクトサイ*1 ニュースソース: CNN; MSNBC; Fox; USAToday; ABC; BBC;

Reuters.


Vol.2015-IFAT-117 No.12015/2/6


表 2 NYT2013 での結果Table 2 Models’ Performance on NYT2013 in number (ROUGE-W)

¬MBT MBT

k χ2 pmi tsc trank ped/s wkl/s

1 0.0000 0.0180 0.0945 0.1686 0.1429 0.2940

2 0.0000 0.0155 0.0643 0.1591 0.1219 0.2046

3 0.0000 0.0114 0.0476 0.1228 0.1018 0.1601

4 0.0000 0.0098 0.0435 0.1029 0.0931 0.1419

5 0.0000 0.0090 0.0388 0.0949 0.0826 0.1288

6 0.0000 0.0103 0.0364 0.0849 0.0748 0.1233

7 0.0000 0.0091 0.0347 0.0743 0.0713 0.1154

8 0.0000 0.0091 0.0325 0.0661 0.0678 0.1085

9 0.0000 0.0081 0.0314 0.0613 0.0642 0.1045

10 0.0000 0.0078 0.0293 0.0570 0.0597 0.1007

表 3 TDT-PILOT での結果Table 3 Models’ Performance on TDT PILOT in number (ROUGE-W)

¬MBT MBT

k χ2 pmi tsc trank ped/s wkl/s

1 0.0895 0.0000 0.0511 0.0885 0.0743 0.1229

2 0.0772 0.0000 0.0473 0.0724 0.0866 0.0806

3 0.0625 0.0000 0.0384 0.0622 0.0778 0.0785

4 0.0479 0.0000 0.0364 0.0549 0.0723 0.0951

5 0.0476 0.0000 0.0314 0.0456 0.0674 0.0815

6 0.0403 0.0007 0.0271 0.0406 0.0610 0.0802

7 0.0346 0.0009 0.0232 0.0367 0.0575 0.0733

8 0.0308 0.0021 0.0203 0.0321 0.0525 0.0693

9 0.0299 0.0037 0.0181 0.0285 0.0554 0.0635

10 0.0282 0.0043 0.0163 0.0265 0.0542 0.0599

図 10 表 3 のプロットFig. 10 Plot of Table 3

2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

0.30

TDT PILOT

TOP-K

ROUGE-W

χ2

PMITSCTRANKPED/SWKL/S

図 11 メディアメータ：全体イメージ（期間：2014年 7月 10日～7 月 23 日)

Fig. 11 Media Meter: Overview

ト (www.quantmedia.org/meter/demo.html) を参照されたい．

4. おわりに以上，メモリ（知識）をベースにしたトピック導出手法


Vol.2015-IFAT-117 No.12015/2/6


表 4 rouge-w の計算例Table 4 Sample runs of rouge-w(s1, s2)

s1 s2 rouge-w

The United States of America The United States of America 1The United States The United States of America 0.529States The United States of America 0.077

図 12 メディアメータ：トピックのハイライトの例 1 (サッカーW

杯)

Fig. 12 Media Meter: Focused View 1

図 13 メディアメータ：トピックのハイライトの例 2 (マレーシア航空機の撃墜)

Fig. 13 Media Meter:Focused View 2

を紹介した．実験の結果から明らかなように，従来手法を大きく上回る性能を有していることが確認できた．特に文圧縮によりラベル空間を拡張したことが，性能向上に大きく寄与していることが分かった．将来的にはウィキペディアに依らないラベル獲得方法も検討する必要があるだろう．具体的には，類似度 Srの算出に GloVe [11], word2vec [12]を導入することが考えられる．これが実現できれば，任意のコーパスから学習した単

語の分布意味表現を用いて f の計算が可能になると予想される．また応用面では，CELF [13]と組み合わせた重大トピックの事前検出（事件発生を主要メディアより早く察知する技術）などが興味深いテーマであろう．

参考文献[1] Liu, T., Yang, Y., Wan, H., Zeng, H., Chen, Z. and Ma,

W.: Support vector machines classification with a verylarge-scale taxonomy, SIGKDD Explorations, Vol. 7, p.2005 (2005).

[2] Mei, Q., Shen, X. and Zhai, C.: Automatic Labeling ofMultinomial Topic Models, Proceedings of KDD’07, pp.490–499 (2007).

[3] Syed, Z. S., Finin, T. and Joshi, A.: Wikipedia as anOntology for Describing Documents, Proceedings of theSecond International Conference on Weblogs and SocialMedia, AAAI Press, pp. 136–144 (2008).

[4] Carmel, D., Roitman, H. and Zwerding, N.: EnhancingCluster Labeling Using Wikipedia, Proceedings of SI-GIR’09, pp. 139–146 (2009).

[5] Nomoto, T.: WikiLabel: an encyclopedic approachto labeling documents en masse, Proceedings ofthe 20th ACM international conference on Informa-tion and knowledge management, CIKM ’11, NewYork, NY, USA, ACM, pp. 2341–2344 (online), DOI:10.1145/2063576.2063961 (2011).

[6] Church, K., Gale, W., Hanks, P. and Hindle, D.: UsingStatistics in Lexical Analysis, Lexical Acquisition: Ex-ploiting On-Line Resources to Build a Lexicon (Zernik,U., ed.), Lawrence Erlbaum Associates, Hillsdale, NJ(1991).

[7] Mihalcea, R. and Tarau, P.: TextRank: Bringing or-der into texts, Association for Computational Linguistics(2004).

[8] Lin, C.-Y.: ROUGE: a Package for Automatic Evalua-tion of Summaries, Proceedings of the Workshop on TextSummarization Branches Out (WAS 2004) (2004).

[9] Kleinberg, J.: Bursty and Hierarchical Structure inStreams, Proceedings of the Eighth ACM SIGKDD In-ternational Conference on Knowledge Discovery andData Mining, KDD ’02, New York, NY, USA, ACM, pp.91–101 (online), DOI: 10.1145/775047.775061 (2002).

[10] Byron, L. and Wattenberg, M.: Stacked Graphs- Geometry & Aesthetics, IEEE Transac-tions on Visualization and Computer Graph-ics, Vol. 14, No. 6, pp. 1245–1252 (online), DOI:http://doi.ieeecomputersociety.org/10.1109/TVCG.2008.166(2008).

[11] Pennington, J., Socher, R. and Manning, C.: Glove:Global Vectors for Word Representation, Proceed-


Vol.2015-IFAT-117 No.12015/2/6


ings of the 2014 Conference on Empirical Meth-ods in Natural Language Processing (EMNLP),Doha, Qatar, Association for Computational Lin-guistics, pp. 1532–1543 (online), available from〈http://www.aclweb.org/anthology/D14-1162〉 (2014).

[12] Mikolov, T., Yih, W.-t. and Zweig, G.: Linguis-tic Regularities in Continuous Space Word Repre-sentations, Proceedings of the 2013 Conference ofthe North American Chapter of the Association forComputational Linguistics: Human Language Tech-nologies, Atlanta, Georgia, Association for Computa-tional Linguistics, pp. 746–751 (online), available from〈http://www.aclweb.org/anthology/N13-1090〉 (2013).

[13] Leskovec, J., Krause, A., Guestrin, C., Faloutsos, C.,VanBriesen, J. and Glance, N.: Cost-effective Out-break Detection in Networks, Proceedings of the 13thACM SIGKDD International Conference on Knowl-edge Discovery and Data Mining, KDD ’07, NewYork, NY, USA, ACM, pp. 420–429 (online), DOI:10.1145/1281192.1281239 (2007).


Vol.2015-IFAT-117 No.12015/2/6

ÝÞææ ÄÐ¿« Zt²Zo

Documents

Transcript of ÝÞææ ÄÐ¿« Zt²Zo