読解支援 5 19

頻出語ではなく使用者が多い語が
自然な日本語である
荒牧英治増川佐知子宮部真衣森田瑞樹保田祥
言語処理学会第19回年次大会発表論文集pp.544 547
発表者：塩田健人
1

概要
•  どういう問題を解いたのか

o  日本語を構成する語の集合は不明確であり、自然な日本語かど
うかの明確な区切りが必要な時がある

例「腐女子」「イクメン」「DVD」

o  語の使用統計をもとにして、自然の日本語と不自然な日本語を
選別及び、辞書に載せるべき語かどうかの振り分け

•  どうやって解いたのか

1.  岩波国語辞典に収載されている語を⾃自然な⽇日本語
2.  使⽤用頻度度が⾼高い語ではなく、使⽤用者が多い語が⾃自然な⽇日本語
3.  ツイートを形態素解析して、出⼒力力された語の使⽤用者数が多いも
のが辞書に収載されるべき⾃自然な⽇日本語とする
2

分析する材料
•  データ期間
o  2009/11/03∼2010/03/25の143日間
•  総ツイート数
o  約2.5億ツイート（253,482,784ツイート）
•  ユーザー数
o  約10万人（99,964人）
•  ユーザー抽出条件
o  毎月5ツイート以上投稿していること
o  総ツイート数が5,000以上
•  形態素解析にはjuman7.0を使用
o  解析器が出力した形態素の単位を語とする
3

提案⼿手法
•  解析器が出力した語wを辞書に載せるかどうかの指標

o  freq(w)：語wの出現頻度

o  Rfreq(w)：語wの出現頻度の順位

o  user(w)：語wの使用者数

o  Ruser(w)：語wの使用者数の順位

•  ベースライン

o  出現頻度が多いものが辞書に収載されるとする

→Rfreq(w)が閾値順以内の語

•  提案手法

o  使用者数が多いものが辞書に収載されるとする

→Ruser(w)が閾値順以内の語

4

比較するベース
•  頻度ベース：Rfreq

Rfreq(w)
<
α1

•  使用者数ベース：Ruser

Rfreq(w)
<
α2

•  頻度重み付け使用者数ベース：Ruser’

-‐log(freq(w))・user(w)
<
α3

•  使用者数と頻度の比ベース：Ruser/Rfreq

Ruser(w)
/
Rfreq(w)
<
α4

（パラメータαを０∼∞に動かす）

5

評価尺度
•  出現頻度と使用者数のバランスを考える

•  Ruser(w)
=
Rfreq(w)

語の使用に個人の偏りがないとき

•  Ruser(w)
>
Rfreq(w)

限られた使用者のみが複数回使っている語があるとき

•  Ruser(w)
<
Rfreq(w)

使用者に偏りなく使われる語

•  以下の式によって辞書収載を判定することが出来る
•  Ruser(w)
=
α・Rfreq(w)

•  重み定数α
6

実験
•  対象の語

o  Wikipediaの日本語エントリーの語で、Twitter上から抽出した
2.5億ツイートからさらに無作為に選んだ4,000語

•  このうち2,598語は岩波国語辞典に収載

•  語の集計

o  語ごとに独立に集計

o  「東京大学」→「東京｜大学」「東京」「大学」

o  形態素境界が一致しない「京大」は×
7

結果
最⼤大のF値最⼤大の適合率率率
F値 Precision Recall F値 Precision Recall
Rfreq 0.804 0.716 0.916 0.062 0.890 0.003
Ruser 0.813 0.734 0.912 0.066 0.950 0.066
Ruserʼ’ 0.812 0.733 0.911 0.066 0.940 0.034
Ruser/Rfreq 0.741 0.590 0.993 0.069 0.980 0.035
10
・Ruserは安定して高い精度を保っている

・高い精度が必要な場合はRuser/Rfreq

辞書に収載されておらず、Ruser/Rfreqが低い語
11

まとめ
•  調査の限界

o  使用者バイアス

今回扱ったTwitterユーザーは30%が東京におり、20代のユーザー
が多い

o  環境バイアス

キーボード/スマートフォンの入力にはIMEの語が好まれて使われ
ている

•  応用可能性

o  特定のコミュニティで使われている語彙から学習することに
よって今までより効率的な語彙学習が可能

o  同じような語彙力を持つ使用者の特定も可能

12

まとめ
•  使用者数順位が安定して高精度（Ruser）

•  一部について

使用者数順位(Ruser)／頻度順位(Rfreq)比が高精度

•  使用者数は単語の使用頻度よりも語の辞書収載に

関して重要な要因である

13

読解支援 5 19

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (13)

Ähnlich wie 読解支援 5 19

Ähnlich wie 読解支援 5 19 (10)

読解支援 5 19