SlideShare ist ein Scribd-Unternehmen logo
1 von 13
Downloaden Sie, um offline zu lesen
頻出語ではなく使用者が多い語が
自然な日本語である
荒牧英治 増川佐知子 宮部真衣 森田瑞樹 保田祥
言語処理学会第19回年次大会発表論文集pp.544 547
発表者:塩田健人
1
概要
•  どういう問題を解いたのか	
  
o  日本語を構成する語の集合は不明確であり、自然な日本語かど
うかの明確な区切りが必要な時がある	
  
例 「腐女子」「イクメン」「DVD」	
  
o  語の使用統計をもとにして、自然の日本語と不自然な日本語を
選別及び、辞書に載せるべき語かどうかの振り分け	
  
•  どうやって解いたのか	
  
1.  岩波国語辞典に収載されている語を⾃自然な⽇日本語
2.  使⽤用頻度度が⾼高い語ではなく、使⽤用者が多い語が⾃自然な⽇日本語
3.  ツイートを形態素解析して、出⼒力力された語の使⽤用者数が多いも
のが辞書に収載されるべき⾃自然な⽇日本語とする
2
分析する材料
•  データ期間
o  2009/11/03∼2010/03/25の143日間
•  総ツイート数
o  約2.5億ツイート(253,482,784ツイート)
•  ユーザー数
o  約10万人(99,964人)
•  ユーザー抽出条件
o  毎月5ツイート以上投稿していること
o  総ツイート数が5,000以上
•  形態素解析にはjuman7.0を使用
o  解析器が出力した形態素の単位を語とする
3
提案⼿手法
•  解析器が出力した語wを辞書に載せるかどうかの指標	
  
o  freq(w):語wの出現頻度	
  
o  Rfreq(w):語wの出現頻度の順位	
  
o  user(w):語wの使用者数	
  
o  Ruser(w):語wの使用者数の順位	
  
•  ベースライン	
  
o  出現頻度が多いものが辞書に収載されるとする	
  
 →Rfreq(w)が閾値順以内の語	
  
•  提案手法	
  
o  使用者数が多いものが辞書に収載されるとする	
  
 →Ruser(w)が閾値順以内の語	
  
4
比較するベース
•  頻度ベース:Rfreq	
  
Rfreq(w)	
  <	
  α1	
  
•  使用者数ベース:Ruser	
  
Rfreq(w)	
  <	
  α2	
  
•  頻度重み付け使用者数ベース:Ruser’	
  
-­‐log(freq(w))・user(w)	
  <	
  α3	
  
•  使用者数と頻度の比ベース:Ruser/Rfreq	
  
Ruser(w)	
  /	
  Rfreq(w)	
  <	
  α4	
  
	
  
(パラメータαを0∼∞に動かす)	
  
5
評価尺度
•  出現頻度と使用者数のバランスを考える	
  
•  Ruser(w)	
  =	
  Rfreq(w)	
  
語の使用に個人の偏りがないとき	
  
	
  
•  Ruser(w)	
  >	
  Rfreq(w)	
  
限られた使用者のみが複数回使っている語があるとき	
  
•  Ruser(w)	
  <	
  Rfreq(w)	
  
使用者に偏りなく使われる語	
  
	
  
•  以下の式によって辞書収載を判定することが出来る
•  Ruser(w)	
  =	
  α・Rfreq(w)	
  
•  重み定数α
6
実験
•  対象の語	
  
o  Wikipediaの日本語エントリーの語で、Twitter上から抽出した
2.5億ツイートからさらに無作為に選んだ4,000語	
  
•  このうち2,598語は岩波国語辞典に収載	
  
•  語の集計	
  
o  語ごとに独立に集計	
  
o  「東京大学」→「東京|大学」「東京」「大学」	
  
o  形態素境界が一致しない「京大」は×
7
結果
8
結果
9
結果
最⼤大のF値 最⼤大の適合率率率
F値 Precision Recall F値 Precision Recall
Rfreq 0.804 0.716 0.916 0.062 0.890 0.003
Ruser 0.813 0.734 0.912 0.066 0.950 0.066
Ruserʼ’ 0.812 0.733 0.911 0.066 0.940 0.034
Ruser/Rfreq 0.741 0.590 0.993 0.069 0.980 0.035
10
・Ruserは安定して高い精度を保っている	
  
	
  
・高い精度が必要な場合はRuser/Rfreq
辞書に収載されておらず、Ruser/Rfreqが低い語
11
まとめ
•  調査の限界	
  
o  使用者バイアス	
  
今回扱ったTwitterユーザーは30%が東京におり、20代のユーザー
が多い	
  
o  環境バイアス	
  
キーボード/スマートフォンの入力にはIMEの語が好まれて使われ
ている	
  
•  応用可能性	
  
o  特定のコミュニティで使われている語彙から学習することに
よって今までより効率的な語彙学習が可能	
  
o  同じような語彙力を持つ使用者の特定も可能	
  
12
まとめ
•  使用者数順位が安定して高精度(Ruser)	
  
•  一部について	
  
 使用者数順位(Ruser)/頻度順位(Rfreq)比が高精度	
  
	
  
•  使用者数は単語の使用頻度よりも語の辞書収載に	
  
 関して重要な要因である	
  
13

Weitere ähnliche Inhalte

Andere mochten auch

読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目kentshioda
 
読解支援6 5
読解支援6 5読解支援6 5
読解支援6 5kentshioda
 
読解支援7 3
読解支援7 3読解支援7 3
読解支援7 3kentshioda
 
読解支援7 10
読解支援7 10読解支援7 10
読解支援7 10kentshioda
 
Naacl 読み会
Naacl 読み会Naacl 読み会
Naacl 読み会kentshioda
 
読解支援6 19
読解支援6 19読解支援6 19
読解支援6 19kentshioda
 
読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26kentshioda
 
読解支援7 17
読解支援7 17読解支援7 17
読解支援7 17kentshioda
 
読解支援 5 26
読解支援 5 26読解支援 5 26
読解支援 5 26kentshioda
 
読解支援プレゼン 4 28
読解支援プレゼン 4 28読解支援プレゼン 4 28
読解支援プレゼン 4 28kentshioda
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目kentshioda
 
読解支援_1本目
読解支援_1本目読解支援_1本目
読解支援_1本目kentshioda
 
日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースターkentshioda
 

Andere mochten auch (13)

読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目
 
読解支援6 5
読解支援6 5読解支援6 5
読解支援6 5
 
読解支援7 3
読解支援7 3読解支援7 3
読解支援7 3
 
読解支援7 10
読解支援7 10読解支援7 10
読解支援7 10
 
Naacl 読み会
Naacl 読み会Naacl 読み会
Naacl 読み会
 
読解支援6 19
読解支援6 19読解支援6 19
読解支援6 19
 
読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26
 
読解支援7 17
読解支援7 17読解支援7 17
読解支援7 17
 
読解支援 5 26
読解支援 5 26読解支援 5 26
読解支援 5 26
 
読解支援プレゼン 4 28
読解支援プレゼン 4 28読解支援プレゼン 4 28
読解支援プレゼン 4 28
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目
 
読解支援_1本目
読解支援_1本目読解支援_1本目
読解支援_1本目
 
日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター
 

Ähnlich wie 読解支援 5 19

自然言語処理概要
自然言語処理概要自然言語処理概要
自然言語処理概要ratchiratchi
 
自分の教科書をつくる読書会 ♯001『なぜ人と組織は変われないのか』 v1
自分の教科書をつくる読書会 ♯001『なぜ人と組織は変われないのか』 v1自分の教科書をつくる読書会 ♯001『なぜ人と組織は変われないのか』 v1
自分の教科書をつくる読書会 ♯001『なぜ人と組織は変われないのか』 v1Daisuke Kikuchi
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化Kodaira Tomonori
 
Let's write understandable Japanese! (Complete Version)
Let's write understandable Japanese! (Complete Version)Let's write understandable Japanese! (Complete Version)
Let's write understandable Japanese! (Complete Version)Yoshinobu Machida
 
第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語Marie Adachi
 
N3 (Moji-Goi)
N3 (Moji-Goi)N3 (Moji-Goi)
N3 (Moji-Goi)Mae
 
自分の教科書をつくる読書会 ♯002『ザプロフィット』 v1
自分の教科書をつくる読書会 ♯002『ザプロフィット』 v1自分の教科書をつくる読書会 ♯002『ザプロフィット』 v1
自分の教科書をつくる読書会 ♯002『ザプロフィット』 v1Daisuke Kikuchi
 
120817 Ondoku reading aloud
120817 Ondoku reading aloud120817 Ondoku reading aloud
120817 Ondoku reading aloudTomonari Kuroda
 
Mel20140709 12key
Mel20140709 12keyMel20140709 12key
Mel20140709 12keyyouwatari
 

Ähnlich wie 読解支援 5 19 (10)

自然言語処理概要
自然言語処理概要自然言語処理概要
自然言語処理概要
 
自分の教科書をつくる読書会 ♯001『なぜ人と組織は変われないのか』 v1
自分の教科書をつくる読書会 ♯001『なぜ人と組織は変われないのか』 v1自分の教科書をつくる読書会 ♯001『なぜ人と組織は変われないのか』 v1
自分の教科書をつくる読書会 ♯001『なぜ人と組織は変われないのか』 v1
 
DOKKAIWA Lesson 09 ws
DOKKAIWA Lesson 09 wsDOKKAIWA Lesson 09 ws
DOKKAIWA Lesson 09 ws
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化
 
Let's write understandable Japanese! (Complete Version)
Let's write understandable Japanese! (Complete Version)Let's write understandable Japanese! (Complete Version)
Let's write understandable Japanese! (Complete Version)
 
第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語
 
N3 (Moji-Goi)
N3 (Moji-Goi)N3 (Moji-Goi)
N3 (Moji-Goi)
 
自分の教科書をつくる読書会 ♯002『ザプロフィット』 v1
自分の教科書をつくる読書会 ♯002『ザプロフィット』 v1自分の教科書をつくる読書会 ♯002『ザプロフィット』 v1
自分の教科書をつくる読書会 ♯002『ザプロフィット』 v1
 
120817 Ondoku reading aloud
120817 Ondoku reading aloud120817 Ondoku reading aloud
120817 Ondoku reading aloud
 
Mel20140709 12key
Mel20140709 12keyMel20140709 12key
Mel20140709 12key
 

読解支援 5 19