3. 分析する材料
• データ期間
o 2009/11/03∼2010/03/25の143日間
• 総ツイート数
o 約2.5億ツイート(253,482,784ツイート)
• ユーザー数
o 約10万人(99,964人)
• ユーザー抽出条件
o 毎月5ツイート以上投稿していること
o 総ツイート数が5,000以上
• 形態素解析にはjuman7.0を使用
o 解析器が出力した形態素の単位を語とする
3
4. 提案⼿手法
• 解析器が出力した語wを辞書に載せるかどうかの指標
o freq(w):語wの出現頻度
o Rfreq(w):語wの出現頻度の順位
o user(w):語wの使用者数
o Ruser(w):語wの使用者数の順位
• ベースライン
o 出現頻度が多いものが辞書に収載されるとする
→Rfreq(w)が閾値順以内の語
• 提案手法
o 使用者数が多いものが辞書に収載されるとする
→Ruser(w)が閾値順以内の語
4
7. 実験
• 対象の語
o Wikipediaの日本語エントリーの語で、Twitter上から抽出した
2.5億ツイートからさらに無作為に選んだ4,000語
• このうち2,598語は岩波国語辞典に収載
• 語の集計
o 語ごとに独立に集計
o 「東京大学」→「東京|大学」「東京」「大学」
o 形態素境界が一致しない「京大」は×
7
12. まとめ
• 調査の限界
o 使用者バイアス
今回扱ったTwitterユーザーは30%が東京におり、20代のユーザー
が多い
o 環境バイアス
キーボード/スマートフォンの入力にはIMEの語が好まれて使われ
ている
• 応用可能性
o 特定のコミュニティで使われている語彙から学習することに
よって今までより効率的な語彙学習が可能
o 同じような語彙力を持つ使用者の特定も可能
12