Arai m1. 2011年度 複合情報学専攻
修士論文発表会
Twitterに基づく社会動向調査に
向けたユーザプロファイルの推定
Estimation of User Profile for
General Social Survey based on Twitter
北海道大学 大学院情報科学研究科 複合情報学専攻
複雑系工学講座 調和系工学研究室
修士2年 新井 雅也
2. 本研究の概要
・低コストで頻繁に調査可能 Twitterによる
動向調査 ・変動を抽出しやすい 動向調査
課題
男性
ユーザプロファイル ユーザプロファイルの獲得
・性別: 男性・女性
提案手法
・居住地域: 札幌・大阪…
女性 ・年齢: 10代, 20代… ツイートからキーワードの抽出
・職業: サラリーマン・学生…
・趣味: 旅行・ピアノ…
・学歴: 高卒・大卒…
プロファイルの推定
評価実験
5万人分の 性別 2値 85%以上
プロファイル 居住地域 10都市 80%以上
3. 社会動向調査におけるユーザプロファイルの重要性
社会動向調査 ユーザプロファイル
・性別: 男性・女性
gooリサーチ ・居住地域: 札幌・大阪…
楽天リサーチなど ・年齢: 10代, 20代…
例) 生涯学習活動や文化・
・職業: サラリーマン・学生…
スポーツ活動を充実させる ・趣味: 旅行・ピアノ…
ために必要なこと ・学歴: 高卒・大卒…
4. Twitterにおける社会調査の既存研究と利点
Twitterにおける既存の 研 究
環境
あるユーザの発言 教育
心理テストにおけるスコアの推移 工業平均株価の推移グラフ
株 政治
スコア 金融
価
時刻 時刻
tf・idfによる 会社
重み付け 旅行
ほぼ一致 自然
Twitter 映画
時刻
ストリーム上の発言を用いた株式市場の予測 Twitterに基づくユーザのモデル化
[J.Bollen et al, 2009] [K.Tao et al, 2011]
トレンド分析にとどまっており、
ユーザプロファイルの推定に関する研究は1件のみ
本研究の目的
ユーザプロファイルを推定するためのアルゴリズムを構築
5. Twitter内から直接取得可能な
ユーザプロファイルの割合
本研究で収集できたTwitterユーザ約173万人のうち、ロケーション
データとユーザ説明文で性別と居住地域を判断できるユーザ数
居住地域の内訳
東京
性別の内訳 大阪
埼玉
横浜
不明 京都
男性 千葉
福岡
98.2% 女性 61.1% 名古屋
札幌
その他市町村
不明
全体のわずか
1.8% 全体の39.9%
不明ユーザのプロファイルを推定することが重要
6. ツイート内容に基づく
ユーザプロファイルの推定
ロケーション
データ
ユーザ説明文
WebURL
ツイート数
フォロー数
Twitterで得られる文章の構造が曖昧
フォロワー数 →従来のテキストマイニング手法が適切に利用できない
R.Feldman , J.Sanger, 辻井潤一, IBM東京基礎研究所: テキストマイニングハンドブックより
ツイート内容
ツイート時刻 キーワードを用いたアプローチ
コーパスに基づいた文書内に現れる特徴の分類 [G.Laboreiro et al, 2010]
関連研究
キーワードを利用したツイート内の感情表現抽出と曖昧な表現の解消 [S.Brody et al, 2011]
ユーザプロファイル推定に関する関連研究
TwitterにおけるSVMを用いたプロファイルの推定 [D.Rao et al, 2010]
7. ベイズの定理を用いたキーワードの抽出
札幌にある
フリースペース
居住地域「札幌」に対する名詞「ATTIC」の重み: 事後確率で定義
ベイズの定理より算出
P札幌 P ATTIC | 札幌
P札幌 | ATTIC
P j P ATTIC | j
j{札 幌,東 京,}
P札幌
札幌に居住しているユーザのツイート総数
全ユーザのツイート総数
P ATTIC | 札幌 全地域に居住しているユーザのツイートに出現する「ATTIC」の数
札幌に居住しているユーザのツイートに出現する「ATTIC」の数
出現する全ての名詞に対し重みを計算し、高いものから順にキーワードとして抽出
8. ベイズの定理から算出された
性別と居住地域に対するキーワードとその重み
利用するデータ 性別が男性であるユーザ 性別が女性であるユーザ
ツイート収集期間 キーワード 重み キーワード 重み
2011/6 – 2012/1 俺 0.836 旦那 0.973
一人当たりのツイート数 バイク 0.710 あたし 0.896
3200ツイート
お前 0.634 肌 0.861
性別:対象ユーザ数
ギター 0.634 赤ちゃん 0.853
1000人 (500 × 2)
居住地域:対象ユーザ数
サッカー 0.629 化粧 0.827
5000人 (500 × 10) ぼく 0.625 ランチ 0.787
札幌に居住しているユーザ 東京に居住しているユーザ 千葉に居住しているユーザ
キーワード 重み キーワード 重み キーワード 重み
OYOYO 0.981 玉川 0.641 千葉大学 0.887
ATTIC 0.972 shibuya 0.627 稲毛海岸 0.885
ノースウェーブ 0.914 板橋 0.609 chiba 0.860
丘珠 0.903 早稲田大学 0.601 花見川 0.841
コアックマ 0.896 西新井 0.519 稲毛 0.838
サンピアザ 0.887 武蔵境 0.517 印西 0.827
9. キーワードを考慮した
ユーザプロファイルの推定手法 (1/2)
札幌に居住しているユーザの 東京に居住しているユーザの 千葉に居住しているユーザの
キーワード群 キーワード群 キーワード群
キーワード キーワード キーワード
OYOYO 玉川 千葉大学
ATTIC shibuya 稲毛海岸
ノースウェーブ 板橋 chiba
丘珠 早稲田大学 花見川
コアックマ 西新井 稲毛
サンピアザ 武蔵境 印西
ユーザの特徴ベクトルの定義 K wOYOYO , wATTIC , w玉川,
「OYOYO」の出現回数
札幌に居住しているユーザ
全キーワードの出現回数
K g1 0.6, 0.5, 0.03, 推定対象となるユーザ
Ku1 0.4, 0.3, 0.01,
10. キーワードを考慮した
ユーザプロファイルの推定手法 (2/2)
札幌に居住しているユーザ
推定対象となるユーザ
K g1 0.6, 0.5, 0.03, Ku1 0.4, 0.3, 0.01,
m
w wkl g j
k l ui
東京に居住しているユーザ SIM K ui , K g j l 1
m m
w
l 1
2
k l ui wkl g j
2
l 1
K g 2 0.1, 0.15, 0.5,
・コサイン距離を用いて類似度を算出
・類似度が一番大きいものをプロファイル
として推定
11. 実験設定と評価方法
推定対象とするプロファイル 対象ユーザ数:6000人
対象ツイート数:1920万ツイート 東京
大阪
性別 性別の内訳 居住地域の内訳 埼玉
横浜
男女の推定 不明 京都
千葉
男性
福岡
居住地域 女性 名古屋
札幌
東京・大阪・千葉・埼玉・横浜・ 1.8% その他市町村
福岡・名古屋・京都・札幌・仙台の推定 39.9%
不明
・各プロファイルの種別ごとにユーザを500名ずつ収集
・クロスバリデーション(100名1単位で訓練300名・テスト200名)を用いて、C2 10通り
5
評価方法
再現率(recall)
2 precision recall
どれだけ正しく推定できたか F
適合率(precision) precision recall
どれだけ正解を網羅できたか
12. 実験結果.1 性別の推定について
正しく推定できる割合が高い
平均して200人中6人程度の誤推定におさまる
適合率 再現率
男性 女性 男性 女性
平均 94.5% 81.7% 78.6% 95.5%
標準偏差 1.7% 2.0% 2.6% 1.5%
F値 男性: 0.858 女性: 0.881
男性・女性共に85%以上の精度
13. 実験結果.2 居住地域の推定について
平均値 1
東京 標準偏差 東京
仙台 大阪 0.05
仙台 大阪
0.5
札幌 千葉 0.025
札幌 千葉
0
0
京都 埼玉
京都 埼玉
名古屋 横浜
名古屋 横浜
福岡 東京に関してのみ 適合率
福岡
F値 東京 精度が低い 再現率
1
仙台 大阪
0.5
札幌 千葉 東京を除く都市の
0 推定精度は平均80%以上
京都 埼玉
名古屋 横浜
福岡
F値
14. 居住地域に推定における考察
札幌に居住しているユーザ 東京に居住しているユーザ
キーワード 重み キーワード 重み
1 OYOYO 0.981 1 玉川 0.641
2 ATTIC 0.972 2 shibuya 0.627
3 ノースウェーブ 0.914 3 板橋 0.609
4 丘珠 0.903 4 早稲田大学 0.601
5 コアックマ 0.896 5 西新井 0.519
6 サンピアザ 0.887 6 武蔵境 0.517
東京を特徴付けるキーワードは
全体的に重みが低い
15. 本研究のまとめ
・低コストで頻繁に調査可能 Twitterによる
動向調査 ・変動を抽出しやすい 動向調査
課題
男性
ユーザプロファイル ユーザプロファイルの獲得
・性別: 男性・女性
提案手法を用いて ・居住地域: 札幌・大阪… 提案手法
推定可能 ・年齢: 10代, 20代…
女性 ツイートからキーワードの抽出
・職業: サラリーマン・学生…
・趣味: 旅行・ピアノ…
・学歴: 高卒・大卒…
プロファイルの推定
今後の課題 評価実験
5万人分の 性別 2値 85%以上
プロファイル 居住地域 10都市 80%以上