Arai m

2011年度複合情報学専攻
修士論文発表会

Twitterに基づく社会動向調査に
向けたユーザプロファイルの推定
Estimation of User Profile for
General Social Survey based on Twitter

北海道大学大学院情報科学研究科複合情報学専攻
複雑系工学講座調和系工学研究室
修士2年新井雅也

本研究の概要
・低コストで頻繁に調査可能 Twitterによる
動向調査・変動を抽出しやすい動向調査
課題
男性
ユーザプロファイルユーザプロファイルの獲得
・性別：男性・女性
提案手法
・居住地域：札幌・大阪…
女性・年齢： 10代, 20代… ツイートからキーワードの抽出
・職業：サラリーマン・学生…
・趣味：旅行・ピアノ…
・学歴：高卒・大卒…
プロファイルの推定

評価実験
5万人分の性別 2値 85%以上
プロファイル居住地域 10都市 80%以上

社会動向調査におけるユーザプロファイルの重要性
社会動向調査ユーザプロファイル
gooリサーチ・居住地域：札幌・大阪…
楽天リサーチなど・年齢： 10代, 20代…
例）生涯学習活動や文化・
スポーツ活動を充実させる・趣味：旅行・ピアノ…
ために必要なこと・学歴：高卒・大卒…

Twitterにおける社会調査の既存研究と利点
Twitterにおける既存の研究
環境
あるユーザの発言教育
心理テストにおけるスコアの推移工業平均株価の推移グラフ
株政治
スコア金融
価

時刻時刻
tf・idfによる会社
重み付け旅行
ほぼ一致自然
Twitter 映画

時刻

ストリーム上の発言を用いた株式市場の予測 Twitterに基づくユーザのモデル化
[J.Bollen et al, 2009] [K.Tao et al, 2011]

トレンド分析にとどまっており、
ユーザプロファイルの推定に関する研究は1件のみ

本研究の目的

ユーザプロファイルを推定するためのアルゴリズムを構築

Twitter内から直接取得可能な
ユーザプロファイルの割合

本研究で収集できたTwitterユーザ約173万人のうち、ロケーション
データとユーザ説明文で性別と居住地域を判断できるユーザ数

居住地域の内訳
東京
性別の内訳大阪
埼玉
横浜
不明京都
男性千葉
福岡
98.2% 女性 61.1% 名古屋
札幌
その他市町村
不明
全体のわずか
1.8% 全体の39.9%

不明ユーザのプロファイルを推定することが重要

ツイート内容に基づく
ユーザプロファイルの推定
ロケーション
データ
ユーザ説明文
WebURL
ツイート数
フォロー数
Twitterで得られる文章の構造が曖昧
フォロワー数 →従来のテキストマイニング手法が適切に利用できない
R.Feldman , J.Sanger, 辻井潤一, IBM東京基礎研究所：テキストマイニングハンドブックより
ツイート内容
ツイート時刻キーワードを用いたアプローチ

コーパスに基づいた文書内に現れる特徴の分類 [G.Laboreiro et al, 2010]
関連研究
キーワードを利用したツイート内の感情表現抽出と曖昧な表現の解消 [S.Brody et al, 2011]

ユーザプロファイル推定に関する関連研究

TwitterにおけるSVMを用いたプロファイルの推定 [D.Rao et al, 2010]

ベイズの定理を用いたキーワードの抽出
札幌にある
フリースペース

居住地域「札幌」に対する名詞「ATTIC」の重み：事後確率で定義

ベイズの定理より算出

P札幌 P ATTIC | 札幌
P札幌 | ATTIC  
 P j  P ATTIC | j 
j{札幌,東京,}

P札幌 
札幌に居住しているユーザのツイート総数
全ユーザのツイート総数

P ATTIC | 札幌  全地域に居住しているユーザのツイートに出現する「ATTIC」の数
札幌に居住しているユーザのツイートに出現する「ATTIC」の数

出現する全ての名詞に対し重みを計算し、高いものから順にキーワードとして抽出

ベイズの定理から算出された
性別と居住地域に対するキーワードとその重み
利用するデータ性別が男性であるユーザ性別が女性であるユーザ
ツイート収集期間キーワード重みキーワード重み
2011/6 – 2012/1 俺 0.836 旦那 0.973
一人当たりのツイート数バイク 0.710 あたし 0.896
3200ツイート
お前 0.634 肌 0.861
性別：対象ユーザ数
ギター 0.634 赤ちゃん 0.853
1000人 (500 × 2)
居住地域：対象ユーザ数
サッカー 0.629 化粧 0.827
5000人（500 × 10) ぼく 0.625 ランチ 0.787

札幌に居住しているユーザ東京に居住しているユーザ千葉に居住しているユーザ
キーワード重みキーワード重みキーワード重み
OYOYO 0.981 玉川 0.641 千葉大学 0.887
ATTIC 0.972 shibuya 0.627 稲毛海岸 0.885
ノースウェーブ 0.914 板橋 0.609 chiba 0.860
丘珠 0.903 早稲田大学 0.601 花見川 0.841
コアックマ 0.896 西新井 0.519 稲毛 0.838
サンピアザ 0.887 武蔵境 0.517 印西 0.827

キーワードを考慮した
ユーザプロファイルの推定手法 (1/2)
札幌に居住しているユーザの東京に居住しているユーザの千葉に居住しているユーザの
キーワード群キーワード群キーワード群
キーワードキーワードキーワード
OYOYO 玉川千葉大学
ATTIC shibuya 稲毛海岸
ノースウェーブ板橋 chiba
丘珠早稲田大学花見川
コアックマ西新井稲毛
サンピアザ武蔵境印西

ユーザの特徴ベクトルの定義 K  wOYOYO , wATTIC , w玉川,

「OYOYO」の出現回数
札幌に居住しているユーザ
全キーワードの出現回数

K g1  0.6, 0.5, 0.03, 推定対象となるユーザ

Ku1  0.4, 0.3, 0.01,

キーワードを考慮した
ユーザプロファイルの推定手法 (2/2)
札幌に居住しているユーザ
推定対象となるユーザ

K g1  0.6, 0.5, 0.03, Ku1  0.4, 0.3, 0.01,

m

w  wkl g j
 
k l ui

東京に居住しているユーザ SIM K ui , K g j  l 1
m m

w
l 1
2
k l ui  wkl g j
2

l 1

K g 2  0.1, 0.15, 0.5,
・コサイン距離を用いて類似度を算出
・類似度が一番大きいものをプロファイル
として推定

実験設定と評価方法
推定対象とするプロファイル対象ユーザ数：6000人
対象ツイート数：1920万ツイート東京
大阪
性別性別の内訳居住地域の内訳埼玉
横浜
男女の推定不明京都
千葉
男性
福岡
居住地域女性名古屋
札幌
東京・大阪・千葉・埼玉・横浜・ 1.8％その他市町村
福岡・名古屋・京都・札幌・仙台の推定 39.9％
不明

・各プロファイルの種別ごとにユーザを500名ずつ収集
・クロスバリデーション（100名1単位で訓練300名・テスト200名）を用いて、C2  10通り
5

評価方法

再現率（recall）
2  precision  recall
どれだけ正しく推定できたか F
適合率（precision） precision  recall
どれだけ正解を網羅できたか

実験結果.1 性別の推定について
正しく推定できる割合が高い

平均して200人中6人程度の誤推定におさまる

適合率再現率
男性女性男性女性

平均 94.5% 81.7% 78.6% 95.5%

標準偏差 1.7% 2.0% 2.6% 1.5%
F値男性： 0.858 女性： 0.881

男性・女性共に85%以上の精度

実験結果.2 居住地域の推定について
平均値 1
東京標準偏差東京
仙台大阪 0.05
仙台大阪
0.5
札幌千葉 0.025
札幌千葉
0
0
京都埼玉
京都埼玉

名古屋横浜
名古屋横浜
福岡東京に関してのみ適合率
福岡
F値東京精度が低い再現率
1
仙台大阪
0.5
札幌千葉東京を除く都市の
0 推定精度は平均80%以上
京都埼玉

名古屋横浜
福岡
F値

居住地域に推定における考察
札幌に居住しているユーザ東京に居住しているユーザ
キーワード重みキーワード重み
1 OYOYO 0.981 1 玉川 0.641
2 ATTIC 0.972 2 shibuya 0.627
3 ノースウェーブ 0.914 3 板橋 0.609
4 丘珠 0.903 4 早稲田大学 0.601
5 コアックマ 0.896 5 西新井 0.519
6 サンピアザ 0.887 6 武蔵境 0.517

東京を特徴付けるキーワードは
全体的に重みが低い

本研究のまとめ
・低コストで頻繁に調査可能 Twitterによる
動向調査・変動を抽出しやすい動向調査
課題
男性
ユーザプロファイルユーザプロファイルの獲得
提案手法を用いて・居住地域：札幌・大阪… 提案手法
推定可能・年齢： 10代, 20代…
女性ツイートからキーワードの抽出
・趣味：旅行・ピアノ…
・学歴：高卒・大卒…
プロファイルの推定

今後の課題評価実験
5万人分の性別 2値 85%以上
プロファイル居住地域 10都市 80%以上

Arai m

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (6)

Mehr von harmonylab

Mehr von harmonylab (20)

Arai m