SlideShare ist ein Scribd-Unternehmen logo
1 von 15
Downloaden Sie, um offline zu lesen
2011年度 複合情報学専攻
    修士論文発表会




    Twitterに基づく社会動向調査に
    向けたユーザプロファイルの推定
          Estimation of User Profile for
      General Social Survey based on Twitter



     北海道大学 大学院情報科学研究科 複合情報学専攻
         複雑系工学講座 調和系工学研究室
            修士2年 新井 雅也
本研究の概要
         ・低コストで頻繁に調査可能                 Twitterによる
 動向調査    ・変動を抽出しやすい                      動向調査
                                 課題
男性
          ユーザプロファイル              ユーザプロファイルの獲得
         ・性別: 男性・女性
                             提案手法
         ・居住地域: 札幌・大阪…
女性       ・年齢: 10代, 20代…          ツイートからキーワードの抽出
         ・職業: サラリーマン・学生…
         ・趣味: 旅行・ピアノ…
         ・学歴: 高卒・大卒…
                                   プロファイルの推定

                       評価実験
         5万人分の              性別        2値   85%以上
        プロファイル             居住地域 10都市       80%以上
社会動向調査におけるユーザプロファイルの重要性
社会動向調査            ユーザプロファイル
                  ・性別: 男性・女性
 gooリサーチ          ・居住地域: 札幌・大阪…
 楽天リサーチなど         ・年齢: 10代, 20代…
  例) 生涯学習活動や文化・
                  ・職業: サラリーマン・学生…
  スポーツ活動を充実させる    ・趣味: 旅行・ピアノ…
  ために必要なこと        ・学歴: 高卒・大卒…
Twitterにおける社会調査の既存研究と利点
Twitterにおける既存の 研 究
                                                       環境
                                        あるユーザの発言     教育
  心理テストにおけるスコアの推移       工業平均株価の推移グラフ
                    株                                         政治
 スコア                                                   金融
                    価

              時刻                   時刻
                                             tf・idfによる   会社
                                             重み付け      旅行
                        ほぼ一致                                  自然
Twitter                                                映画


               時刻

    ストリーム上の発言を用いた株式市場の予測                Twitterに基づくユーザのモデル化
    [J.Bollen et al, 2009]              [K.Tao et al, 2011]

              トレンド分析にとどまっており、
          ユーザプロファイルの推定に関する研究は1件のみ

本研究の目的

 ユーザプロファイルを推定するためのアルゴリズムを構築
Twitter内から直接取得可能な
       ユーザプロファイルの割合

本研究で収集できたTwitterユーザ約173万人のうち、ロケーション
 データとユーザ説明文で性別と居住地域を判断できるユーザ数

                          居住地域の内訳
                                         東京
    性別の内訳                                大阪
                                         埼玉
                                         横浜
                     不明                  京都
                     男性                  千葉
                                         福岡
    98.2%            女性    61.1%         名古屋
                                         札幌
                                         その他市町村
                                         不明
            全体のわずか
              1.8%            全体の39.9%


  不明ユーザのプロファイルを推定することが重要
ツイート内容に基づく
          ユーザプロファイルの推定
       ロケーション
         データ
       ユーザ説明文
       WebURL
       ツイート数
       フォロー数
                        Twitterで得られる文章の構造が曖昧
       フォロワー数          →従来のテキストマイニング手法が適切に利用できない
                        R.Feldman , J.Sanger, 辻井潤一, IBM東京基礎研究所: テキストマイニングハンドブックより
       ツイート内容
       ツイート時刻                            キーワードを用いたアプローチ

       コーパスに基づいた文書内に現れる特徴の分類 [G.Laboreiro et al, 2010]
関連研究
       キーワードを利用したツイート内の感情表現抽出と曖昧な表現の解消 [S.Brody et al, 2011]

ユーザプロファイル推定に関する関連研究

       TwitterにおけるSVMを用いたプロファイルの推定 [D.Rao et al, 2010]
ベイズの定理を用いたキーワードの抽出
                                                        札幌にある
                                                        フリースペース




居住地域「札幌」に対する名詞「ATTIC」の重み: 事後確率で定義

                                       ベイズの定理より算出

                                             P札幌 P ATTIC | 札幌
                          P札幌 | ATTIC  
                                                 P j  P ATTIC | j 
                                             j{札 幌,東 京,}



    P札幌 
              札幌に居住しているユーザのツイート総数
                  全ユーザのツイート総数

  P ATTIC | 札幌  全地域に居住しているユーザのツイートに出現する「ATTIC」の数
                 札幌に居住しているユーザのツイートに出現する「ATTIC」の数




出現する全ての名詞に対し重みを計算し、高いものから順にキーワードとして抽出
ベイズの定理から算出された
   性別と居住地域に対するキーワードとその重み
 利用するデータ                    性別が男性であるユーザ            性別が女性であるユーザ
 ツイート収集期間                   キーワード       重み         キーワード     重み
  2011/6 – 2012/1             俺         0.836       旦那       0.973
 一人当たりのツイート数                 バイク        0.710       あたし      0.896
  3200ツイート
                             お前         0.634        肌       0.861
 性別:対象ユーザ数
                             ギター        0.634      赤ちゃん      0.853
  1000人 (500 × 2)
 居住地域:対象ユーザ数
                            サッカー        0.629       化粧       0.827
  5000人 (500 × 10)           ぼく         0.625       ランチ      0.787

札幌に居住しているユーザ                東京に居住しているユーザ           千葉に居住しているユーザ
  キーワード             重み       キーワード         重み       キーワード      重み
    OYOYO           0.981      玉川          0.641    千葉大学       0.887
    ATTIC           0.972     shibuya      0.627    稲毛海岸       0.885
 ノースウェーブ            0.914      板橋          0.609     chiba     0.860
     丘珠             0.903    早稲田大学         0.601     花見川       0.841
  コアックマ             0.896     西新井          0.519     稲毛        0.838
  サンピアザ             0.887     武蔵境          0.517     印西        0.827
キーワードを考慮した
         ユーザプロファイルの推定手法 (1/2)
札幌に居住しているユーザの             東京に居住しているユーザの                      千葉に居住しているユーザの
   キーワード群                    キーワード群                             キーワード群
    キーワード                          キーワード                             キーワード
    OYOYO                                玉川                              千葉大学
     ATTIC                           shibuya                             稲毛海岸
   ノースウェーブ                               板橋                              chiba
     丘珠                            早稲田大学                                 花見川
    コアックマ                            西新井                                  稲毛
    サンピアザ                            武蔵境                                  印西



    ユーザの特徴ベクトルの定義                        K  wOYOYO , wATTIC , w玉川,

                                                         「OYOYO」の出現回数
札幌に居住しているユーザ
                                                         全キーワードの出現回数


             K g1  0.6, 0.5, 0.03,                  推定対象となるユーザ

                                                 Ku1  0.4, 0.3, 0.01,
キーワードを考慮した
      ユーザプロファイルの推定手法 (2/2)
札幌に居住しているユーザ
                                                   推定対象となるユーザ

        K g1  0.6, 0.5, 0.03,               Ku1  0.4, 0.3, 0.01,



                                                                m

                                                               w                wkl g j
                                                       
                                                                       k l ui

東京に居住しているユーザ                           SIM K ui , K g j       l 1
                                                               m                 m

                                                              w
                                                              l 1
                                                                      2
                                                                      k l ui     wkl g j
                                                                                    2

                                                                                 l 1

         K g 2  0.1, 0.15, 0.5,
                                      ・コサイン距離を用いて類似度を算出
                                      ・類似度が一番大きいものをプロファイル
                                       として推定
実験設定と評価方法
  推定対象とするプロファイル      対象ユーザ数:6000人
                     対象ツイート数:1920万ツイート                     東京
                                                           大阪
 性別                      性別の内訳               居住地域の内訳       埼玉
                                                           横浜
  男女の推定                                 不明                 京都
                                                           千葉
                                        男性
                                                           福岡
 居住地域                                   女性                 名古屋
                                                           札幌
  東京・大阪・千葉・埼玉・横浜・                1.8%                      その他市町村
  福岡・名古屋・京都・札幌・仙台の推定                              39.9%
                                                           不明



・各プロファイルの種別ごとにユーザを500名ずつ収集
・クロスバリデーション(100名1単位で訓練300名・テスト200名)を用いて、C2  10通り
                                       5



    評価方法

  再現率(recall)
                                  2  precision  recall
         どれだけ正しく推定できたか       F
  適合率(precision)                   precision  recall
         どれだけ正解を網羅できたか
実験結果.1          性別の推定について
                          正しく推定できる割合が高い


平均して200人中6人程度の誤推定におさまる


           適合率             再現率
         男性     女性       男性     女性

  平均    94.5%   81.7%   78.6%   95.5%

 標準偏差   1.7%    2.0%    2.6%    1.5%
   F値    男性: 0.858       女性: 0.881


   男性・女性共に85%以上の精度
実験結果.2                              居住地域の推定について
平均値              1
                     東京                 標準偏差             東京
      仙台                  大阪                          0.05
                                                仙台            大阪
            0.5
 札幌                             千葉                   0.025
                                           札幌                      千葉
                 0
                                                        0
 京都                             埼玉
                                           京都                      埼玉

  名古屋                     横浜
                                            名古屋               横浜
                     福岡        東京に関してのみ                             適合率
                                                         福岡
 F値          東京                  精度が低い                              再現率
            1
      仙台                  大阪
           0.5
 札幌                            千葉      東京を除く都市の
            0                        推定精度は平均80%以上
 京都                            埼玉

  名古屋                     横浜
             福岡
                                F値
居住地域に推定における考察
 札幌に居住しているユーザ          東京に居住しているユーザ
    キーワード      重み          キーワード     重み
1   OYOYO      0.981   1    玉川       0.641
2    ATTIC     0.972   2   shibuya   0.627
3 ノースウェーブ      0.914   3    板橋       0.609
4   丘珠         0.903   4   早稲田大学     0.601
5   コアックマ      0.896   5    西新井      0.519
6   サンピアザ      0.887   6    武蔵境      0.517




             東京を特徴付けるキーワードは
             全体的に重みが低い
本研究のまとめ
            ・低コストで頻繁に調査可能                Twitterによる
 動向調査       ・変動を抽出しやすい                     動向調査
                                   課題
男性
              ユーザプロファイル            ユーザプロファイルの獲得
           ・性別: 男性・女性
  提案手法を用いて ・居住地域: 札幌・大阪…        提案手法
    推定可能   ・年齢: 10代, 20代…
女性                                 ツイートからキーワードの抽出
           ・職業: サラリーマン・学生…
           ・趣味: 旅行・ピアノ…
           ・学歴: 高卒・大卒…
                                     プロファイルの推定

今後の課題                     評価実験
           5万人分の              性別        2値   85%以上
          プロファイル             居住地域 10都市       80%以上

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (6)

sugawara m
sugawara msugawara m
sugawara m
 
oke_b
oke_boke_b
oke_b
 
hosokawa m
hosokawa mhosokawa m
hosokawa m
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライド
 
ogawa_b
ogawa_bogawa_b
ogawa_b
 
Ai勉強会20170127
Ai勉強会20170127Ai勉強会20170127
Ai勉強会20170127
 

Mehr von harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 

Mehr von harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Arai m

  • 1. 2011年度 複合情報学専攻 修士論文発表会 Twitterに基づく社会動向調査に 向けたユーザプロファイルの推定 Estimation of User Profile for General Social Survey based on Twitter 北海道大学 大学院情報科学研究科 複合情報学専攻 複雑系工学講座 調和系工学研究室 修士2年 新井 雅也
  • 2. 本研究の概要 ・低コストで頻繁に調査可能 Twitterによる 動向調査 ・変動を抽出しやすい 動向調査 課題 男性 ユーザプロファイル ユーザプロファイルの獲得 ・性別: 男性・女性 提案手法 ・居住地域: 札幌・大阪… 女性 ・年齢: 10代, 20代… ツイートからキーワードの抽出 ・職業: サラリーマン・学生… ・趣味: 旅行・ピアノ… ・学歴: 高卒・大卒… プロファイルの推定 評価実験 5万人分の 性別 2値 85%以上 プロファイル 居住地域 10都市 80%以上
  • 3. 社会動向調査におけるユーザプロファイルの重要性 社会動向調査 ユーザプロファイル ・性別: 男性・女性 gooリサーチ ・居住地域: 札幌・大阪… 楽天リサーチなど ・年齢: 10代, 20代… 例) 生涯学習活動や文化・ ・職業: サラリーマン・学生… スポーツ活動を充実させる ・趣味: 旅行・ピアノ… ために必要なこと ・学歴: 高卒・大卒…
  • 4. Twitterにおける社会調査の既存研究と利点 Twitterにおける既存の 研 究 環境 あるユーザの発言 教育 心理テストにおけるスコアの推移 工業平均株価の推移グラフ 株 政治 スコア 金融 価 時刻 時刻 tf・idfによる 会社 重み付け 旅行 ほぼ一致 自然 Twitter 映画 時刻 ストリーム上の発言を用いた株式市場の予測 Twitterに基づくユーザのモデル化 [J.Bollen et al, 2009] [K.Tao et al, 2011] トレンド分析にとどまっており、 ユーザプロファイルの推定に関する研究は1件のみ 本研究の目的 ユーザプロファイルを推定するためのアルゴリズムを構築
  • 5. Twitter内から直接取得可能な ユーザプロファイルの割合 本研究で収集できたTwitterユーザ約173万人のうち、ロケーション データとユーザ説明文で性別と居住地域を判断できるユーザ数 居住地域の内訳 東京 性別の内訳 大阪 埼玉 横浜 不明 京都 男性 千葉 福岡 98.2% 女性 61.1% 名古屋 札幌 その他市町村 不明 全体のわずか 1.8% 全体の39.9% 不明ユーザのプロファイルを推定することが重要
  • 6. ツイート内容に基づく ユーザプロファイルの推定 ロケーション データ ユーザ説明文 WebURL ツイート数 フォロー数 Twitterで得られる文章の構造が曖昧 フォロワー数 →従来のテキストマイニング手法が適切に利用できない R.Feldman , J.Sanger, 辻井潤一, IBM東京基礎研究所: テキストマイニングハンドブックより ツイート内容 ツイート時刻 キーワードを用いたアプローチ コーパスに基づいた文書内に現れる特徴の分類 [G.Laboreiro et al, 2010] 関連研究 キーワードを利用したツイート内の感情表現抽出と曖昧な表現の解消 [S.Brody et al, 2011] ユーザプロファイル推定に関する関連研究 TwitterにおけるSVMを用いたプロファイルの推定 [D.Rao et al, 2010]
  • 7. ベイズの定理を用いたキーワードの抽出 札幌にある フリースペース 居住地域「札幌」に対する名詞「ATTIC」の重み: 事後確率で定義 ベイズの定理より算出 P札幌 P ATTIC | 札幌 P札幌 | ATTIC    P j  P ATTIC | j  j{札 幌,東 京,} P札幌  札幌に居住しているユーザのツイート総数 全ユーザのツイート総数 P ATTIC | 札幌  全地域に居住しているユーザのツイートに出現する「ATTIC」の数 札幌に居住しているユーザのツイートに出現する「ATTIC」の数 出現する全ての名詞に対し重みを計算し、高いものから順にキーワードとして抽出
  • 8. ベイズの定理から算出された 性別と居住地域に対するキーワードとその重み 利用するデータ 性別が男性であるユーザ 性別が女性であるユーザ ツイート収集期間 キーワード 重み キーワード 重み 2011/6 – 2012/1 俺 0.836 旦那 0.973 一人当たりのツイート数 バイク 0.710 あたし 0.896 3200ツイート お前 0.634 肌 0.861 性別:対象ユーザ数 ギター 0.634 赤ちゃん 0.853 1000人 (500 × 2) 居住地域:対象ユーザ数 サッカー 0.629 化粧 0.827 5000人 (500 × 10) ぼく 0.625 ランチ 0.787 札幌に居住しているユーザ 東京に居住しているユーザ 千葉に居住しているユーザ キーワード 重み キーワード 重み キーワード 重み OYOYO 0.981 玉川 0.641 千葉大学 0.887 ATTIC 0.972 shibuya 0.627 稲毛海岸 0.885 ノースウェーブ 0.914 板橋 0.609 chiba 0.860 丘珠 0.903 早稲田大学 0.601 花見川 0.841 コアックマ 0.896 西新井 0.519 稲毛 0.838 サンピアザ 0.887 武蔵境 0.517 印西 0.827
  • 9. キーワードを考慮した ユーザプロファイルの推定手法 (1/2) 札幌に居住しているユーザの 東京に居住しているユーザの 千葉に居住しているユーザの キーワード群 キーワード群 キーワード群 キーワード キーワード キーワード OYOYO 玉川 千葉大学 ATTIC shibuya 稲毛海岸 ノースウェーブ 板橋 chiba 丘珠 早稲田大学 花見川 コアックマ 西新井 稲毛 サンピアザ 武蔵境 印西 ユーザの特徴ベクトルの定義 K  wOYOYO , wATTIC , w玉川, 「OYOYO」の出現回数 札幌に居住しているユーザ 全キーワードの出現回数 K g1  0.6, 0.5, 0.03, 推定対象となるユーザ Ku1  0.4, 0.3, 0.01,
  • 10. キーワードを考慮した ユーザプロファイルの推定手法 (2/2) 札幌に居住しているユーザ 推定対象となるユーザ K g1  0.6, 0.5, 0.03, Ku1  0.4, 0.3, 0.01, m w  wkl g j   k l ui 東京に居住しているユーザ SIM K ui , K g j  l 1 m m w l 1 2 k l ui  wkl g j 2 l 1 K g 2  0.1, 0.15, 0.5, ・コサイン距離を用いて類似度を算出 ・類似度が一番大きいものをプロファイル として推定
  • 11. 実験設定と評価方法 推定対象とするプロファイル 対象ユーザ数:6000人 対象ツイート数:1920万ツイート 東京 大阪 性別 性別の内訳 居住地域の内訳 埼玉 横浜 男女の推定 不明 京都 千葉 男性 福岡 居住地域 女性 名古屋 札幌 東京・大阪・千葉・埼玉・横浜・ 1.8% その他市町村 福岡・名古屋・京都・札幌・仙台の推定 39.9% 不明 ・各プロファイルの種別ごとにユーザを500名ずつ収集 ・クロスバリデーション(100名1単位で訓練300名・テスト200名)を用いて、C2  10通り 5 評価方法 再現率(recall) 2  precision  recall どれだけ正しく推定できたか F 適合率(precision) precision  recall どれだけ正解を網羅できたか
  • 12. 実験結果.1 性別の推定について 正しく推定できる割合が高い 平均して200人中6人程度の誤推定におさまる 適合率 再現率 男性 女性 男性 女性 平均 94.5% 81.7% 78.6% 95.5% 標準偏差 1.7% 2.0% 2.6% 1.5% F値 男性: 0.858 女性: 0.881 男性・女性共に85%以上の精度
  • 13. 実験結果.2 居住地域の推定について 平均値 1 東京 標準偏差 東京 仙台 大阪 0.05 仙台 大阪 0.5 札幌 千葉 0.025 札幌 千葉 0 0 京都 埼玉 京都 埼玉 名古屋 横浜 名古屋 横浜 福岡 東京に関してのみ 適合率 福岡 F値 東京 精度が低い 再現率 1 仙台 大阪 0.5 札幌 千葉 東京を除く都市の 0 推定精度は平均80%以上 京都 埼玉 名古屋 横浜 福岡 F値
  • 14. 居住地域に推定における考察 札幌に居住しているユーザ 東京に居住しているユーザ キーワード 重み キーワード 重み 1 OYOYO 0.981 1 玉川 0.641 2 ATTIC 0.972 2 shibuya 0.627 3 ノースウェーブ 0.914 3 板橋 0.609 4 丘珠 0.903 4 早稲田大学 0.601 5 コアックマ 0.896 5 西新井 0.519 6 サンピアザ 0.887 6 武蔵境 0.517 東京を特徴付けるキーワードは 全体的に重みが低い
  • 15. 本研究のまとめ ・低コストで頻繁に調査可能 Twitterによる 動向調査 ・変動を抽出しやすい 動向調査 課題 男性 ユーザプロファイル ユーザプロファイルの獲得 ・性別: 男性・女性 提案手法を用いて ・居住地域: 札幌・大阪… 提案手法 推定可能 ・年齢: 10代, 20代… 女性 ツイートからキーワードの抽出 ・職業: サラリーマン・学生… ・趣味: 旅行・ピアノ… ・学歴: 高卒・大卒… プロファイルの推定 今後の課題 評価実験 5万人分の 性別 2値 85%以上 プロファイル 居住地域 10都市 80%以上