Weitere ähnliche Inhalte
Mehr von Toshiyuki Shimono (20)
Volume zones hugely_change_with_different_viewpoints
- 1. 2014-03-08(土) 明治大学中野キャンパス
ニコニコ学会β データ研究会 with 明治大COI-T
ツイート数やフォロワー数は
サンプリングの方法が違うだけで
桁数すら違って見えてしまう
株式会社ウフル 下野寿之
1000以上のフォロワーを持つアカウントは、全体の
約5%しかいないのに、彼らの発言が
平均的なユーザーのツイッター画面の70%も占め
ていることを「分位グラフ」から示します。
(ただし、ある1ヶ月に特定のキーワードのどれかを発言したア
カウントに限定しています。)
1
- 2. はじめに
“ランダムな3人の方がKinseyの選ぶ300人よりも良い。”
これはFFT(高速フーリエ変換) や bit (情報の単位)の言葉を発明した統計学者
Tukey (1915-2000) の言葉である。サンプリングの方法は大事である。
では、どういう方法でサンプリングすれば良いのだろうか。
Twitter で発言する人の特性はとても多様である。
分析上、Twitter上の異集団の比較条件をうまく揃えることすら、
なかなか困難である。
実は “全体像” を捉えることも、難しい。
「 データの “見方” (サンプリング)により、
全く同じ属性値が桁違いに違って見える」
― この現象をうまく捉える方法を提案し、何が見えるか考えていきます。
2
- 3. 集計対象のツイッター発言データ :
1. 収集期間
・・・・・・・・・・・・・・・・・・・・・・・・・・
2013年12月10日から32日間
2. 収集した発言の数 ・・・・・・・・・・・・・・・・・・ ・・ ・・・・・・・・・・・・・・・・ 約320万件
3. 含まれていたアカウント数 ・・・・・・・・・・・・・・・・ ・・・ 約130万アカウント
4. ツイート発言で収集した範囲 ・・・・・・・・・・・下記の単語を含む発言
“おせち イオン ジャスコ ヨーカドー 西友
ルミネ パルコ ラゾーナ ららぽーと
伊勢丹 三越 高島屋 丸井 初売り 初商 福袋
東急 東急本店 東横店 フードショー
ヒカリエ シンクス ShinQs
百貨店 デパート ショッピングセンター”
▼ ヒットしたツイート発言の多いアカウント 上位9個
3
- 7. “全体像”をどう把握するか
― “要素重み” で解釈は変わる
(c) Adam Booth
● 3通りの ”票の重みの違い” で何が起こるか?
→ 票の重みを変えると、投票結果は変わる。
(1) Twitter の1アカウント毎に1票の場合
(2) 各アカウントの重みづけを “ツイート数” とした場合
(3) “フォロワー数” と “ツイート数” の積を使う場合
4000(または1000)以上のフォロワーを持つ2%(5%)
のアカウントによる発言が、”平均的なツイート表
示画面” の50%(70%)を占めていることが判明した。
7
- 11. 全体(320万発言)からの
取り出し方
集計時の票の重みの付け方
(1)一人一票 (2) ツイート数
(3) ツイート数
×フォロワー数
フォロー数 170未満
50%
12%
フォロワー数 140未満
50%
4%
フォロワー数 1000 以上
5%
70%
フォロワー数 4000 以上
2%
50%
解釈例
5個のアカウントを
見た時の印象
フォロー数とフォロワー数のこの中央値
は大体実感に合う。170 と 140 の違い
はフォローとしてもフォロー返しされると
は限らないことを反映している。
ライトな会話が多
い
自分の身の周りに数千人もフォロワー数
がいる人はほとんどいないのに、自分の
画面を開くと、大体何千回もつぶやいた
人の発言が画面を占有。
自己紹介の文字
数多い
短いつぶやき多い
サークル、よくつぶ
やく人
ツイート数 4000 未満
50%
7%
4000回もつぶやいたところで、そのよう
な人の発言はたったの7%しか画面を占
めない。
ツイート数 3.5万以上
7%
50%
今回のキーワード群を検索した画面表
示について、その半数は3.5万以上のツ
イートをした人の発言。(キーワードによる)
学生、ひとりごとが
多い
3%のアカウントは7万回以上もつぶやい
たようだが、そんな彼らが画面の半分を
占有。
サークル、音楽、
趣味
ツイート数 7万以上
ツイート数 20万以上
ツイート数 100万以上
3%
50%
25%
3%
ライトなふつうの個
人
限定された話題の
ひとりごと
ボット多い
11
- 18. 補足 – 分位値についての考察
• 中央値(50%点)は平均とは異なるが、よく使われる。
• そして、四分位値(25%点, 75%点)もデータの代表値として教科書でよく紹介される。
• しかし、 15%点と85%点の方がもっと有用と考えられる。
▶ 全体を上・中・下に3分割した時の中央値は、全体の16.66..%点と 50%点と83.33..%点と
なって、この3個の値(“3分割中央値”) こそが、中央値と2個の四分位値よりも、データ
の性質をよく表していると、考えられる。
▶ データの分布がガウス分布である場合に、15%点と85%点は μ ± 1.036.. σとなって、偏
差値40と60の値にほぼ近い。( μ±σに相当するのは、15.86%点と84.13%点となる。) つ
まり、σの大きさを概算しやすい。
75%点
50%点
25%点
上
中
下
85%点
50%点
15%点
▶ 従って、分位グラフから値を3個だけ読み取るときは、15%点, 50%点, 85%
点の値を読むと、データの様子を比較的よく把握できると考えられる。
なお、データ全体の最大値と最小値については、サンプリングごとに値が大きく変動するの
で、ややデータの代表値としては使いにくいと考えられる。
Tukey: "A random selection of three people would have been
better than a group of 300 chosen ..”
http://p.tl/Dhka
― 分位に関しては様々な呼び方がある。分位
グラフを描く時に必要な用語は未だ揃っていな
いようなので、体系的に作成する必要がありそ
うである。
18