SlideShare ist ein Scribd-Unternehmen logo
1 von 19
2014-03-08(土) 明治大学中野キャンパス
ニコニコ学会β データ研究会 with 明治大COI-T

ツイート数やフォロワー数は
サンプリングの方法が違うだけで
桁数すら違って見えてしまう
株式会社ウフル 下野寿之

1000以上のフォロワーを持つアカウントは、全体の
約5%しかいないのに、彼らの発言が
平均的なユーザーのツイッター画面の70%も占め
ていることを「分位グラフ」から示します。
(ただし、ある1ヶ月に特定のキーワードのどれかを発言したア
カウントに限定しています。)
1
はじめに
“ランダムな3人の方がKinseyの選ぶ300人よりも良い。”
これはFFT(高速フーリエ変換) や bit (情報の単位)の言葉を発明した統計学者
Tukey (1915-2000) の言葉である。サンプリングの方法は大事である。
では、どういう方法でサンプリングすれば良いのだろうか。

Twitter で発言する人の特性はとても多様である。
分析上、Twitter上の異集団の比較条件をうまく揃えることすら、
なかなか困難である。
実は “全体像” を捉えることも、難しい。

「 データの “見方” (サンプリング)により、
全く同じ属性値が桁違いに違って見える」
― この現象をうまく捉える方法を提案し、何が見えるか考えていきます。

2
集計対象のツイッター発言データ :
1. 収集期間

・・・・・・・・・・・・・・・・・・・・・・・・・・

2013年12月10日から32日間

2. 収集した発言の数 ・・・・・・・・・・・・・・・・・・ ・・ ・・・・・・・・・・・・・・・・ 約320万件
3. 含まれていたアカウント数 ・・・・・・・・・・・・・・・・ ・・・ 約130万アカウント
4. ツイート発言で収集した範囲 ・・・・・・・・・・・下記の単語を含む発言
“おせち イオン ジャスコ ヨーカドー 西友
ルミネ パルコ ラゾーナ ららぽーと
伊勢丹 三越 高島屋 丸井 初売り 初商 福袋
東急 東急本店 東横店 フードショー
ヒカリエ シンクス ShinQs
百貨店 デパート ショッピングセンター”
▼ ヒットしたツイート発言の多いアカウント 上位9個

3
4
ヒストグラム

分位プロット

分位プロットは、中央値などの分位値をすぐ読める利点あり 。
5
▶ 上位5%の値がすぐ読める ▶ 上下15%ずつ除外したときの範囲も分かる ▶ 異常値や例外の意味もはっきりする
みんな普通に
どれくらい発言したり
何人にフォローされたり
しているのだろうか?
▶ 的確に捕らえる方法は、難しいし、方法論は確立していない。

▶ だから、全く気にしないのも、ひとつの賢明な処世の方法である。
▶ しかし、マーケティング的には重要。人と自分を比較したくなるのも人情。
▶ 「普通」とは何であるかという、不可知論的命題の一種に触れることになる。
▶ 上記の疑問全てに答える訳では無いが、答えの一端をここに示す。
6
“全体像”をどう把握するか
― “要素重み” で解釈は変わる
(c) Adam Booth

● 3通りの ”票の重みの違い” で何が起こるか?
→ 票の重みを変えると、投票結果は変わる。

(1) Twitter の1アカウント毎に1票の場合
(2) 各アカウントの重みづけを “ツイート数” とした場合
(3) “フォロワー数” と “ツイート数” の積を使う場合

4000(または1000)以上のフォロワーを持つ2%(5%)
のアカウントによる発言が、”平均的なツイート表
示画面” の50%(70%)を占めていることが判明した。

7
(1) 1人1票の
重み付けの場合
• フォロー数の中央値は170。
• フォロワー数の中央値は140。
• ツイート回数の中央値は
4000。
• フォロワー数4000以上のアカ
ウントは2%。
• 発言数が7万以上のアカウン
トも3%。

8
(2) 各アカウントに
ツイート数で
重み付けをした場合
▶ 4000個未満の発言をする
ような人は50%であったが、
ここでは たったの7% 。
▶ 逆に、7%でしか無かった
3.5万回以上発言する人
の重み計がここでは50%。

▶ フォロー数とフォロワー数
の中央値は350前後。

9
(3) 重みづけが、
ツイート数と
フォロワー数
の積の場合
▶ フォロワー数の四分位値が、
1000, 4000, 1.2万
▶ ツイート数の四分位値が、
3万, 7万, 15万。
▶ 人数上は2%しか無かった
のに、ここでは50%の存在
感を示している。

10
全体(320万発言)からの

取り出し方

集計時の票の重みの付け方
(1)一人一票 (2) ツイート数

(3) ツイート数
×フォロワー数

フォロー数 170未満

50%

12%

フォロワー数 140未満

50%

4%

フォロワー数 1000 以上

5%

70%

フォロワー数 4000 以上

2%

50%

解釈例

5個のアカウントを
見た時の印象

フォロー数とフォロワー数のこの中央値
は大体実感に合う。170 と 140 の違い
はフォローとしてもフォロー返しされると
は限らないことを反映している。

ライトな会話が多
い

自分の身の周りに数千人もフォロワー数
がいる人はほとんどいないのに、自分の
画面を開くと、大体何千回もつぶやいた
人の発言が画面を占有。

自己紹介の文字
数多い

短いつぶやき多い

サークル、よくつぶ
やく人

ツイート数 4000 未満

50%

7%

4000回もつぶやいたところで、そのよう
な人の発言はたったの7%しか画面を占
めない。

ツイート数 3.5万以上

7%

50%

今回のキーワード群を検索した画面表
示について、その半数は3.5万以上のツ
イートをした人の発言。(キーワードによる)

学生、ひとりごとが
多い

3%のアカウントは7万回以上もつぶやい
たようだが、そんな彼らが画面の半分を
占有。

サークル、音楽、
趣味

ツイート数 7万以上
ツイート数 20万以上
ツイート数 100万以上

3%

50%
25%
3%

ライトなふつうの個
人

限定された話題の
ひとりごと
ボット多い

11
まとめ
▶ 読み切れないほど大量のデータがある場合は、ど
のようにサンプリングをして実態を知れば良いかを、
よく考える必要がある。
▶ 属性値(例、ツイート数)の代表値(中央値など)を取
り出すにしても、一見合理的な重み付けの仕方で
あっても、方法が異なれば、何十倍も異なることが
ある。
▶ 割合的にごく少数のアカウントが、ツイート利用者
の画面の大半を占有している。具体的な割合を読
み取るには、分位プロットが大いに役に立つ。
12
その他のグラフ
参考メモ
ストーリー作りに沿わなかったけど
見ていると語ってくるものの多いグラフたち

13
参考

フォロワー数とフォロー数の比が
フォロワー数に対してどう分布するか

フォロー返し※ により、
フォロー数とフォロワー数は
大体等しいらしい。
では、どれくらい本当だろうか?
▶ アカウント全体の9割は
その比は約2倍以内。
7割は約1.5倍以内。
▶ ただし、フォロワー数が
5000以上になると様子は
大きく変わる。
― 以上が右のグラフから
読み取れる。
※ 「フォロー返し」 とは、誰かをフォローしたら
その人からフォローされる現象。
14
発言数(縦軸) が
フォロー数(左の横軸)またはフォロワー数(右の横軸)と
どう関係するか

15
(4) 重み付けを、フォロワー数
と”百貨店関係のキーワード
を含むツイートを2014年前後
の特定期間に行った数” とし
た場合

• (3)とは様子が異なる理
由は考察に値する。
▶ 発言数の中央値が、2.5
万と下がった理由は、
キーワードに由来してい
るからかも知れない。
▶ フォロー数100以下のアカ
ウントが12%も占めるのは、
そういう人がとりあえず、
今回選んだキーワードを
平均よりは多く話す傾向
があるからかも知れない。

16
3個の分位グラフの要約

▶ (1)一人一票と (3)ツイート数とフォロー数で票重みを増幅した後 で、
中央値は10倍程度異なる。
▶ 「かなり大きい」数値は、見方によって「かなり小さく」なる。

17
補足 – 分位値についての考察
• 中央値(50%点)は平均とは異なるが、よく使われる。
• そして、四分位値(25%点, 75%点)もデータの代表値として教科書でよく紹介される。
• しかし、 15%点と85%点の方がもっと有用と考えられる。
▶ 全体を上・中・下に3分割した時の中央値は、全体の16.66..%点と 50%点と83.33..%点と
なって、この3個の値(“3分割中央値”) こそが、中央値と2個の四分位値よりも、データ
の性質をよく表していると、考えられる。
▶ データの分布がガウス分布である場合に、15%点と85%点は μ ± 1.036.. σとなって、偏
差値40と60の値にほぼ近い。( μ±σに相当するのは、15.86%点と84.13%点となる。) つ
まり、σの大きさを概算しやすい。
75%点
50%点
25%点

上
中
下

85%点
50%点
15%点

▶ 従って、分位グラフから値を3個だけ読み取るときは、15%点, 50%点, 85%
点の値を読むと、データの様子を比較的よく把握できると考えられる。
 なお、データ全体の最大値と最小値については、サンプリングごとに値が大きく変動するの
で、ややデータの代表値としては使いにくいと考えられる。

Tukey: "A random selection of three people would have been
better than a group of 300 chosen ..”
http://p.tl/Dhka

― 分位に関しては様々な呼び方がある。分位
グラフを描く時に必要な用語は未だ揃っていな
いようなので、体系的に作成する必要がありそ
うである。
18
19

さらに分析したいことなど

▶

いろいろ層別に分けて違いを
分かりやすく面白く見せること
→ 百貨店ごとにもっと違いを見る

▶

時系列分析

▶

意味のあるクラスタリングが出来るか

▶

発言者間のネットワーク分析

▶

日付/時間
2013-12-10
2013-12-11
2013-12-12
2013-12-13
2013-12-14
2013-12-15
2013-12-16
2013-12-17
2013-12-18
2013-12-19
2013-12-20
2013-12-21
2013-12-22
2013-12-23
2013-12-24
2013-12-25
2013-12-26
2013-12-27
2013-12-28
2013-12-29
2013-12-30
2013-12-31
2014-01-01
2014-01-02
2014-01-03
2014-01-04
2014-01-05
2014-01-06
2014-01-07
2014-01-08
2014-01-09
2014-01-10

0

1

2

3

4

5

6

7

8

9

10

127
136
1532
2873
3617
4623
4045
4458
4637
5393
4924
3838
5260
7098
4905
7468
6419
7678
6661
7607
10349
22849
8627
6857
6833
9757
7623
7025
7551
9161
5273

93
86
958
1626
2232
2741
2405
2807
3064
3082
3247
2702
3316
4150
2734
3877
4015
4543
4372
4656
6155
15263
4964
5227
4113
6208
4818
4124
3997
4801
3243

64
68
634
1139
1694
1631
1545
1713
1739
1977
1859
2073
2134
2293
1695
2269
1833
2619
2621
2765
3885
4149
2749
6151
2371
3823
2873
2604
2606
2999
1795

58
63
478
1018
1330
1304
1189
1404
1509
1973
1637
1836
1776
1774
1604
1959
1627
2041
1823
2100
2703
3157
4744
3906
2687
2627
2159
1800
1837
2361
1349

39
46
396
529
1051
927
1007
1131
1141
1321
1331
1417
1258
1205
1377
1370
1421
1587
1336
1528
1900
4218
3729
2678
2248
2073
1656
1488
1379
1871
1206

72
61
403
682
974
1094
946
1051
1100
1462
1414
1186
1231
1189
1360
1398
1361
1568
1224
1440
1803
4828
4168
2656
2016
1782
1480
1417
1248
1734
1020

90
64
526
807
1173
1185
1237
1347
1394
1667
1617
1427
1672
1589
1580
1908
1590
1726
1433
1635
2110
7216
6328
2899
2138
1854
1733
1647
1872
2094
1556

144
115
837
1164
1732
2053
2692
1954
2362
974
1249
1442
1299
1476
1200
467
2511
2539
2290
2511
3586
15086
1915
2227
1689
695
2948
1235
886
3674
673

200
177
1122
1655
2590
2597
3532
2299
2994
1222
1327
1633
894
1145
1289

149
134
1097
2115
3549
2474
3435
2624
3897
1423
2072
2043
1023
1733
1335

3768
3578
3223
3997
5362
7594
1342
1378
1079
419
3538
1434
647
5135
526

3996
4911
4477
5140
8051
12145
1889
2470
1437
511
4550
2369
1022
5177
505

170
130
1457
2536
4942
3415
4178
3412
3999
1818
2385
3376
1195
2023
2341
39
5245
5945
5873
7044
10713
27222
2848
2706
1921
661
5638
3146
1465
6758
698

11
32
116
121
1386
2715
5871
3614
4925
2707
4344
2954
2784
4120
2402
2678
4287
140
6196
7082
7296
7658
12249
2067
3233
3105
2448
1073
6605
3886
1828
7622
827

12
157
177
463
1988
2868
5306
4580
6158
1962
5260
5261
2927
4346
3516
4647
5532
155
7894
7563
7842
9435
13035
2511
3197
3573
2451
1976
9118
5686
2463
11370
1039

13
153
144
582
1816
3454
3056
4836
5049
1773
6844
4082
2630
4159
3584
3835
4332
143
8098
7343
7614
9147
13001
2540
3612
3287
4279
2815
7973
6811
2138
10181
996

14
156
170
423
2037
3720
3571
4187
4756
1910
5092
4889
2740
4473
5172
4571
5077
131
7373
7916
7975
9147
13298
2478
4528
3754
7620
3173
7552
6426
1909
10548
1127

15
139
149
442
3025
3812
5247
4999
4375
3851
4459
6194
2916
4759
7778
6430
6474
418
7497
7529
8060
10058
15048
4938
4449
7378
8104
3884
7691
6926
2163
12154
1232

16
161
156
703
3662
3611
6666
4115
3890
5263
5706
6355
2871
4450
8700
6943
6952
1081
7296
7863
8639
9956
15950
9088
7701
10992
8364
9464
7392
7317
2298
13235
2925

17
170
268
1285
4125
3438
6798
4122
4138
6359
6004
6755
3139
4773
8331
7864
7888
2148
7324
8234
8402
10529
17235
14816
12565
11090
8326
11131
8170
8297
2832
13557
5981

18
182
318
1394
4551
4202
6964
5957
5090
7177
7407
9276
6222
4962
8030
8863
7702
8863
8437
8165
8889
9852
17573
21263
20139
10936
7957
11139
7714
8453
2944
11017
10609

19
315
253
1446
5062
5005
2597
6427
6265
6583
3817
6215
5042
6876
6035
5181
3655
8775
8120
8076
8398
9662
15644
7463
6596
5549
6164
9671
8308
6858
5583
4679
1481

20
356
216
1444
4655
2557
1710
6328
7628
6936
1672
6275
4680
7718
7712
6080
6388
8934
8059
8528
8457
10644
16229
1861
4637
6432
5549
9997
8974
9441
7953
5650

21
276
187
1611
4993
3133
3382
6793
7077
6644
4132
6152
4828
7327
7669
7125
9370
8498
8384
8763
8320
11448
15365
4411
6998
8894
5233
10924
9368
9961
9266
6648

22
221
203
2023
5576
5031
7879
6545
6639
6234
6727
5849
4829
7472
8084
8609
9115
9086
8435
8670
9454
12848
14898
10241
8677
9887
5850
9716
10272
9958
10316
7858

テキスト分析(ポジネガなど)

▶

▶時系列分析の例

行動モデリングに基づいた分析

地理情報(1.9万地点)
による日本地図

23
256
235
1974
2969
4274
6425
5963
6325
6119
5514
5959
4633
6768
7450
6496
8470
8356
8277
7892
8700
12136
17461
9638
8949
8318
8926
10967
9641
8910
10737
7154

Weitere ähnliche Inhalte

Andere mochten auch

Me aiesec and the world
Me aiesec and the worldMe aiesec and the world
Me aiesec and the world
Leotornel
 
Las motivaciones en_la_clase_de_lowenfeld
Las motivaciones en_la_clase_de_lowenfeldLas motivaciones en_la_clase_de_lowenfeld
Las motivaciones en_la_clase_de_lowenfeld
Karen Marroquin
 
Solar system adventure
Solar system adventureSolar system adventure
Solar system adventure
bigmanbc
 
La obsesion de van gogh-pintor holandes
La obsesion de van gogh-pintor holandesLa obsesion de van gogh-pintor holandes
La obsesion de van gogh-pintor holandes
AFH1982
 

Andere mochten auch (15)

Me aiesec and the world
Me aiesec and the worldMe aiesec and the world
Me aiesec and the world
 
Las motivaciones en_la_clase_de_lowenfeld
Las motivaciones en_la_clase_de_lowenfeldLas motivaciones en_la_clase_de_lowenfeld
Las motivaciones en_la_clase_de_lowenfeld
 
Edgar allan poe
Edgar allan poeEdgar allan poe
Edgar allan poe
 
ç
çç
ç
 
Solar system adventure
Solar system adventureSolar system adventure
Solar system adventure
 
The dr overnight dba
The dr overnight dbaThe dr overnight dba
The dr overnight dba
 
Outsource Communications Company Presentation
Outsource Communications Company PresentationOutsource Communications Company Presentation
Outsource Communications Company Presentation
 
懂我,不難:內向心理學(一)
懂我,不難:內向心理學(一)懂我,不難:內向心理學(一)
懂我,不難:內向心理學(一)
 
презентация Microsoft office power point
презентация Microsoft office power pointпрезентация Microsoft office power point
презентация Microsoft office power point
 
Газовый настенный котел Protherm Гепард 23 MOV
Газовый настенный котел Protherm Гепард 23 MOVГазовый настенный котел Protherm Гепард 23 MOV
Газовый настенный котел Protherm Гепард 23 MOV
 
Psicologia del color
Psicologia del colorPsicologia del color
Psicologia del color
 
La obsesion de van gogh-pintor holandes
La obsesion de van gogh-pintor holandesLa obsesion de van gogh-pintor holandes
La obsesion de van gogh-pintor holandes
 
miss the forest : bringing together multiple taxonomies
miss the forest : bringing together multiple taxonomiesmiss the forest : bringing together multiple taxonomies
miss the forest : bringing together multiple taxonomies
 
Projects
ProjectsProjects
Projects
 
Presentation media
Presentation  mediaPresentation  media
Presentation media
 

Mehr von Toshiyuki Shimono

新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで
Toshiyuki Shimono
 

Mehr von Toshiyuki Shimono (20)

国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)
 
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
 
extracting only a necessary file from a zip file
extracting only a necessary file from a zip fileextracting only a necessary file from a zip file
extracting only a necessary file from a zip file
 
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
 
新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで
 
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 Multiplicative Decompositions of Stochastic Distributions and Their Applicat... Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 
Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...
 
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
 
Sqlgen190412.pdf
Sqlgen190412.pdfSqlgen190412.pdf
Sqlgen190412.pdf
 
BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)
 
Seminar0917
Seminar0917Seminar0917
Seminar0917
 
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
 
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
 
新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど
 
ページャ lessを使いこなす
ページャ lessを使いこなすページャ lessを使いこなす
ページャ lessを使いこなす
 
Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理
 
データ全貌把握の方法170324
データ全貌把握の方法170324データ全貌把握の方法170324
データ全貌把握の方法170324
 

Volume zones hugely_change_with_different_viewpoints