Weitere ähnliche Inhalte Ähnlich wie 京都大学鹿島研究室勉強会資料-配布用- (20) 京都大学鹿島研究室勉強会資料-配布用-43. 【自習用】ダッシュボードの作り方を学ぶ際の教材
書籍による学習 普段の情報収集
Occam’s Razor by Avinash Kaushik
http://www.kaushik.net/avinash/
The information Lab
http://www.theinformationlab.co.uk/
The Datographer
http://datographer.blogspot.jp/
サイエンスメディアな日々、インフォグラフィックな日々
http://scivis.hateblo.jp/
ノウハウ例:Stephen Few on Data Visualization: 8 Core Principles
1. シンプルなダッシュボードを作ろう。19個以上の要素はいらない。
2. センセーショナルな”比較”を入れよう。詳細なんて覚えられない。
3. よりデータにアクセスしやすい環境を提供しよう
4. ただ、見ること、それだけで何かが発見出来るようにしよう
5. 多様性が確認出来るような包括的なものを作ろう
6. 何が起きたかよりも何故起きたかを考えよう
7. 懐疑的になって、色んな質問を繰り返そう
8. データを様々な場所にシェアしよう
43
自習用
47. 【参考】ニーズに「ぴったり」のデータが存在しない時
本来、摩耗分析を行うには、日別の各動画の再生数、コメント数等のデータが欲しい。
だが、今回のように「ぴったり」のデータはなかなか存在しない。
その際は「厳密には異なる」ことを意識しつつ、代わりに使えるデータがないか検証する。
47
動画タイトル 日付 再生数
AAAAAAA 2014/9/20 8,241
AAAAAAA 2014/9/21 6,125
AAAAAAA 2014/9/22 5,391
AAAAAAA 2014/9/23 531
AAAAAAA 2014/9/24 4,399
AAAAAAA 2014/9/25 3,123
AAAAAAA 2014/9/26 4,574
BBBBBBB 2014/9/14 3,715
BBBBBBB 2014/9/15 2,717
BBBBBBB 2014/9/16 8,460
BBBBBBB 2014/9/17 2,454
BBBBBBB 2014/9/18 1,982
BBBBBBB 2014/9/19 2,092
BBBBBBB 2014/9/20 7,444
BBBBBBB 2014/9/21 3,663
BBBBBBB 2014/9/22 4,246
BBBBBBB 2014/9/23 5,155
BBBBBBB 2014/9/24 9,400
BBBBBBB 2014/9/25 9,163
BBBBBBB 2014/9/26 1,855
本当に欲しいデータ 実際にあるデータ
動画タイトル アップロード日付 再生数 経過期間
AAAAAAA 2014/8/20 9,642 42
BBBBBBBB 2014/7/11 1,252 82
CCCCCCCC 2014/6/1 3,532 122
DDDDDDDD 2014/5/22 1,576 132
EEEEEEEEEE 2014/5/12 7,681 142
DF 2014/2/1 9,555 242
asdjhgtagaqg 2013/10/24 3,804 342
sgajghjahgah 2013/11/13 5,270 322
gdahdjkgahlgal 2013/12/3 3,669 302
ajsghjasdhgaklg 2013/8/25 1,437 402
sghajhjehahg 2013/7/16 7,166 442
aghajhgahjkerga 2013/6/6 8,006 482
egahjghaehgajkl 2013/7/27 8,983 431
gajseghjahjlghaj 2013/9/16 557 380
gnasjgjhdfakh@ 2013/11/6 9,941 329
nlghakjhiarh; 2013/12/27 1,282 278
algjoiwheghal 2012/11/18 4,090 682
gnalkgh;aoeugp 2011/10/11 2,327 1,086
gnklanhgheoha 2012/8/30 1,341 762
gnklao;ho;gweh 2013/7/20 5,367 438
アップロードからの経過日数を疑似的に摩耗期間と捉
えられないだろうか?
51. Levernberg-Marquardt法による非線形回帰(1)
Nls.lm関数を使って減衰系のモデルを求めてみる。モデル式は下記の通り。
nls(非線形回帰)の関数は初期値を求めてくるので、局所解等から初期値を設定。
コードはGithubにあげておきます。
モデル式:view_count=a+b*date^c⇒パラメータa,b,cを推定
参考:「でたぁっ 感動と失敗の備忘録」
佐藤さんのブログhttp://deta.hateblo.jp/entry/2014/05/08/052916
> source('~/Desktop/R/decrease_model.R')
It. 0, RSS = 44314.9, Par. = 4.2 819.469 -0.800566
It. 1, RSS = 15135.2, Par. = -3.27199 689.324 -0.719096
It. 2, RSS = 15049.2, Par. = -4.06311 692.061 -0.713378
It. 3, RSS = 15049.2, Par. = -4.05919 692.114 -0.713528
It. 4, RSS = 15049.2, Par. = -4.05942 692.113 -0.713525
51
R^2=0.9849772> 0.9161 (Excel)
52. 0.0%
20.0%
40.0%
60.0%
80.0%
100.0%
120.0%
0 5 10 15 20 25 30 35
view_count
predictionR
prediction_xls
Levernberg-Marquardt法による非線形回帰(1)
エクセル回帰よりもRの方が精緻に最初の10日間の動きを表現出来ている。
モデルでは、2日目で初速再生数の6割、1週間で25%、1ヵ月で8.5%に摩耗する。
アップロードからの経過日数
初
速
に
対
す
る
摩
耗
率
1日あたりの再生数摩耗状況
52
73. ダッシュボードって?
【ダッシュボードの定義】
1.A dashboard is a visual display(ディスプレイ上のビジュアル)
of
2.the most important information needed to achieve one or more objectives
(目標を達成するための最も大切な情報を集約している)
that has been
3.consolidated on a single computer screen(一つのスクリーンで見ることが出来る)
so it can be
4.monitored at a glance(一目で確認が出来る)
73
Hinweis der Redaktion 特に注目しているのは、匠の技的な話や事業ドメイン知見の強みがなくなってきたこと。
Deep learningもパラメーターチューニングによって、重要な特徴量を抽出してしまう世界観。
破壊的なアルゴリズムだと思っている。 ちなみに、データサイエンティストは前処理で一度死にます。
実は、機械学習がメインなのではなく、インプットデータを作るまでが極めて重要。