SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
iAnalysis合同会社	
  
代表・最⾼高解析責任者  倉橋⼀一成	
  

                            1
    設⽴立立:2011年年3⽉月24⽇日	
  
    Web:http://ianalysis.jp/	
  
    本社:東京都港区南⻘青⼭山2-‐‑‒2-‐‑‒15	
  ウィン⻘青⼭山	
  
    取引先業種	
  
     ◦  製薬会社	
  
     ◦  医療療系⽀支援・コンサルティング会社	
  
     ◦  広告代理理店	
  
     ◦  ⼈人材サービス会社、ソーシャルゲーム会社	
                【本社エントランス】	
  

     ◦  商社、統計解析会社	
  
    医療療分野から始まり、多種多様な業種へのコンサルティング	
  
     ◦  Twitter:@iAnalysisLLC	
  
     ◦  Facebook:	
  http://www.facebook.com/ianalysis	
  

                                                               2
【経歴】	
  	
  
    	
  東京⼤大学Ph.D	
  (2011),	
  Statistician,	
  Data	
  Scientist,	
  Data	
  Miner	
  
	
  【専⾨門】	
  
    	
  cDNAマイクロアレイ、臨臨床試験データ、レセプトデータ、	
  
    	
  電⼦子カルテ・医療療オーダーデータ、マーケティングデータ	
  
	
  【スキル】	
  
     	
  R,	
  SAS,	
  SPSS,	
  Visual	
  C++,	
  Ruby	
  on	
  Rails,	
  Python	
  
	
  【主な実績】	
  
     	
  ・2005:NPO⽇日本臨臨床研究⽀支援ユニット、解析担当	
  
    	
    腎臓癌患者の調査データの解析(SAS)	
  
    	
    レセプトデータの解析と結果のレポーティング(R)	
  
    	
  ・2007、2009:スタットコム株式会社、統計解析者	
  
    	
    ⼩小児癌の臨臨床試験のプロトコルに沿った解析とレポーティング	
  
    	
    術後乳癌患者のQOLに関する研究の解析と統計アドバイス	
  
    	
  ・2009〜~2010:帝京⼤大学、医師への統計コンサルタント	
  
    	
    論論⽂文化にあたっての医師へのアドバイスと解析	
  
    	
    様々な科の医師に対してのコンサルタント(内科、外科、眼科など)スタットコム株式会社、統計解析者	
  
    	
  ・2010:キャピタルメディカ株式会社、プロジェクトメンバー	
  
    	
    レセプトデータを活⽤用した新規プロジェクトの⽴立立ち上げメンバー	
  
    	
  ・2011:iAnalysis合同会社	
  設⽴立立	
  
※Twitter:	
  @isseing333	
  
※blog:	
  「おとうさんの解析⽇日記」	
  http://d.hatena.ne.jp/isseing333/	
  

                                                                                           3
    『Statistics』を読んで内容を話しています	
  
    これまで第1回〜~第5回まで開催	
  
     ◦    第1章:制御された実験	
  
     ◦    第2章:観察研究	
  
     ◦    第3章:ヒストグラム	
  
     ◦    第4章:平均と標準偏差	
  
     ◦    第5章:正規近似	
  
     ◦    第6章:測定誤差	
  
     ◦    第7章:直線プロット	
  
     ◦    第8,	
  9章:相関	
  
     ◦    第10,	
  11,	
  12章:回帰	
  
     ◦    第13,	
  14章:確率率率	
  
     ◦    第15章:⼆二項式	
  
            ここまで進んでます	
  




                                      4
『Statistics』に⼊入る前に	
  



                     5
何で統計の勉強を	
  
 するんだっけ?	
  


               6
7
1	
      •  分析⼒力力に劣劣る企業	


2	
    •  分析⼒力力の活⽤用が限定的な企業	


3	
    •  分析⼒力力の組織的な強化に取り組む企業	


4	
  
      •  分析⼒力力はあるが決定打に⾄至らない企業	


5	
    •  分析⼒力力を武器とする企業	


                                  8
ステージ	
                       組織戦略略	
                                ⼈人	
                        技術	
  

                                                                経営陣のコミッ
                    ⽬目標	
                 現状	
        スキル	
                      企業⽂文化	
  
                                                                 トメント	
  

                                                                                              データがない。
                             分析はほとん                                            データアレル
1.  分析⼒力力に      顧客・市場・競                                                                       精度度が低い。定
                             ど⾏行行われてい                  なし	
         なし	
       ギー。直感に頼
    劣劣る企業	
     合について知る。	
                                                                    義が曖昧。シス
                                 ない。	
                                            る。	
  
                                                                                              テムがばらばら。	
  



                                                                                              各事業ばらばら
                                    ごく狭い範囲                                     客観的なデータ        にデータを収集
2.  分析⼒力力の      データ分析の経
                                    でしかデータ         ⼀一部の部⾨門にア      特定事業や戦術      が必要と感じて        している。重要
    活⽤用が限       験を⾃自主的に蓄
                                    収集・分析が         ナリストがいる        的な対応に限ら      いる。⼀一部の部       なデータが⽋欠落落
    定的な企        積し、トップの
                                    ⾏行行われていな       が孤⽴立立している。	
    れている。	
     ⾨門では関⼼心が⾼高     している。シス
      業	
        関⼼心を引く。	
  
                                        い。	
                                     まっている。	
     テムが統合され
                                                                                                ていない。	
  




                 組織横断型で
3.  分析⼒力力の      データ収集・分                            多くの部⾨門にア                  経営陣は事実を
                                                                分析⼒力力を競争優                     システムやソフ
    組織的な        析を⾏行行う。全社    分析プロセス                ナリストがいる                   重んじる姿勢を
                                                                位にすることに                       トウェアは整い、
    強化に取        共通の業績評価      は各部⾨門不不統              が、ネットワー                   打ち出している
                                                                ⼀一部の幹部が興                      データウェアハ
    り組む企        指標を設定する。      ⼀一である。	
             ク化されていな                   が、抵抗に遭っ
                                                                味をもち始めた。	
                    ウスも拡張中。	
  
      業	
       データ分析で事                               い。	
                     ている。	
  
                 業機会を探す。	
  



                                                                                                          9
ステージ	
                     組織戦略略	
                                ⼈人	
                      技術	
  

                                                               経営陣のコミッ
                  ⽬目標	
                 現状	
        スキル	
                     企業⽂文化	
  
                                                                トメント	
  


               組織横断型の分                           スキル開発は⾏行行
4.  分析⼒力力は                        データ分析が                                                  データの精度度は
                析プラット                             われているが、
    あるが決                          ある程度度まで                      経営陣のサポー      事実に基づく意       ⾼高く、全社的な
               フォームを構築                           まだ⽔水準に達し
    定打に⾄至                         業務プロセス                       トが得られてい      思決定の浸透を       分析戦略略もある。
               し、組織として                           ていない、また
    らない企                          に組み込まれ                          る。	
       図っている。	
     分析環境は整っ
               分析⼒力力を⾝身につ                        は適材適所では
      業	
                          ている。	
                                                    ている。	
  
                  ける。	
                             ない。	
  

                                                 ⾼高度度なスキルを
               データ分析から
                                                 備え、意欲のあ                    事実に基づいて
               多くの隠されて      データ分析が
5.  分析⼒力力を                                        る専⾨門家がそ      CEOを筆頭に経     意思決定を下す。 組織横断型のシ
               いた事実を導き      定着し、⾼高度度
    武器とす                                         ろっている。周       営陣が積極的に      実験し学習する    ステムが整備・
               出す。継続的に      に統合化され
     る企業	
                                       辺業務はアウト       取り組んでいる。	
   姿勢が浸透して    運⽤用されている。	
  
               データやシステ       ている。	
  
                                                 ソースされてい                       いる。	
  
               ムの改善を図る。	
  
                                                      る。	
  




                                                                 『分析⼒力力を武器とする企業』より	
  
                                                                                                      10
    ネットフリックス	
  




     ◦  1997〜~	
  
     ◦  DVDのオンラインレンタル	
  
    既に全国展開していた「ブロックバスター」を破綻に追いやるほど
     成⻑⾧長	
  
     ◦  http://www.afpbb.com/article/economy/2759296/6233470	
  
                                                                   11
    ビジネスモデル:オンラインでDVDで注⽂文し郵便便で届きポストで返
     す	
  
     ◦  1999年年の売上:500万ドル	
  
     ◦  2006年年の売上:10億ドル	
  
    7年年で売上200倍!	
  
    成功した理理由は、、、	
  



数学、統計、データマイニング	
  



                                         12
    顧客の好みを分析して映画をレコメンド(推奨)する	
  
     ◦  アマゾンのレコメンドが有名	
  



    たまにしか借りない、利利益率率率の⾼高い顧客に優先してDVDを届けたい
     が、頻繁に借りる会員が「不不公平だ」と感じてしまう(→訴訟も)	
  
    「利利益の最適化」と「公平な配送」のバランスを計算するアルゴリ
     ズムを開発	
  


    新しい映画の頒布権を購⼊入するとき、過去に借りられた「似ている
     ジャンルの映画」と同じくらいレンタルされるだろう	
  


    新しいサービスを作るとき、それが本当に効果があるかどうか、A/
     Bテストによって常にチェックする	
  


                                           13
    野球:アスレチックス、レッドソックス(映画:マネーボール)	
  
    娯楽:アマゾン、ネットフリックス	
  
    ⼩小売:ウォルマート	
  
    Web:グーグル、ヤフー	
  
    ソーシャルゲーム:DeNA、グリー	
  
    ⾦金金融:キャピタル・ワン	
  




分析すると業績が上がる!?	
  



                                         14
データマイニング	
                  Phase	
  I	
  
               データの収集・加工	
  
                  DBの作成・接続	
  
                    ログの収集	
  
                   システム開発	
  
                  サーベイ、調査	
                           Phase	
  IV	
  
                                                      効果検証	
  
      Phase	
  II	
                                   デザイン	
  
                                  Phase	
  III	
       A/Bテスト	
  
    データの可視化	
                    モデル作成	
  
      ヒストグラム	
                                       ランダム化試験	
  
                                  予測モデル	
              実験計画	
  
       散布図	
  
                                  機械学習	
  
     時系列プロット	
  
                                 クラスタリング	
  
    円グラフ、棒グラフ	
  
                                  因果推論	
  
      地域プロット	




                                                                        15
    『Statistics』を読んで内容を話しています	
  
    これまで第1回〜~第5回まで開催	
  
     ◦    第1章:制御された実験	
  
     ◦    第2章:観察研究	
  
     ◦    第3章:ヒストグラム	
  
     ◦    第4章:平均と標準偏差	
  
     ◦    第5章:正規近似	
  
     ◦    第6章:測定誤差	
  
     ◦    第7章:直線プロット	
  
     ◦    第8,	
  9章:相関	
  
     ◦    第10,	
  11,	
  12章:回帰	
  
     ◦    第13,	
  14章:確率率率	
  
     ◦    第15章:⼆二項式	
  
            ここまで進んでます	
  



     ◦  ⼤大事なところの復復習と、間を⾶飛ばして19章からやります	
  

                                            16
1000⼈人	
            1000⼈人	
  




コンバージョン、直帰率率率、サイト滞在率率率、リピート率率率などを⽐比較	
  


                                        17
    エクセルの表をイメージ	
  
    1つのシートが、1つのデータ	
  


                                変数、項⽬目	
  
                ID	
      年年齢	
      ⾝身⻑⾧長	
     体重	
       …	
  

                 1	
       20	
      165	
       60	
       …	
  

     レコード	
      2	
       43	
      178	
       73	
       …	
  

                 3	
       36	
      163	
       57	
       …	
  

                ...	
      ...	
      ...	
       ...	
     …	
  




                                                                    18
    1つの変数を要約して図にしたもの	
  
    「分布」を⽰示している	
  




                            19
    平均値:全体の平均値、分布の位置を表す	
  
    標準偏差:分布の「ばらつき」や「広がり」を表す	
  

                       平均値:170cm	
  




                            標準偏差:10cm	
  


                              平均値±標準偏差の範囲に	
  
                              約70%のデータが⼊入っている	
  
                                   ※変数が正規分布に近い場合	
  




                                                  20
⼆二峰性の分布	
           すそを引いた分布、ベキ分布	
  




⼤大⼈人と⼦子供が混じっている?	
     ⻄西暦400年年〜~2011/11/30までの地震	
  
    (ダミーデータ)	
                 (実際のデータ)	
  

                                                       21
    散布図:2変数の関係を表した図	
  
    相関:2変数の関係を数値にしたもの(-‐‑‒1〜~1)	
  


     体重	
                               y	
  =	
  a	
  +	
  bx	
  

                               誤差	
  




                                    ⾝身⻑⾧長	
  

                                                                     22
    相関係数だけでなく、散布図をチェックすることも⼤大事	
  


                                      23
    確率率率はギャンブルから始まった	
  
     ◦  1600年年代、ギャンブラーがサイコロ投げの”確率率率”を数学者のパスカルと
        フェルマーに相談したことが発端	
  


    胴元が勝つにはどういうルールにすれば良良いか??	
  
      【問題】	
  
      1.	
  親がサイコロを4回振って1の⽬目がでると親が勝利利。	
  
      2.	
  親が2個のサイコロを24回振って1,	
  1の⽬目がでると親が勝利利。	
  
      それぞれ親が勝つ確率率率は??	
  

      【解答】	
  
      (1	
  –	
  1/6)^4	
  =	
  0.482	
  
      1	
  –	
  0.482	
  =	
  0.515	
  

      (1	
  –	
  1/36)^24	
  =	
  0.509	
  
      1	
  –	
  0.509	
  =	
  0.491	
  

      ルール1の⽅方が、親が勝ちやすい	
  

                                                       24
    統計は政治から始まった	
  

               iAnalysis	
  Facebook:h8p://www.facebook.com/ianalysis	
  




    1800年年代、イギリスやフランスで国勢調査が⾏行行われる	
  
    ガウスが正規分布に関して研究	
  


                                                                            25
    選挙の調査	
  
             1億⼈人	
          1,000⼈人(⼗十万分の1)	
  




    サンプリング調査で分かるのは、”⺟母集団”の”平均値”	
  
    ”ランダムサンプリング”していることが条件	
  




                                                   26
    5%という数字の根拠を⾒見見たことがありません	
  
     ◦  もしあれば教えて下さい	
  


    もっと重要なのは”⼈人数”	
  
     ◦  ⼈人数が多ければ、⺟母集団に対する推測が正確になる	
  
     ◦  95%信頼区間が狭くなる	
  




                                        27
    このスキルがあると、実務への応⽤用範囲が広がります	
  

    教師付き学習	
  
     ◦  “予測的”データマイニング	
  
     ◦  過去のデータを使って将来の値を予測する	
  
      1.  回帰モデル	
  
      2.  カテゴリ予測	
  
      3.  機械学習	
  
    ⾮非教師付き学習	
  
     ◦  “記述的”データマイニング	
  
     ◦  データのパターンを発⾒見見する	
  
      A.  アソシエーションルール	
  
      B.  クラスタリング	
  
      C.  テキストマイニング	
  

                       “Data	
  Mining	
  and	
  Statistics	
  for	
  Decision	
  Making.”	
  
                       『意思決定のためのデータマイニングと統計学』	
  
                       Stphane	
  Tuffry(通称DMDM本)	
  

                                                                                          28
    統計ソフト	
  
     ◦  R	
  、SPSS	
  、SAS、Statistica、Mathmatica、StatView、Stata、etc.	
  

    プログラミング	
  
     ◦  Python、Rails、etc.	
  

    データベース	
  
     ◦  SQL系、Hadoop、etc.	
  

    コマンドライン	
  
     ◦  Unix系のコマンド	
  

    挙げればキリが無いけど。。。	
  




                                                                           29
ぜひデータ分析を活⽤用して	
  
業務アップに役⽴立立てて下さい!	
  
  contact@ianalysis.jp	
  

Weitere ähnliche Inhalte

Andere mochten auch

遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333Issei Kurahashi
 
データサイエンティストになるために
データサイエンティストになるためにデータサイエンティストになるために
データサイエンティストになるためにIssei Kurahashi
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Issei Kurahashi
 
Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Issei Kurahashi
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333Issei Kurahashi
 

Andere mochten auch (6)

遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333
 
データ解析
データ解析データ解析
データ解析
 
データサイエンティストになるために
データサイエンティストになるためにデータサイエンティストになるために
データサイエンティストになるために
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
 
Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
 

Ähnlich wie おしゃスタVI 倉橋

People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~KeiHasegawa2
 
本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法takashi sasaki
 
杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2junji kumooka
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりThe Japan DataScientist Society
 
Bc会社紹介090401
Bc会社紹介090401Bc会社紹介090401
Bc会社紹介090401SO
 
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4shakezo
 
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上aslead
 
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上aslead
 
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料BrainPad Inc.
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性BrainPad Inc.
 
大規模案件でデータサイエンスチームを活躍させる取り組み
大規模案件でデータサイエンスチームを活躍させる取り組み大規模案件でデータサイエンスチームを活躍させる取り組み
大規模案件でデータサイエンスチームを活躍させる取り組みRecruit Lifestyle Co., Ltd.
 
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成webcampusschoo
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するTakahiro Kubo
 
【LaKeel】LaKeel HR catalog.pdf
【LaKeel】LaKeel HR catalog.pdf【LaKeel】LaKeel HR catalog.pdf
【LaKeel】LaKeel HR catalog.pdfD-GHOST, Inc.
 
情シスのひみつ
情シスのひみつ情シスのひみつ
情シスのひみつcloretsblack
 
顧客理解と情報の構造化を軸にした業務展開
顧客理解と情報の構造化を軸にした業務展開顧客理解と情報の構造化を軸にした業務展開
顧客理解と情報の構造化を軸にした業務展開CAPS Association, Inc.
 
20230610ビジネス実務学会_基調講演.pdf
20230610ビジネス実務学会_基調講演.pdf20230610ビジネス実務学会_基調講演.pdf
20230610ビジネス実務学会_基調講演.pdf東京工業大学
 

Ähnlich wie おしゃスタVI 倉橋 (20)

People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
 
本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法
 
杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
 
Bc会社紹介090401
Bc会社紹介090401Bc会社紹介090401
Bc会社紹介090401
 
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
 
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
 
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
 
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
 
大規模案件でデータサイエンスチームを活躍させる取り組み
大規模案件でデータサイエンスチームを活躍させる取り組み大規模案件でデータサイエンスチームを活躍させる取り組み
大規模案件でデータサイエンスチームを活躍させる取り組み
 
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
 
120620 ciopmo
120620 ciopmo120620 ciopmo
120620 ciopmo
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
【LaKeel】LaKeel HR catalog.pdf
【LaKeel】LaKeel HR catalog.pdf【LaKeel】LaKeel HR catalog.pdf
【LaKeel】LaKeel HR catalog.pdf
 
情シスのひみつ
情シスのひみつ情シスのひみつ
情シスのひみつ
 
顧客理解と情報の構造化を軸にした業務展開
顧客理解と情報の構造化を軸にした業務展開顧客理解と情報の構造化を軸にした業務展開
顧客理解と情報の構造化を軸にした業務展開
 
DREAの全体像
DREAの全体像DREAの全体像
DREAの全体像
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
20230610ビジネス実務学会_基調講演.pdf
20230610ビジネス実務学会_基調講演.pdf20230610ビジネス実務学会_基調講演.pdf
20230610ビジネス実務学会_基調講演.pdf
 

Mehr von Issei Kurahashi

コホート研究 isseing333
コホート研究 isseing333コホート研究 isseing333
コホート研究 isseing333Issei Kurahashi
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333Issei Kurahashi
 
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333Issei Kurahashi
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333Issei Kurahashi
 

Mehr von Issei Kurahashi (9)

iAnalysis NY視察
iAnalysis NY視察 iAnalysis NY視察
iAnalysis NY視察
 
おしゃスタV
おしゃスタVおしゃスタV
おしゃスタV
 
平方和の分解
平方和の分解平方和の分解
平方和の分解
 
コホート研究 isseing333
コホート研究 isseing333コホート研究 isseing333
コホート研究 isseing333
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
 
統計概論 isseing333
統計概論 isseing333統計概論 isseing333
統計概論 isseing333
 
分布 isseing333
分布 isseing333分布 isseing333
分布 isseing333
 

おしゃスタVI 倉橋

  • 2.   設⽴立立:2011年年3⽉月24⽇日     Web:http://ianalysis.jp/     本社:東京都港区南⻘青⼭山2-‐‑‒2-‐‑‒15  ウィン⻘青⼭山     取引先業種   ◦  製薬会社   ◦  医療療系⽀支援・コンサルティング会社   ◦  広告代理理店   ◦  ⼈人材サービス会社、ソーシャルゲーム会社   【本社エントランス】   ◦  商社、統計解析会社     医療療分野から始まり、多種多様な業種へのコンサルティング   ◦  Twitter:@iAnalysisLLC   ◦  Facebook:  http://www.facebook.com/ianalysis   2
  • 3. 【経歴】      東京⼤大学Ph.D  (2011),  Statistician,  Data  Scientist,  Data  Miner    【専⾨門】    cDNAマイクロアレイ、臨臨床試験データ、レセプトデータ、    電⼦子カルテ・医療療オーダーデータ、マーケティングデータ    【スキル】    R,  SAS,  SPSS,  Visual  C++,  Ruby  on  Rails,  Python    【主な実績】    ・2005:NPO⽇日本臨臨床研究⽀支援ユニット、解析担当      腎臓癌患者の調査データの解析(SAS)      レセプトデータの解析と結果のレポーティング(R)    ・2007、2009:スタットコム株式会社、統計解析者      ⼩小児癌の臨臨床試験のプロトコルに沿った解析とレポーティング      術後乳癌患者のQOLに関する研究の解析と統計アドバイス    ・2009〜~2010:帝京⼤大学、医師への統計コンサルタント      論論⽂文化にあたっての医師へのアドバイスと解析      様々な科の医師に対してのコンサルタント(内科、外科、眼科など)スタットコム株式会社、統計解析者    ・2010:キャピタルメディカ株式会社、プロジェクトメンバー      レセプトデータを活⽤用した新規プロジェクトの⽴立立ち上げメンバー    ・2011:iAnalysis合同会社  設⽴立立   ※Twitter:  @isseing333   ※blog:  「おとうさんの解析⽇日記」  http://d.hatena.ne.jp/isseing333/   3
  • 4.   『Statistics』を読んで内容を話しています     これまで第1回〜~第5回まで開催   ◦  第1章:制御された実験   ◦  第2章:観察研究   ◦  第3章:ヒストグラム   ◦  第4章:平均と標準偏差   ◦  第5章:正規近似   ◦  第6章:測定誤差   ◦  第7章:直線プロット   ◦  第8,  9章:相関   ◦  第10,  11,  12章:回帰   ◦  第13,  14章:確率率率   ◦  第15章:⼆二項式     ここまで進んでます   4
  • 7. 7
  • 8. 1 •  分析⼒力力に劣劣る企業 2 •  分析⼒力力の活⽤用が限定的な企業 3 •  分析⼒力力の組織的な強化に取り組む企業 4   •  分析⼒力力はあるが決定打に⾄至らない企業 5 •  分析⼒力力を武器とする企業 8
  • 9. ステージ   組織戦略略   ⼈人   技術   経営陣のコミッ ⽬目標   現状   スキル   企業⽂文化   トメント   データがない。 分析はほとん データアレル 1.  分析⼒力力に 顧客・市場・競 精度度が低い。定 ど⾏行行われてい なし   なし   ギー。直感に頼 劣劣る企業   合について知る。   義が曖昧。シス ない。   る。   テムがばらばら。   各事業ばらばら ごく狭い範囲 客観的なデータ にデータを収集 2.  分析⼒力力の データ分析の経 でしかデータ ⼀一部の部⾨門にア 特定事業や戦術 が必要と感じて している。重要 活⽤用が限 験を⾃自主的に蓄 収集・分析が ナリストがいる 的な対応に限ら いる。⼀一部の部 なデータが⽋欠落落 定的な企 積し、トップの ⾏行行われていな が孤⽴立立している。   れている。   ⾨門では関⼼心が⾼高 している。シス 業   関⼼心を引く。   い。   まっている。   テムが統合され ていない。   組織横断型で 3.  分析⼒力力の データ収集・分 多くの部⾨門にア 経営陣は事実を 分析⼒力力を競争優 システムやソフ 組織的な 析を⾏行行う。全社 分析プロセス ナリストがいる 重んじる姿勢を 位にすることに トウェアは整い、 強化に取 共通の業績評価 は各部⾨門不不統 が、ネットワー 打ち出している ⼀一部の幹部が興 データウェアハ り組む企 指標を設定する。 ⼀一である。   ク化されていな が、抵抗に遭っ 味をもち始めた。   ウスも拡張中。   業   データ分析で事 い。   ている。   業機会を探す。   9
  • 10. ステージ   組織戦略略   ⼈人   技術   経営陣のコミッ ⽬目標   現状   スキル   企業⽂文化   トメント   組織横断型の分 スキル開発は⾏行行 4.  分析⼒力力は データ分析が データの精度度は 析プラット われているが、 あるが決 ある程度度まで 経営陣のサポー 事実に基づく意 ⾼高く、全社的な フォームを構築 まだ⽔水準に達し 定打に⾄至 業務プロセス トが得られてい 思決定の浸透を 分析戦略略もある。 し、組織として ていない、また らない企 に組み込まれ る。   図っている。   分析環境は整っ 分析⼒力力を⾝身につ は適材適所では 業   ている。   ている。   ける。   ない。   ⾼高度度なスキルを データ分析から 備え、意欲のあ 事実に基づいて 多くの隠されて データ分析が 5.  分析⼒力力を る専⾨門家がそ CEOを筆頭に経 意思決定を下す。 組織横断型のシ いた事実を導き 定着し、⾼高度度 武器とす ろっている。周 営陣が積極的に 実験し学習する ステムが整備・ 出す。継続的に に統合化され る企業   辺業務はアウト 取り組んでいる。   姿勢が浸透して 運⽤用されている。   データやシステ ている。   ソースされてい いる。   ムの改善を図る。   る。   『分析⼒力力を武器とする企業』より   10
  • 11.   ネットフリックス   ◦  1997〜~   ◦  DVDのオンラインレンタル     既に全国展開していた「ブロックバスター」を破綻に追いやるほど 成⻑⾧長   ◦  http://www.afpbb.com/article/economy/2759296/6233470   11
  • 12.   ビジネスモデル:オンラインでDVDで注⽂文し郵便便で届きポストで返 す   ◦  1999年年の売上:500万ドル   ◦  2006年年の売上:10億ドル     7年年で売上200倍!     成功した理理由は、、、   数学、統計、データマイニング   12
  • 13.   顧客の好みを分析して映画をレコメンド(推奨)する   ◦  アマゾンのレコメンドが有名     たまにしか借りない、利利益率率率の⾼高い顧客に優先してDVDを届けたい が、頻繁に借りる会員が「不不公平だ」と感じてしまう(→訴訟も)     「利利益の最適化」と「公平な配送」のバランスを計算するアルゴリ ズムを開発     新しい映画の頒布権を購⼊入するとき、過去に借りられた「似ている ジャンルの映画」と同じくらいレンタルされるだろう     新しいサービスを作るとき、それが本当に効果があるかどうか、A/ Bテストによって常にチェックする   13
  • 14.   野球:アスレチックス、レッドソックス(映画:マネーボール)     娯楽:アマゾン、ネットフリックス     ⼩小売:ウォルマート     Web:グーグル、ヤフー     ソーシャルゲーム:DeNA、グリー     ⾦金金融:キャピタル・ワン   分析すると業績が上がる!?   14
  • 15. データマイニング Phase  I   データの収集・加工   DBの作成・接続   ログの収集   システム開発   サーベイ、調査   Phase  IV   効果検証   Phase  II   デザイン   Phase  III   A/Bテスト   データの可視化   モデル作成   ヒストグラム   ランダム化試験   予測モデル   実験計画   散布図   機械学習   時系列プロット   クラスタリング   円グラフ、棒グラフ   因果推論   地域プロット 15
  • 16.   『Statistics』を読んで内容を話しています     これまで第1回〜~第5回まで開催   ◦  第1章:制御された実験   ◦  第2章:観察研究   ◦  第3章:ヒストグラム   ◦  第4章:平均と標準偏差   ◦  第5章:正規近似   ◦  第6章:測定誤差   ◦  第7章:直線プロット   ◦  第8,  9章:相関   ◦  第10,  11,  12章:回帰   ◦  第13,  14章:確率率率   ◦  第15章:⼆二項式     ここまで進んでます   ◦  ⼤大事なところの復復習と、間を⾶飛ばして19章からやります   16
  • 17. 1000⼈人   1000⼈人   コンバージョン、直帰率率率、サイト滞在率率率、リピート率率率などを⽐比較   17
  • 18.   エクセルの表をイメージ     1つのシートが、1つのデータ   変数、項⽬目   ID   年年齢   ⾝身⻑⾧長   体重   …   1   20   165   60   …   レコード   2   43   178   73   …   3   36   163   57   …   ...   ...   ...   ...   …   18
  • 19.   1つの変数を要約して図にしたもの     「分布」を⽰示している   19
  • 20.   平均値:全体の平均値、分布の位置を表す     標準偏差:分布の「ばらつき」や「広がり」を表す   平均値:170cm   標準偏差:10cm   平均値±標準偏差の範囲に   約70%のデータが⼊入っている   ※変数が正規分布に近い場合   20
  • 21. ⼆二峰性の分布   すそを引いた分布、ベキ分布   ⼤大⼈人と⼦子供が混じっている?   ⻄西暦400年年〜~2011/11/30までの地震   (ダミーデータ)   (実際のデータ)   21
  • 22.   散布図:2変数の関係を表した図     相関:2変数の関係を数値にしたもの(-‐‑‒1〜~1)   体重   y  =  a  +  bx   誤差   ⾝身⻑⾧長   22
  • 23.   相関係数だけでなく、散布図をチェックすることも⼤大事   23
  • 24.   確率率率はギャンブルから始まった   ◦  1600年年代、ギャンブラーがサイコロ投げの”確率率率”を数学者のパスカルと フェルマーに相談したことが発端     胴元が勝つにはどういうルールにすれば良良いか??   【問題】   1.  親がサイコロを4回振って1の⽬目がでると親が勝利利。   2.  親が2個のサイコロを24回振って1,  1の⽬目がでると親が勝利利。   それぞれ親が勝つ確率率率は??   【解答】   (1  –  1/6)^4  =  0.482   1  –  0.482  =  0.515   (1  –  1/36)^24  =  0.509   1  –  0.509  =  0.491   ルール1の⽅方が、親が勝ちやすい   24
  • 25.   統計は政治から始まった   iAnalysis  Facebook:h8p://www.facebook.com/ianalysis     1800年年代、イギリスやフランスで国勢調査が⾏行行われる     ガウスが正規分布に関して研究   25
  • 26.   選挙の調査   1億⼈人   1,000⼈人(⼗十万分の1)     サンプリング調査で分かるのは、”⺟母集団”の”平均値”     ”ランダムサンプリング”していることが条件   26
  • 27.   5%という数字の根拠を⾒見見たことがありません   ◦  もしあれば教えて下さい     もっと重要なのは”⼈人数”   ◦  ⼈人数が多ければ、⺟母集団に対する推測が正確になる   ◦  95%信頼区間が狭くなる   27
  • 28.   このスキルがあると、実務への応⽤用範囲が広がります     教師付き学習   ◦  “予測的”データマイニング   ◦  過去のデータを使って将来の値を予測する   1.  回帰モデル   2.  カテゴリ予測   3.  機械学習     ⾮非教師付き学習   ◦  “記述的”データマイニング   ◦  データのパターンを発⾒見見する   A.  アソシエーションルール   B.  クラスタリング   C.  テキストマイニング   “Data  Mining  and  Statistics  for  Decision  Making.”   『意思決定のためのデータマイニングと統計学』   Stphane  Tuffry(通称DMDM本)   28
  • 29.   統計ソフト   ◦  R  、SPSS  、SAS、Statistica、Mathmatica、StatView、Stata、etc.     プログラミング   ◦  Python、Rails、etc.     データベース   ◦  SQL系、Hadoop、etc.     コマンドライン   ◦  Unix系のコマンド     挙げればキリが無いけど。。。   29