Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

ビッグデータはどこまで効率化できるか?

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Wird geladen in …3
×

Hier ansehen

1 von 34 Anzeige

ビッグデータはどこまで効率化できるか?

Herunterladen, um offline zu lesen

第3回ビッグデータと統計学研究集会@統計数理研究所における「ビッグデータはどこまで効率化できるか?」の資料です(2013/05/27)
http://dsms.iic.hokudai.ac.jp/BIGDATA/%E7%A0%94%E7%A9%B6%E9%9B%86%E4%BC%9A/3rd/

第3回ビッグデータと統計学研究集会@統計数理研究所における「ビッグデータはどこまで効率化できるか?」の資料です(2013/05/27)
http://dsms.iic.hokudai.ac.jp/BIGDATA/%E7%A0%94%E7%A9%B6%E9%9B%86%E4%BC%9A/3rd/

Anzeige
Anzeige

Weitere Verwandte Inhalte

Diashows für Sie (20)

Andere mochten auch (20)

Anzeige

Ähnlich wie ビッグデータはどこまで効率化できるか? (20)

Anzeige

Aktuellste (20)

ビッグデータはどこまで効率化できるか?

  1. 1. ビッグデータ分析は どこまで効率率率化できるか 株式会社Preferred Infrastructure リサーチャー&Jubatusリーダー ⽐比⼾戸  将平 2013/05/27 第3回ビッグデータと統計学研究集会
  2. 2. 概要:ビッグデータ分析を⽀支える3本の柱 効率率率化のために重要な3つめの柱の話をします ビッグデータ分析 ビッグデータ ITインフラ 統 計 学 デ ー タ サ イ エ ン テ ス ト ?
  3. 3. l  ビッグデータ分析の現状 l  何が効率率率化をもたらすか? l  実例例 l  まとめ Agenda
  4. 4. ビッグデータ分析の導⼊入:まだまだこれから l  IBMの2012年年調査 l  24%がまだビッグデータ活⽤用について調査段階 l  47%がビッグデータ活⽤用⽅方法について検討段階 l  わずか6%が実際に導⼊入してビジネス価値を⽣生み出している l  導⼊入の困難さと効率率率化の困難さがやや混同されている IBM Institute of Business Value “Analytics: The real-world use of big data”, 2013
  5. 5. Volume Variety Velocity 蓄積 分析 ビッグデータ分析プロセス 5 Complex Event Processing Hadoop NoSQL バイオ テキスト M2M メディア
  6. 6. データ分析から深い解析へ 6 分析 ⾒見見える化集計 検索索 ルール処理理 SQL DWH BI CEP M/RCQL 深い 解析 カテゴリ分類 レコメンド 異異常検知 予測 機械学習 (Machine Learning)
  7. 7. ビッグデータ 解析 データ アナリティクス ビ グ デ ー タ ビッグデータ分析の現状:ブラックボックス? 7 ビッグデータ 分析 データ アナリティクス 応⽤用 利利益最⼤大化 コスト最⼩小化 需要予測 故障予知 営業戦略略最適化 パーソナライズ マーケ最適化
  8. 8. ビ グ デ ー タ ビッグデータ処理理系と解析ソフトウェアの組合せ 8 データサイエンティスト ビッグデータ処理理系 応⽤用 利利益最⼤大化 コスト最⼩小化 需要予測 故障予知 営業戦略略最適化 パーソナライズ マーケ最適化 ⼤大規模DB 解析ソフトウェア
  9. 9. ビッグデータ分析の導⼊入と効率率率化における3つの壁 IT 2 3 l  パターン1:ビジネスに結びつける組織・体制   l  パターン2:データ収集と蓄積の基盤   l  ☆パターン3:解析の⼿手法とスキルと効果測定  
  10. 10. 壁パターン1:ビジネスに結びつける組織・体制   l  経営陣による戦略略決定、組織横断のチームづくり l  関係部⾨門全てに対する負担要請と利利害調整 l  ビッグデータ分析の効果の公平な分配 IT CAO
  11. 11. 壁パターン2:データ収集と蓄積の基盤   l  データが収集されていない、組織内にはるが出て来ない l  蓄積するための統合ITインフラが⽤用意されていない l  部⾨門単位でコストをかけるにはリスクが⾼高すぎる …そこをなんとか… 機密情報だからなー 個⼈人情報保護もあるし。 そんなデータないよ。 え?新しく取れ? (⾯面倒だな…) データサイエンティスト マネージャー 現場社員
  12. 12. 壁パターン3:解析の⼿手法とスキルと効果測定 l  統計学が重要というコンセプトレベルでは皆同意 l  ⼀一⽅方でデータサイエンティストへの過度度の期待 l  「うちのビジネスをよく理理解してくれて〜~」 l  「コミュニケーション能⼒力力とPM⼒力力⾼高くて〜~」 l  「統計も機械学習の最新技術も全部わかってて〜~」 l  「PDCAサイクル回すの⼿手伝ってくれて〜~」 あー完璧なデータサイエンティスト どっかにいないかな〜~ 上層部 データサイエンティスト ……………………
  13. 13. スキルの問題:教育によりある程度度解決する⾒見見込み l  真実:完璧なデータサイエンティストは存在しない Communication Skill Business Understanding Project Management
  14. 14. データサイエンティストグループの構築や 仕事を依頼する側のリテラシーの話は除外 l  主に導⼊入の困難さの解決につながる話しであるため l  「データサイエンティストのつくり⽅方」 l  「(道具としての)データサイエンティストのつかい⽅方」 ( ) PFI 2013/03/28 Preferred Infrastructure Jubatus Slideshareにて公開中 PFI 2012/09/13 Preferred Infrastructure Jubatus
  15. 15. l  ビッグデータ分析の現状 l  何が効率率率化をもたらすか? l  実例例 l  まとめ Agenda
  16. 16. 第3の⽀支え:進化した解析⽤用ソフトウェア 今ほとんど触れられることのない部分 ビッグデータ分析 ビッグデータ ITインフラ 統 計 学 デ ー タ サ イ エ ン テ ス ト 進 化 し た 解 析 ⽤用 ソ フ ト
  17. 17. 現状使われているソフトウェア群 RDB / NoSQL Hadoop / SQL-like Analytics
  18. 18. ○○○出現以前のビッグデータ分析プロセス [データサイエンティスト w/ Hadoop+R+Weka, 2013] DB
  19. 19. プログラム⾔言語出現以前のプログラミング [ENIAC, 1946] 出典:wikipedia.org l  急募!配線エンジニア l  設計書通りに壁の⽳穴から⽳穴へ配線を繋ぐだけの簡単なお仕事 l  これからのコンピュータ時代に求められるスキルが⾝身につきます!
  20. 20. 解析ソフトウェアの進化:あまり考慮されていない 今後もこれからのツールがずっと使われるのか? l  SPSS: 1975- l  Matlab: 1984- l  Weka: 1993- l  GNU R: 1996- l  元のS⾔言語は 1984- RDB / NoSQL Hadoop / SQL-like Analytics
  21. 21. 統計リテラシーの向上と解析ツールの進歩により データサイエンティスト不不要のケースが増⼤大
  22. 22. 健全なビッグデータ分析を実現するために l  ビッグデータという⾔言葉葉によって データとミドルウェアだけに注⽬目が 集まっている l  そこで解決できない課題を⼈人⼒力力で何 とかしてくれるデータサイエンティ ストの出現と、その理理想像に関する 議論論が盛んに⾏行行われている l  組織の意識識変⾰革や経営陣・マネジメ ント層の統計リテラシー向上も重要 だが、その他の変化も⾒見見失ってはい けない 解析ソフト ⼈人 組織 データ ミドルウェア
  23. 23. l  ビッグデータ分析の現状 l  何が効率率率化をもたらすか? l  実例例 l  まとめ Agenda
  24. 24. 解析ソフトウェアの進化とは l  何が解析ソフトウェアをどう変えるのか l  メモリの⼤大容量量化→インメモリ処理理のスケーラビリティ向上 l  仮想化技術→⾯面倒なデータ管理理をユーザーから隠蔽 l  ネットワークの⾼高速化→処理理結果を瞬時に伝送可能 l  ブラウザ上GUIの進化→ブラウザからカンタンにに使えるUI l  クラウド→環境構築と性能増減のコストがほぼゼロに l  進化した解析ソフトウェアの特徵 l  インメモリ動作:解析処理理のインタラクティブ性を重視 l  クラウド、SaaS化:データは向こう側に置いて結果だけ得る l  使いやすいUIに特化:ユーザーの敷居を出来る限り下げる l  シンプルな課⾦金金体系:無料料トライアル+機能x⽉月額料料⾦金金
  25. 25. 紹介する実例例 l  インタラクティブなデータ可視化ツール l  QlikView l  Tableau l  表形式データ加⼯工ツール l  Fivetran l  カンタンに使える機械学習ツール l  bigML l  Bazil l  データサイエンティストのお助けツール l  MLbase
  26. 26. インタラクティブなデータ可視化(1/2) QlikTech - QliKview (1996-) l  従来のBIツールとの違い:セルフサービス型 l  データをインメモリで保持しビューをその場で変更更可能 l  複数の情報源を透過的に組合せ検索索しながら深堀り・絞込み l  概要ムービー
  27. 27. インタラクティブなデータ可視化(2/2) Tableau (2003-) l  VizQLという独⾃自の可視化クエリ⾔言語に基づいたシステム l  Amazon EC2で動作可能、クラウドサービスもβテスト中 l  サンプルデモ
  28. 28. 表形式データ加⼯工ツール: Fivetran (2013-) l  完全ブラウザベースで表形式データの処理理を実⾏行行 l  「ExcelとMatlabの間」 l  →独⾃自の処理理クエリを⼊入⼒力力すると結果が次の表になる l  単なる変換から集計、時系列列分析まで機能を拡張中 l  サイト(現在はInvitationのみ)
  29. 29. カンタンに使える機械学習ツール(1/2) bigML (2012-) l  “Machine Learning for Everyone” l  決定⽊木アルゴリズムによる学習&予測フローを固定化 l  パラメータ調整や結果の表⽰示を重視 l  動作デモ
  30. 30. 分析 担当者 テキスト ログ/履履歴   Webブラウザ クラウド 予測要因 予測評価 数値データ カンタンに使える機械学習ツール(2/2) Preferred Infrastructure - Bazil (2013-) l  ⾮非構造データにフォーカスした分類ツール l  テキストやログの前処理理機能+線形分類モデルを学習&予測 l  予測結果だけでなく有効な特徴量量まで含めて可視化 l  紹介サイト
  31. 31. データサイエンティストのお助けツール UC Berkley - MLbase (2013-) l  機械学習タスクの実⾏行行クエリを抽象的に記述 l  アルゴリズムやパラメータを変更更して分散実⾏行行 [Kraska+, CIDR2013]
  32. 32. 解析ソフトウェアの変化がもたらすもの: データサイエンティストの負担が減る l  今は⾮非⼒力力でもソフトウェアの⾼高性能化と抽象化が後押し l  不不要になる:⾯面倒なデータ管理理や前処理理の繰り返し l  ⾃自動化される:実験設定を変更更しては再実⾏行行の試⾏行行錯誤 l  敷居が下がる:⼀一般ユーザーがExcelのようにこなせる仕事 従来のソフトウェア基盤 新しいソフトウェア基盤 BI ・例例:Cognos、BusinessObjects ・DB上でのバッチ処理理 ・固定のビュー・ドリルダウン ・定型的なレポート中⼼心 ・例例:QlikView、Tableau ・インメモリで⾼高速処理理 ・⾃自由に変更更可能なビュー ・インタラクティブな分析 機械学習 ・例例:R、MATLAB ・任意の解析処理理が実現可能 ・専⽤用スクリプトの記述が必要 ・結果の解釈は重視されていない ・例例:bigML、Bazil ・解析フローは固定、調整可 ・スクリプト無し、設定のみ ・結果の可視化なども統合
  33. 33. l  ビッグデータ分析の現状 l  何が効率率率化をもたらすか? l  実例例 l  まとめ Agenda
  34. 34. まとめ l  ビッグデータ分析を効率率率化するためのソフトウェアが 必ずこれからどんどん市場に出てきます l  この解析ソフトウェアの進化は、データインフラの整備、 統計リテラシーの向上、組織的ビッグデータ戦略略の浸透、 データサイエンティストの育成と並⾏行行して進みます l  重要なスキル、組織のIT戦略略、ソフトウェア、ミドル ウェア、ハードウェア、コンピュータアーキテクチャは 刷新サイクルがそれぞれ異異なります l  それを⾒見見極めるのが最先端を逃さないために重要です

×