Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Wird geladen in …3
×

Hier ansehen

1 von 94 Anzeige

本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

Herunterladen, um offline zu lesen

2017/03/17 ヒカラボにて発表した資料
https://atnd.org/events/85720

2017/03/17 ヒカラボにて発表した資料
https://atnd.org/events/85720

Anzeige
Anzeige

Weitere Verwandte Inhalte

Diashows für Sie (20)

Ähnlich wie 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~ (20)

Anzeige

Weitere von Hisao Soyama (11)

Aktuellste (20)

Anzeige

本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

  1. 1. 本当に知ってる!? リアルなデータ分析の世界 ~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~ 祖山 寿雄 株式会社サイカ 2017/03/16 ヒカラボ
  2. 2. ヒカラボ 2017/03/16 2 自己紹介 ● 祖山 寿雄 – @who_you_me ● 株式会社サイカ – Statistics Division ● Data Analysis Engineer ● 社会学修士→ネットワークエンジニア→Webエン ジニア→DBエンジニア→データ分析エンジニア
  3. 3. 今日の目的
  4. 4. Before ● データサイエンティスト/AI/ディープラーニング 流行ってるけどなんだかよく分からない ● 自分もやってみたいけど、どこから何に手を付け
  5. 5. After ● AI/ディープラーニング/機械学習/統計学 これ らがどんなものか分かる ● これらの分野の将来像が分かる
  6. 6. ヒカラボ 2017/03/16 6 今日話さないこと ● 個別の手法の解説 – 自分で手を動かして学ばないと身につかないです – 自ら学ぶためのアドバイスはします ● 明日すぐに役立つこと – 明日役に立つことは明後日には役に立たなくなって るかもしれません
  7. 7. 1. AI/ディープラーニング/ 機械学習/統計学 一体何が違うのか
  8. 8. ヒカラボ 2017/03/16 8 一般的なイメージ (1/2) ● AI – なんかすごいもの – 人の仕事を奪うもの – いつかはこいつが人類を支配する日が来るらしい ● ディープラーニング – なんかすごいもの – 囲碁で人間に勝った
  9. 9. ヒカラボ 2017/03/16 9 一般的なイメージ (2/2) ● 機械学習 – よくわからない ● 統計学 – 昔授業でやったけどぜんぜんわからなかったやつ
  10. 10. ヒカラボ 2017/03/16 10 実際はこうじゃ
  11. 11. ヒカラボ 2017/03/16 11 AI (1/2) ● 人工的にコンピュータ上などで人間と同様の知 能を実現させようという試み、或いはそのため の一連の基礎技術を指す(Wikipedia) ● バズワードとして使われている「AI」は「機械 学習」とほぼ同義であり、その中の大半は 「ディープラーニング」 – 囲碁、将棋 – 自動運転 etc...
  12. 12. ヒカラボ 2017/03/16 12 AI (2/2) ● 「何でもできるすごいやつ」みたいに思われて いる実際はそんなことない ● 現に大手ベンダーとかが「AI」と称して売って いるのは単なる機械学習パッケージ – H社の事例 ● http://social-innovation.hitachi/jp/solutions/ai/ ● https://wirelesswire.jp/2016/11/57683/
  13. 13. ヒカラボ 2017/03/16 13 ディープラーニング ● 「機械学習」の一手法 ● パーセプトロン→ニューラルネットワーク→ ディープラーニング と進化してきた – 半ば見捨てられていた手法がムーアの法則により蘇 り世界を席巻するという胸熱展開ではある
  14. 14. ヒカラボ 2017/03/16 14 再掲
  15. 15. 残ったのは「機械学習」「統計学」 じゃあこれらはいったい?
  16. 16. の前に、説明してない 大事な言葉がもうひとつ
  17. 17. データサイエンス/ データサイエンティスト
  18. 18. ヒカラボ 2017/03/16 18 定義 (1/5) ● 「データサイエンティスト協会」なるものがあ るのでここを見れば分かるに違いない – http://www.datascientist.or.jp/ ● “実際には新しい職業である「データサイエン ティスト」には明確な定義がなく、対応領域も 広いことから、さまざまな課題も生まれていま す” – 定義ないんかーい
  19. 19. ヒカラボ 2017/03/16 19 定義はどこだ (2/5) ● がんばってPDF漁ったらあった – http://www.datascientist.or.jp/news/2014/pdf/1 210.pdf ● 「データサイエンティストとは、データサイエ ンス力、データエンジニアリング力をベースに データから価値を創出し、ビジネス課題に答え を出すプロフェッショナル」
  20. 20. ヒカラボ 2017/03/16 20 定義はどこだ (3/5) ● 「データサイエンス」「データエンジニアリン グ」 is 何 ● データサイエンス(力) – 「情報処理、人工知能、統計学などの情報科学系の 知恵を理解し、使う力」 ● データエンジニアリング(力) – 「データサイエンスを意味のある形に使えるように し、実装、運用できるようにする力」
  21. 21. ヒカラボ 2017/03/16 21 定義を求めて三千里 (4/5) ● よくわからんので、今春開設される滋賀大学 データサイエンス学部のサイトも見てみる – https://www.ds.shiga-u.ac.jp/ ● “データサイエンスとは社会に溢れているデータ から<価値>を引き出す学問です”
  22. 22. ヒカラボ 2017/03/16 22 やっと定義に出会えた (5/5) ● これは非常に分かりやすいし、皆さんがこの分 野に興味を持っているのもここなのでは – データから価値を引き出したいですよね? ● というわけで、やっと「機械学習」と「統計 学」の話に戻ります
  23. 23. 機械学習 vs. 統計学 (1/3) ● 結論から言うと「データから価値を引き出す」
  24. 24. ヒカラボ 2017/03/16 24 機械学習 vs. 統計学 (2/3) ● 機械学習で定評のある入門書『はじめてのパ ターン認識』で取り上げられている手法  ベイズの識別規則  kNN法  線形識別関数  ロジスティック回帰  パーセプトロン  サポートベクトルマシン  主成分分析  部分空間法  k-means法  階層型クラスタリング  EMアルゴリズム  決定木  ブースティング  ランダムフォレスト
  25. 25. ヒカラボ 2017/03/16 25 機械学習 vs. 統計学 (3/3) ● 明らかに統計学の手法だったり、そこから派生 したものだったりが混じっている  ベイズの識別規則  kNN法  線形識別関数  ロジスティック回帰  パーセプトロン  サポートベクトルマシン  主成分分析  部分空間法  k-means法  階層型クラスタリング  EMアルゴリズム  決定木  ブースティング  ランダムフォレスト
  26. 26. ヒカラボ 2017/03/16 26 機械学習の定義 ● 大量のデータをコンピュータを使って学習し、そ こに潜むパターンを見つけ出すこと – SASのサイトから借用して一部アレンジ ● 見つけ出したパターンを未知のデータに適用し、 予測すること – メールの文章からスパムかどうか判定する – 明日の天気と気温からビールの売上を予測する
  27. 27. ヒカラボ 2017/03/16 27 統計学の定義 ● 対象の全体または一部を観察し、そこから数量 的法則(規則)を発見する – みんな大好き『統計学入門』を要約 ● あれっおんなじだ
  28. 28. ヒカラボ 2017/03/16 28 機械学習 vs. 統計学 再び ● どちらも「データからパターン・法則を見出 す」という点であんまり変わらない – 木を切るのに斧を使うのか鉈を使うのかぐらいのノ リで、「木を切る」という行為に変わりはない ● 若干のニュアンスの違いはある(後述) – とはいえ「データから価値を引き出す」が目的であ る我々にとっては単なる道具の違いでしかない – 道具を選り好みする奴にろくなのはいない
  29. 29. ヒカラボ 2017/03/16 29 まとめ (1/2) ● 「AI」は「機械学習」とほぼ同義で使われてい る ● 「ディープラーニング」は機械学習の一手法 ● 「機械学習」「統計学」はどちらもデータから 何らかのパターン・法則を見出す手法
  30. 30. ヒカラボ 2017/03/16 30 まとめ (2/2) ● 我々がやりたいのは「データから価値を引き出 す」こと ● この目的に照らすと、機械学習も統計学もあく まで道具であり、取り立てて区別する必要はな い
  31. 31. 2. 「データ分析」の 今とこれから
  32. 32. ヒカラボ 2017/03/16 32 はじめに ● ここまでは便宜上「統計学や機械学習を駆使し てデータから法則を見出す行為」を「データサ イエンス」と呼称していましたが、宗教上の理 由によりここからは「データ分析」とします – 理由が気になる人は懇親会で聞いてみてください
  33. 33. 問題です
  34. 34. データ分析の中でも 「AI」がすごいブームですが、 なんでブームに なっているんでしょうか?
  35. 35. 答え
  36. 36. 誰でも簡単にできるように なってきたから
  37. 37. ヒカラボ 2017/03/16 37 昔 ● そもそもデータがない ● データがあってもマシンパワーが足りない ● 高度な数学の知識がないと扱えない ● ナレッジがない
  38. 38. ヒカラボ 2017/03/16 38 今 (1/2) ● データなら腐るほどある – 人の行動履歴がWebに蓄積されるようになった – オープンデータがいっぱい ● マシンパワーも腐るほどある – ムーアの法則 – GPU – クラウド
  39. 39. ヒカラボ 2017/03/16 39 今 (2/2) ● 大量データと潤沢な計算資源により、高度な数 学を駆使しなくても「物理で殴れる」 – 総当り(に近いノリ)で試行錯誤が可能に ● ディープラーニングとかまさにそれ ● 情報がいくらでも転がっている – 出版ラッシュ – Webにもいっぱい
  40. 40. ね、簡単でしょう?
  41. 41. ここで第二問
  42. 42. 「誰でも簡単にできること」が ただできるだけで 競争優位になるでしょうか?
  43. 43. ヒカラボ 2017/03/16 43 生存戦略としてのデータ分析 (1/5) ● 今流行ってるのは機械学習よりのアプローチ ● 機械学習は工学的なアプローチのため、ITエン ジニアとの親和性が高い – 理論、プロセスより結果重視 ● というのもあり、周囲でも優秀なエンジニアが どんどん機械学習を始めている – 優秀なのですぐに成果が上がっている
  44. 44. ヒカラボ 2017/03/16 44 生存戦略としてのデータ分析 (2/5) ● 端的に言うとエンジニア個人の生存戦略という 観点ではこの分野はとっくにレッドオーシャン ● 他の分野で既に優秀な人が、得意分野と機械学 習を掛け合わせてなんかやる、みたいなのはま だまだ有望 ● むしろある程度使えないとヤバいみたいになる こともありえる……?
  45. 45. ヒカラボ 2017/03/16 45 生存戦略としてのデータ分析 (3/5) ● まだあるよ ● 某2016年にもっとも売れた技術書にこんな記述 が – 「ディープラーニングって学習の過程に人が介在し ないから素晴らしい」(意訳) ● それってもう人いらないじゃん……
  46. 46. ヒカラボ 2017/03/16 46 生存戦略としてのデータ分析 (4/5) ● マシンパワーを武器に試行錯誤するアプローチ は容易に機械で代替可能 ● 「データさえ突っ込めば勝手に学習してくれ る」ことを謳うプロダクトは既にいっぱいある し、精度もこれから上がる
  47. 47. ヒカラボ 2017/03/16 47 生存戦略としてのデータ分析 (5/5) ● こんな時代はもう目の前 – 実用上必要なレベルの精度は機械が勝手に出せる – それを越えようとしたらとてつもない専門性が必要 ● データ収集や前処理など、とても大事だが地道 でつらい作業は当分残りそうではある – そういうのが好きな人はそこに振るのはありそう
  48. 48. ヒカラボ 2017/03/16 48 小休止 ● 「人工知能ブーム」は誰でも簡単にできるよう になったから起こった ● 「誰でも簡単にできる」ので、既存の得意分野 と組み合わせるとか、みんなやりたがらないこ とをするとかしないと競争優位にならない – 「これしかできない」データサイエンティストはす ぐに仕事がなくなる……
  49. 49. あれ? あんまり明るい話にならない?
  50. 50. - - - ここからポジショントーク - - -
  51. 51. ヒカラボ 2017/03/16 51 このセクションのタイトルは? ● 「データ分析」の今とこれから ● ここまで機械学習の話ばっかりだけど統計学は? ● そうです – なので ● ここから – さっきちょっと言った「若干のニュアンスの違い」の話をします ポジショントーク中
  52. 52. ヒカラボ 2017/03/16 52 ニュアンスの違い is 何 ● キーワードは既に出ている – 「機械学習は工学的なアプローチ」 – 「理論、プロセスより結果重視」 ● 「結果重視」の結果とは? – 機械学習の定義をおさらい ● 大量のデータをコンピュータを使って学習し、そこに潜むパ ターンを見つけ出す ● 見つけ出したパターンを未知のデータに適用し、予測する ポジショントーク中
  53. 53. ヒカラボ 2017/03/16 53 機械学習 ● (主流の)機械学習の目的は「予測」 – 予測が当たれば正義 ● なので、予測精度が上がるためならなんでもやる – ニューラルネットをものすごい多層にしたり – 複数の学習器で多数決したり ポジショントーク中
  54. 54. ヒカラボ 2017/03/16 55 一方の統計学 ● 「データからパターンを見出す」という点では 同じでは – 同じです ● だが、統計学においては必ずしもパターンを予 測に使うことが目的ではない – 「パターンを見出しそれを理解する」ことに力点が 置かれる ポジショントーク中
  55. 55. ポジショントーク中 http://xica.net/magellan/marketing-idea/stats/statistics-words/
  56. 56. それって何が違うのか (1/2) ● 競馬予測を例に取ってみましょう ポジショントーク中
  57. 57. ヒカラボ 2017/03/16 58 それって何が違うのか (2/2) ● 予想屋 – 使える情報は全て使って、勝つ馬が予測できればそ れでいい ● 勝つ馬が分かればお金が儲かるから – 税務署がアップを始めました ● 馬主、調教師 – 予測できるだけではあまり意味がない ポジショントーク中
  58. 58. ヒカラボ 2017/03/16 59 なぜ意味がない? ● 彼らの仕事は「勝てる馬を育てる」「目の前に いるこの馬を勝たせる」こと – 「強い馬はなぜ強いのか」「今強くない馬を強くす るにはどうすればいいか」が重要 ● なので、生まれてから成長し、強くなるまでの パターン(メカニズム)そのものを理解する必 要がある ポジショントーク中
  59. 59. ヒカラボ 2017/03/16 60 補足:それって機械学習じゃダメ? ● 機械学習なら予測できるんだから、シミュレー ションして一番いい結果が出る方法を採用すれ ばいいんじゃないの? ● あまりよくない – 特徴量がすごい多いので総当りできなそう – 「相関」と「因果」は違う – 「雨の日には絶対勝てます!」じゃあ雨降らせろっ てか……? ポジショントーク中
  60. 60. - - ポジショントークが加速します - - ポジショントーク中
  61. 61. ヒカラボ 2017/03/16 62 まとめ (1/5) ● 機械学習の目的は「未来(未知のデータ)を予 測すること」 – 予測さえできればそれがゴール ● 統計学の目的は「データの背後に潜むメカニズ ムを理解すること」 – ある程度の予測精度はもちろん必要 – だが、予測の精度を上げるためには何でもやってい い訳ではない ポジショントーク中
  62. 62. ヒカラボ 2017/03/16 63 まとめ (2/5) ● 「未来を予測する」ことだけが目的なら、人を 介さず機械だけで完結する時代は目の前 – もちろんそれだけでも価値をたくさん生み出すこと はできる ● でも、やりたいことって本当にそれだけ? ポジショントーク中
  63. 63. ヒカラボ 2017/03/16 64 まとめ (3/5) ● 競馬の話に戻ります ● 調教師は目の前にいる馬が「次のレースで負け る」と予測されれば諦めるのか? – 勝とうともがくよね – 勝つための手段を追求し続けるよね ● 彼/彼女がやりたいのは「未来を変える」こと ポジショントーク中
  64. 64. ヒカラボ 2017/03/16 65 まとめ (4/5) ● 「未来を予測する」だけではなく「未来を変え る」ことまで求められるフィールドは絶対にある ● 「未来を変える」ためには「人の行動を変える」 必要がある ● 人の行動を変えられるのは人だけ – 「なんだかよく分からないけど当たるからそれに従 え」で人は動くか? – それって神のお告げと何も変わらない ポジショントーク中
  65. 65. ヒカラボ 2017/03/16 66 まとめ (5/5) ● なぜ人にしかできないのか – 事象の背後に潜むメカニズムを明らかにして、成功 までのストーリーを提示しないと人は動かない – 今のところ(そしてたぶん今後しばらくは)「背後 のメカニズムを理解する分析」は機械だけではでき ない ● 人や社会の行動に関する深い考察と、それを数式に落とし こむ能力が必要 ポジショントーク中
  66. 66. 結論 ● こっちはまだまだ明るいぞ ポジショントーク中
  67. 67. - - - ポジショントークここまで - - -
  68. 68. おまけ ● 適当に書いて出した事前のプログラムから漏れ
  69. 69. ヒカラボ 2017/03/16 70 Googleと同じ土俵で戦っても Googleには勝てない ● 機械学習(特にディープラーニング)では大量 のデータと潤沢な計算資源で「物理で殴る」の がとっても有効 ● 世界で一番データと計算資源を持っているのは 誰? – おまけに連中はディープラーニングに最適化された プロセッサを独自に作ったりとかしてるぞ
  70. 70. ヒカラボ 2017/03/16 71 「AI」の得意なこと、苦手なこと (1/3) ● 実活用の分野では、人間の「ちょっぴり知的だ けどほぼ単純作業」はかなりの部分が代替可能 – 名刺の画像からデータ化 – エッチな画像を検出してBAN – ローンの審査 – 自動運転もこの範疇かな
  71. 71. ヒカラボ 2017/03/16 72 「AI」の得意なこと、苦手なこと (2/3) ● 「囲碁で勝つ」は「ちょっぴり知的だけどほぼ 単純作業」には当てはまらなそうだが、これも 万能ではない – 囲碁で勝つAIは将棋では勝てない ● それどころか将棋を指すことすらできない – 将棋で勝てるAIも別にあるが、こんな面白い話が ● http://www.news-postseven.com/archives/20140424_ 252628.html
  72. 72. ヒカラボ 2017/03/16 73 「AI」の得意なこと、苦手なこと (3/3) ● 「ルールが明確に決まっていて今後もそのルー ルは変わらない」分野では人間を超えられる – この世界のごく一部 ● AIは意味を理解することができないので、ルー ル自体が変わると弱い – 囲碁で勝つことはできても「どうして勝っている か」は分からない ● 人に教えることはできない
  73. 73. 3. 未来を変える人になるための 道標
  74. 74. ヒカラボ 2017/03/16 75 さあ一歩踏み出そう ● さっきまでのは一旦忘れましょう – あくまでハートやスタンスの問題であって、技術的 にはやることそんなに変わらない – 機械学習を学ぶと統計にフィードバックがあるし、 逆もまた然り ● てなわけで、学ぶ時も好き嫌いせず両方やりま しょう
  75. 75. ヒカラボ 2017/03/16 76 大事な心構え (1/2) ● あなたが簡単に身に付けられるものは、隣の人 も簡単に身に付けられる – なのですぐ追い付かれる ● だが、苦労して身に付けたものは簡単には追い 付かれない
  76. 76. ヒカラボ 2017/03/16 77 大事な心構え (2/2) ● 努力しよう ● 「大事って分かっているが面倒だから実際には なかなかできない」ことを地道にやろう – それって具体的に何というのは後述
  77. 77. で、まずは何から 始めればいいの?
  78. 78. ヒカラボ 2017/03/16 79 これは実は
  79. 79. ヒカラボ 2017/03/16 80 こうじゃ
  80. 80. ヒカラボ 2017/03/16 81 数学は科学の女王にして奴隷 (1/3) ● 今日の聴衆はエンジニア想定だからコンピュー タサイエンスはそこそこ分かってるとして…… ● 当たり前だが数学分からないと無理
  81. 81. ヒカラボ 2017/03/16 82 数学は科学の女王にして奴隷 (2/3) ● でも安心を – 統計学/機械学習に入門するための数学はそこまで レベル高くない ● 高校数学+大学入門レベルの微積・線形代数で 十分 – それすらやりたくない人は諦めましょう
  82. 82. ヒカラボ 2017/03/16 83 数学は科学の女王にして奴隷 (3/3) ● 高校数学やり直しではこの本が評判いい – 朝倉書店『統計学のための数学入門30講』 ● 大学数学はぶっちゃけ学習参考書が実用的で割 といい – マセマの『大学数学キャンパス・ゼミシリーズ』 – 読んだことないが高校数学もマセマでいいかも
  83. 83. ヒカラボ 2017/03/16 84 大事な心構え 再び ● 「大事って分かっているが面倒だから実際には なかなかできない」ことを地道にやろう – 真面目に技術書読む時には「写経」するよね – 数学も全く同じ ● 読むだけじゃ理解したつもりになってるだけ – 手を動かそう ● さあ紙とペンを持って
  84. 84. ヒカラボ 2017/03/16 85 準備は整った ● ここまでやると、いよいよ統計学/機械学習の 入門書がちゃんと読めるようになる ● ここからは独断と偏見で、というか自分が読ん でよかったと思う本を紹介 – 割と定番書ばかりなので面白みとかはない – いきなり本だと重い人はオンラインコースでもいい かも ● 自分は詳しくないのでググッて
  85. 85. ヒカラボ 2017/03/16 86 統計学編 (1/2) ● 東大出版会『統計学入門』(通称「赤本」)は やはり外せない…… – 初学者には難しいという声もあるが、確率・確率分 布は早めに入門しておかないと – 線形回帰はいろんな手法の基礎だし ● 東大出版会『自然科学の統計学』(通称「青 本」)も超いい本だが難しい – 一人で読めたら自信を持っていい
  86. 86. ヒカラボ 2017/03/16 87 統計学編 (2/2) ● これだけだとベイズ論者から馬鹿にされるので ベイズも – 岩波書店『データ解析のための統計モデリング入 門』だと前2冊からうまく接続できる ● 「因果は相関と違う」と言ったが因果を追求す る統計学も実はある – 『岩波データサイエンス vol.3』がすごく分かりやす い
  87. 87. ヒカラボ 2017/03/16 88 機械学習編 ● 黄色い悪魔は必ず挫折するのでやめよう ● 森北出版『はじめてのパターン認識』(通称 「はじパタ」)はかなりいい – が、結構難しいのでコロナ社『言語処理のための機 械学習入門』を先に読んでおくといいかも ● 古い版は誤植多いので注意
  88. 88. ヒカラボ 2017/03/16 89 大事な心構え 再び ● 「大事って分かっているが面倒だから実際には なかなかできない」ことを地道にやろう – さあ紙とペンを持って – 数式は全部写して式展開省略してるところは全部自 分で埋めるぐらいの気概は必要 ● 一人でやるとしんどいので、教えてくれる人や一緒に悩ん でくれる人を探すのが結構重要かもしれない
  89. 89. プログラミング編 ● まあPythonだよね ● インプレス『Python機械学習プログラミング』
  90. 90. ヒカラボ 2017/03/16 91 その先は…… ● ここまでできたあなたは相当力がついています ● 自分の好きな分野のオープンデータを探してい ろいろやってみましょう ● 割とガチな勉強会に行ってもだいたい話は通じ るので、人から刺激を受けましょう
  91. 91. という訳で
  92. 92. みんなで 「未来を変える分析ができる人」 になろう!
  93. 93. 以上、 ご清聴ありがとうございました

×