Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

データサイエンスの全体像

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige

Hier ansehen

1 von 39 Anzeige

Weitere Verwandte Inhalte

Diashows für Sie (20)

Anzeige

Ähnlich wie データサイエンスの全体像 (20)

Weitere von The Japan DataScientist Society (16)

Anzeige

Aktuellste (20)

データサイエンスの全体像

  1. 1. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 1 データサイエンスの 全体像 2016年6月15日 株式会社 金融エンジニアリング・グループ 創業者 チーフデータサイエンティスト 中林三平 データサイエンティスト協会 2016年第一回勉強会資料
  2. 2. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 2 本日のアジェンダ Ⅰ.「情報」、「分析」、「データサイエンティスト」  データサイエンスとデータサイエンティスト  データサイエンティストとは何者か  気軽に使っている言葉は、皆が共通の意味で使っているのか Ⅱ.「分析」に関わる技術の簡単な紹介  伝統的統計分析とデータマイニング  ホワイトボックスからブラックボックスへ  Deep Learning への進化 Ⅲ.データサイエンティストの育成方法  データサイエンティストとしての自己教育  「競う」、「共に学ぶ」
  3. 3. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ.「情報」、「分析」、「データサイエンティスト」 ここでは、データサイエンティストに要求される3つのスキル セットのうち「データサイエンス力」に焦点を当てる データサイエンス力は、「情報」を「分析」する力と言い換える ことができるが、気軽に使っている「情報」、「分析」という言 葉にも実際には様々なレベルがあることを示し、技術的な研究開 発が最も盛んである “Predictive Analytics” の基本的な手法群を 概観する 3
  4. 4. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 0.まず初めに 質問:状況によって話すことの内容を若干調整します ① Rまたは Python を使ったことのある人は? ② Kaggle や KDD CUP などに参加したことのある人は? 4
  5. 5. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-1 データサイエンスとデータサイエンティスト(1) 1960年代に「データサイエンス」という言葉の使用が開始された  「コンピュータサイエンス」という言葉が、どちらかと言えば、H/Wに関す る研究を指していたのに対して、コンピュータが扱う情報の分析に関わる研究 分野を総称する言葉として使われていた  しかし、現時点では少し様相が異なって来ている • 「データサイエンティスト」という職種が徐々に社会的に認知されてきた • データサイエンティストの担うべき仕事、備えるべきスキルは、過去の 「データサイエンス」が意味していたものより、格段に範囲が広い • 現在では、データサイエンスは、データサイエンティストの行う仕事を指し 示すという、若干自己撞着的な意味でつかわれることもある • しかし、データを分析する技術者の中には、『どこがサイエンスなのだ』と して自分をデータサイエンティストと呼ぶのを嫌う人も少なくない • また、データサイエンティスト協会による、データサイエンティストに要求 されるスキルの中には「データサイエンス力」というものがあり、これは伝 統的な情報を分析する力に他ならない  ということで、データサイエンスは様々な範囲を示しながら、言葉とし て流通している 5
  6. 6. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-2 データサイエンティストとは(1) データサイエンティストの役割は、世の中に溢れるデータから、ビジネス などに役にたつ情報を引き出すことである  Wikiの英文記事を取りまとめて図示すると以下のような3つのエリアに またがるスキルが求められるとしている 6 Hacking Skill Math/Stat Substantive Expertise
  7. 7. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-2 データサイエンティストとは(2) データサイエンティスト協会では、以下のように必要なスキルセットを定 義しなおしている この3つの力は、どのような局面で必要とされるのだろうか • 基本的には、ビジネスの現場で、情報を活用することにより、課題を解決す ることを想定している 7
  8. 8. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-2 データサイエンティストとは(3)  Wikiの定義とデータサイエンティスト協会のスキルセットは似てい るが、若干異なってもいる  データエンジニアリング力より ”Hacking Skill“ の方が、範囲としては狭いが より本質的なスキルを表現している  データサイエンス力は、伝統的な “Math/Stats” の枠組みではとらえきれない、 新しい分析技術を含むものとしてのメッセージ力がある  ビジネス力と “Substantive Expertise” は、ビジネスにフォーカスするのか、 それ以外の現場応用力も重視するのかという違いがある  本日の課題のデータサイエンスについては、「情報を分析する」という 点に関しては、双方の定義はほぼ一致していると考えて良いだろう  しかし、「情報」といった時に、各人のイメージする「情報」が同じよ うなものを指しているとは限らない  同様に、「分析」といった時にも、人によって様々な「分析」のイメー ジがあるだろう • 実際に、ネット上に示された各種の記事を読み合わせて、自分なり の解釈をすることを「分析」と呼ぶ人もいる 8
  9. 9. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-3 情報の様々なレベル(1) H.A.Simon(1916-2001:1978 ノーベル経済学賞受賞)は、企業の意思 決定に関する論文の中で、「情報」を以下のようなレベルに分けている (実際には News から Information まで) 9 NEWS FACT DATA Information Intelligence ・新鮮さ、即時性、話題性 ・事実であるニュース ・可搬性のある事実の集合体 ・データを目的に沿って表現 ・Knowledge をいかに現実に適用するか Knowledge・INFO から隠れたパターンを抽出 出所) H.A..Simon 原案を中林が拡張
  10. 10. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-3 情報の様々なレベル(2) データサイエンティストに求められる3つのスキルは、この情報のレベル の各段階に比較的うまく対応している  Data → Info, Info → Knowledge, Knowledge → Intelligence 10 NEWS FACT DATA Information Intelligence Knowledge Data Engineering Data Science Business Problem Solving
  11. 11. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-4 分析の様々なレベル(1)  一般にデータをハンドリングする作業を「分析」と呼ぶことが多いが、 「分析」に関しても、いくつかのレベルが存在する Descriptive Analytics: (Data Engineering) • 現状把握のための各種の集計であり、モデル構築は行わない • BIツールで行えるのはこの範囲 • 必要なデータの収集・蓄積のためのインフラが重要 • 基本的には分析というより集計作業に近い Predictive Analytics: (Data Science) • 確率的な予測を行うモデルを構築する • 分析技術が問われるが、モデルの実装力も必要 Prescriptive Analytics: (Business Problem Solving) • 構築されたモデルから最適な方策を立案する • モデルの予測などをビジネスの現場に導入し、戦略決定を支援 注)多分、Lithium Technologies の Dr.Michael Wu が最初にこの分類を言い出したと思う 11
  12. 12. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-4 分析の様々なレベル(2)  Predictive Analytics に適用する分析ステップとして、以下のような分析 のプロセスが提唱されている  KDD Process (KDD: Knowledge Discovery in Databases)  1994年の第一回KDDカンファレンスで提唱され、現在でも分析 の基本的な体系として認められている 12
  13. 13. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ.「分析」に関わる技術の簡単な紹介 ここでは、主として Predictive Analytics で利用されている手法 の体系と概要を示す 手法自体は、Datamining や Machine Learning の領域から発生 したものが多いため、各種の用語についてもこれらの領域で使用 されているものに従う 13
  14. 14. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-1 伝統的統計分析とデータマイニング データ分析というと、統計の勉強からスタートするというイメージがある  これは、決して効果的とは言えない方法である • 本格的な大規模データの分析は「データマイニング」という考え方や手法群 が整うことによりスタートした • マイニング手法の多くは、伝統的統計学が暗黙の前提としていた事柄を否定 することを基礎としている • 例えば、誤差が正規分布で近似できるとか、データ全体を記述するのに平均 値が役に立つとか、平均値への回帰が観察されるとか、変数間の交差効果は 無視できるほど小さいとか... • これらの前提は実際の社会現象においては成立していないことが多い  統計的手法は分析対象とするデータが少なく、偏りのない推計により全 体の姿を推し量ることが極めて重要であった時代に発達してきた • 現在は、大量にあるデータから精度の高い分析を行うのが目的となった  統計的な手法の勉強が不要というわけではない • 基礎的な概念を知っておくことは必要であるが、「区間推定」や「検定」に非 常に詳しくなったとしても実際に使うことはほとんどないであろう 14
  15. 15. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-2 データ分析手法の概要  ここでは、以下の体系により手法群を分野分けし、各分野に属する手法 の概要を述べる  手法を選択する場合の最初の選択肢は、分析しようとする問題が「教 師あり」なのか、「教師なし」なのかという点である • 「教師あり」とは、推定すべき指標が定義されており、分析対象と するデータに含まれている場合である • 「教師なし」はそれ以外の場合である 15 ML Algorithms Unsupervised Learning Supervised Learning Clustering Anomaly Detection Regression Classification
  16. 16. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-3 「教師あり」と「教師なし」の学習 「教師なし」学習と「教師あり」学習について、簡単に説明する  「教師あり」の場合には、分析のターゲットとする変数が明確に決 まっており、過去のデータからターゲット変数を予測することが分析 の目標となる  「教師なし」の場合は、ターゲット変数は存在しない(または、ター ゲットを利用する意味がない) 16 V1 V2 V3 V4 ・・ Vm C1 C2 C3 C4 C5 C6 C7 : Cn 顧客行動データ V1 V2 V3 V4 ・・ Vm FLG C1 0 C2 0 C3 1 C4 0 C5 1 C6 0 C7 0 : Cn 1 顧客行動データ 教師なしデータ 教師ありデータ
  17. 17. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-4 「教師なし」学習を適用する局面  通常の分析では、「教師あり」に属する問題が圧倒的に多いが、いくつ かの場合には「教師なし」学習の手法を適用する場合もある  教師なし学習の手法が用いられる代表的な事例は、以下のようなタイ プである ①クラスタリング:属性・行動プロファイルが似たものを寄せ集めて いくつかのグループにまとめる • 金融行動をもとにした顧客のグループ化など • ただし、クラスタリングだけで問題解決に至ることは稀であり、 顧客クラスターごとの行動の特徴をモデリングするステップにつ ながるのが普通である ②異常値検出:「普通」とは異なる行動を示す人を発見する • 犯罪行為の摘出など • 犯罪行為は極めて稀な事象であると同時に、手口が変化し続け、 特定手口を発見するモデルはすぐ陳腐化するため、過去の犯罪事 例を教師とすることは困難である • 「普通ではない」行動を犯罪のシグナルと仮定する 17
  18. 18. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-5 クラスタリング手法の概要  クラスタリングには大きく分けて2つの手法がある ①階層型クラスタリング: • 従来の統計学的手法が該当するが、個々のサンプル間の類似性を計算するため、 大規模データの場合には計算コストが非常に大きい • 数千万件のレコードの階層型クラスタリングは非現実的である ②非階層型クラスタリング(k-means 法とそのバリエーション) • 極めて単純な発想に基づく手法であるが、有用性は高い • k-means 法の場合には、K個のクラスターに分けることになるが、最適なK の決め方に苦労する • Observation のクラスタリングだけでなく、Variable のクラスタリングに用 いることもある  双方の手法に共通して言えるのは、推定されたクラスタを定義するモデ ルはかなり不安定な場合が多いということである • また、サンプル間の類似性のみを分析対象とするため、分析結果として示され たクラスタの解釈に苦しむこともある 18
  19. 19. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-6 異常値検出手法の概要  異常値検出に関しては、観測する対象となる変数の数が少なかったり、 変数間の独立性が高い場合には、面倒なモデルを作る必要はない  「見ればわかる」という状態であったり、個々の変数の値を個別に評 価すれば済む場合もある  しかし、変数が数百あり、かつ、変数の組み合わせにより正常か異常 かの判断が変わる場合にはモデルを構築した方が良い 【事例】:機密文書の電子ファイルによる社外流出防止 • 社員Aが、ファイルBにアクセスし、出力を行った • これが、機密の流出につながるかどうかを判定する • 上記の行動が社員A(および類似した権限・職務を持つ社員群) の通常行動の範囲に属するかどうかを確率的に推計するモデルを 構築する  我々は One-Factor Support Vector Machine という手法を利用し、 成果を挙げることができた 19
  20. 20. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-7 「教師あり」学習を適用する局面  「教師あり」分析の手法を分類する場合の伝統的な考え方は、被説明変 数(ターゲット)がカテゴリー(クラス)なのか、連続量なのかで分け るというものである  ターゲットがカテゴリーの場合には Classifier と呼ばれ、連続量の場合には Regression と呼ばれる • しかし、この分野で大きな業績を残してきている J.Friedmanが Breiman と発表した手法は、CART(Classification and Regression Tree) と呼ばれ るものであり、どちらにも対応できる • 近年発表されている手法も、どちらにも対応できるものが多い  また、伝統的には、判別分析(Discriminant Analysis) は、各サンプルがどの クラスに属するのかを推定するが、実際の利用にあたっては、各クラスへの所 属確率で解を得た方が使いやすいため、良く使う Classifier ではクラス所属確 率を出力するのが一般的である  Regression に関しては、通常の線形・非線形の回帰だけではなく、説明変数 が非常に多いケースに対応するための、Lasso/Ridge/Elastic-Net と呼ばれる 手法が発展してきており、新しい展開を見せている 20
  21. 21. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-8 Decision Tree の技術的な発展(1) Decision Tree は典型的な教師あり学習のアルゴリズムである  原型は CART(1984, Breiman et.al) や ID3(1986, Quinlan) が開発 したものであり、下図のようなツリーを生成する • 2分木とする場合が多いが、n分木も扱うことが可能である 21 母集団(P=0.1) NODE1 (P=0.05) V4>XX? NODE2 (P=0.20) V3>YY? V8>ZZ? NODE3 (P=0.02) NODE4 (P=0.08) NODE5 (P=0.12) NODE6 (P=0.28)
  22. 22. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-8 Decision Tree の技術的な発展(2) Decision Tree の手法は、枝分かれを追加することにより対象データの分 析精度が上がれば、際限なくツリーを生成し続ける(Greedy Method)  その結果として、分析対象データ(Training Set)での精度は高いが 検証用データ(Validation Set)での精度は低いという現象(Over Fitting)が発生しやすく、これを避けるために以下のような工夫が行 われている 22 Original Data Training Set Validation Set Model Error # of Partition Validation Training Optimal 70% 30% Random Sampling Build Valid
  23. 23. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-8 Decision Tree の技術的な発展(3)  モデルの安定性を高めるために、Cross Validation という方法が一般に 使われている  Cross Validation の機能を埋め込んであるパッケージも多い 23 Original Data ランダムにN分割 Training Set Validation Set Model #1 Model #2 Model #3 Model #N アンサンブル モデル
  24. 24. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-8 Decision Tree の技術的な発展(4)  Cross Validation を導入することにより、明らかにモデルの安定性は向 上する  これを更に拡大したのが Random Forest(2001, L.Breiman)である 24 Column Sampling Row Sampling Training Set 大量の繰り返し(数千回) Model アンサンブル
  25. 25. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-8 Decision Tree の技術的な発展(5) Random Forest は、ツリーを並列に生やしたものと言える  これに対して、ツリーを直列に生やしたものもあり、Gradient Boosting Machine(2001, J.Friedman)などと呼ばれている  Boosting は、ツリーなどの精度を上げていくために開発された手法 であるが、GBM は直前に生成されたツリーの「誤差」を次のツリー で説明するという考え方に基づき、極めて多数のツリー(数千本)を 生成していく  これに改良を加えたものが Xgboost(eXtreme Gradient Boosting)であり、Decision Tree 系のアルゴリズムでは現在最強の 手法である 25
  26. 26. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-8 Decision Tree の技術的な発展(6)  Xgboost により、高速・高精度・高安定性という条件をかなり満足させ るモデルの構築が可能となっている  その裏で犠牲になったもののある • CART の時代には、生成されたツリーを見れば、特定のサンプルが 「なぜ」このような評価を受けたのかが完全に理解できた • しかし、Random Forest にしろ、GBM や Xgboost にしろ、数千本 のツリーを生成する場合があり、個々のサンプルが「なぜ」そう評 価されたのかを説明することは実質的にできない • ビジネスでモデルを利用する場合には、Accountability を求められ ることが多くあり、手法を選択する場合には考慮すべき大きなファ クターとなる 26
  27. 27. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-9 Feature Engineering(1)  Xgboost のような手法を使い、同一のデータからモデルを構築したとし ても、同一の精度・安定性が得られるわけではない  オリジナルのデータセットに含まれる変数群をそのまま使ってモデル を構築したとしたら、「分析コンペ」では下位に停滞したままになる であろう  変数を加工したり、組み合わせたりして適切な「特徴量」を生成する 作業を Feature Engineering と呼ぶ  この作業には決まった手順や定石があるわけではなく、データサイエ ンティストの感性・創造力が問われる部分である • Data Scientist は Artist でもある 27
  28. 28. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-9 Feature Engineering(2) しかし、特徴量を定義するのが非常に難しい問題もある 下図は、kaggle というコンペ・サイトで出題されている Digital Recognizer と名付けられた手書き数字の自動認識問題のサンプルであ る(入門問題であり、現在も継続中である) 0~9の数字にも様々な癖のある書き方があり、適切な特徴量を定義 するのは極めて困難である このコンペで上位にいる人達が使っているのは Deep Learning と呼 ばれる手法であり、現在急速に発展している 28
  29. 29. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ.データサイエンティストの育成方法 データサイエンティストを育成するのには、時間がかかる。 また、多くの場合、3つのスキルセットを1人で十分なレベルで 具備することは困難なことが多い 解決策はチームで3つのスキルセットを持つことができるような 体制を作ることである その中で育成が比較的難しいのは、「データサイエンス力」を持 つ人材の育成である FEG社での育成方法を紹介する 29
  30. 30. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-1 データサイエンティストの育成(1)  バックグラウンドについて  経験的には「理系」でも「文系」でも、優秀なデータ分析技術者になれる • 例えば、「統計学」の知識が限られていたとしても、データを分析していく うえで純粋な統計学の知識が要求されることはほとんどない • もちろん、全体の知識体系の中に含まれている「常識」を持っていることは 貴重ではあるが、必要条件ではない  修士と学卒の間にも、実質的な差異はない(博士課程の場合には差がある) • 当社では、入社時に持っている知識のレベルは問わない(余程のデータ分析 経験者でない限り、新しくトレーニングを受ける人たちと大差はない) • ただし、修士の方が課題に対して、全体像を掴み、一つの結果を取りまとめ るという経験を持っているということが即戦力に育ちやすい • さらに、修士の方が学問としての体系(各種の理論間の関係)をある程度ま では学んでいるため、全体像を把握する訓練は受けている  性差については全くないと言ってよい • あえて言えば、女性の方が分析に向いている可能性があるが、性差よりも個 人差の方が経験的には大きい 30
  31. 31. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-1 データサイエンティストの育成(2) FEGでの新卒データ分析技術者の教育は以下のようなものである ①ビジネス常識(特別なことは何もなし) ②言語教育(WPS[SAS系]、R、Python など) ③金融業界常識教育(特に銀行業務、関連金融業界業務) ④過去の実施プロジェクトの内容教育 ⑤プレゼン・レポーティング ⑥企画書作成トレーニング ⑦データ分析コンペへの参加  上記を概ね4月~6月の間に終了し、その後のスキルアップは基本的に 各自に任せている  ただし、「コーチ」が最低一年は付くため、プロジェクト上の疑問への解決法 やスキルアップのための指導などはコーチが面倒を見る  7月以降は、プロジェクトに参加し、常用する分析手法や、最も大事な「汚い データへの対応」、「業務に対応した Feature Engineering」などはOJTで 勉強していくことになる 31
  32. 32. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-1 データサイエンティストの育成(3)  データサイエンスの分野は、技術の進歩が極めて早いため、勉強を続け ていない限りはあっという間に「時代遅れ」になってしまう  実プロジェクトで利用する分析手法は、ある程度有効性が確認されたものを顧 客が望むため、あまり冒険的なものは利用できない  これを補うための大きな機会は「社内勉強会」であり、週一度程度、夕方から 夜にかけて開催されている • 勉強会は誰でも好きな時に好きなテーマで開催できる • 開催したいテーマを持つ場合には、グループウェア上で開催を告知し、一定 の人数が集まれば、日時を調整の上、正式に開催する • 正式な勉強会であれば、必要なテキストなどは全て会社が補助する  勉強会のテーマとしては以下のようなものがある ①統計検定一級・二級取得のための勉強会 ②Python(Scikit-Learn) の勉強会 ③因果推論(Causal Inference)勉強会 ④Deep Learning 勉強会 32
  33. 33. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-2 育成のためのトレーニンング(1)  分析者としてのスキルをアップするためには、「実際の問題」に取り組 むことがベストである  玩具の問題(Toy Problem)をいくら扱ってみても、現実の問題に対応できる ようなスキルは中々身につかない • 玩具の問題に利用されるデータは、多くの場合、小規模であったり、ノイズ を含まなかったりして、新しいアルゴリズムの検証などには妥当であろうが スキルを高めるのに最も必要な部分のトレーニングができない • 実問題を解くうえで、下記のようなデータを吟味し、加工し、選択するプロ セスが、分析時間の70~80%を占めている • この部分を現実的なデータを扱うことで身に付けていくことがトレーニング の非常に重要な部分となる 33 Feature Engineering Data Cleaning Data Profiling Data Shaping Feature Generation
  34. 34. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-2 育成のためのトレーニンング(2)  実データの分析と言っても、社内で簡単に適切な問題が入手できるとは 限らない  FEGでトレーニングのために重要視しているのか、ネット上で開催されてい る「分析コンペティション」への参加である • 様々なコンペの概要や功罪に関しては以下の論文を参照して頂きたい http://yukino.moo.jp/jsai-2016-ML-competition-draft.pdf • FEGで推奨しているのは「分析技術に特化した」コンペであり、「こんな データがあるので、それを活用するアイデアを提出してほしい」というスタ イルのコンペは推奨していない • 新人研修の中での「コンペへの参加」というのは、毎年開催される KDD Conference と同時に行われる KDD CUP への参加である • KDD Conference はデータマイニングの分野では最大・最古の学会であり、 KDD CUP にはかなり手強い問題が出題される • 新人には荷が重いが、このコンペには全社で(時間の取れる人が)参加して おり、慣れた人たちのスキルを実際に見る良いチャンスとなっている • FEGにとっても、ここでチャンピオンになるのが目標である(2009 年と 2015年に2位となっている) 34
  35. 35. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-3 KDD CUP 2016 @Sydney  2位でも嬉しいものです 35
  36. 36. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-4 Kaggle について(1)  参加者が多いのは kaggle (https://www.kaggle.com/competitions) であり、ここで出題される問題はスポンサーから提出された課題であり、 実データの分析が対象となっている  このサイトでは、常に数問の課題(チュートリアルなどを除く、コン ペ問題)が出されている(例えば、下の問題) 36
  37. 37. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-4 Kaggle について(2)  前ページの問題は、「パンの需要予測と収益最大化」が課題である  現時点で、約2ヶ月の継続期間が残っており、取り組んでみるには適切な課題 であろう  コンペの問題なので、賞金がかかっており、総額2万5千ドルである  データは非常に汚く、例えば顧客IDが重複している場合などもがある • 例えば、上記の重複IDなどをどのようにクリーニングするかは、分析者の スキルに任されている • 学習用のデータ中に存在しない製品が、予測用のデータ中に存在したりする (新製品が出た場合など) • スポンサー( “Grupo BIMBO” )がメキシコの会社であることもデータが 整っていない原因の一つであるが、日本のデータであっても「欠損値」や 「異常値」が発見されることは良くある  予測対象が「パン」であることによる特殊要因が関わってくるが(在庫可能期 間など)、実際のビジネスでも頻繁に発生する問題である • 数量を予測するタイプの問題は、通常データ量が少なく、このコンペのデー タもアーカイブされた状態で400MB程度である 37
  38. 38. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-5 コンペ参加の面白さ(1) 「日経BigData」の記事を下に示す  コンペの最優秀モデルが、これまでの「プロ」の予測より15%精度を向上さ せたというもので、現場に採用された事例である 38
  39. 39. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-5 コンペ参加の面白さ(2) Kaggle にしろ、前出の豆腐の需要予測を行ったオプト社のサイト “DeepAnalytics” (https://deepanalytics.jp/compelist) にしろ、参加 者には成績に応じてポイントが与えられる  Kaggle には現在世界中から57万人が登録しており、自分がその中で何番目程 度かを知ることができる(ちなみに私は1700番目程度であり、全く大した ことない順位である) • Kaggle の場合には、一定の条件(コンペの上位10人に入るなど)を達成す ると Kaggle Master の称号を得る  Kaggle の最大のメリットは、各コンペごとに “Forum” が開かれており、そこ で参加者が自由に討議できることである • 「これは何も分かってないな」から「ふーん、なるほど」や「おー、これは すごい」に至る様々なコメントが記載されており、本当に勉強になる と言ったところで、コンペに参加してみたらいかがですか 39

×