SlideShare a Scribd company logo
1 of 20
Download to read offline
Leverages Marketing Department
[DSO]勉強会
データサイエンス講義 Chapter1,2
2019/06/14
データ戦略室
小山祥太郎
1
Leverages Marketing Department
教科書
2
Rachel Schutt, Cathy O‘Neil (2014) 「データサイエンス講義」
(瀬戸山 雅人・石井 弓美子・河内 崇・河内 真理子・古畠 敦・
木下 哲也・竹田 正和・佐藤 正士・望月 啓充 訳)
1章 はじめに:データサイエンスとは
2章 統計的推論、探索的データ分析、データサイエンスのプロセス
3章 アルゴリズム
4章 スパムフィルタ、単純ベイズ、データラングリング
5章 ロジスティック回帰
6章 タイムスタンプと金融モデリング
7章 データから意味を抽出する
8章 レコメンデーションエンジン:ユーザが直接触れる大規模データ製品を構築する
9章 データ可視化と不正検出
10章 ソーシャルネットワークとデータジャーナリズム
11章 因果関係
12章 疫学
13章 データ分析のコンペティションから得られた教訓:データのリークとモデルの評価
14章 データエンジニアリング:MapReduce、Pregel、Hadoop
15章 生徒たちの声
16章 次世代のデータサイエンティスト、データに対する過信と倫理
Leverages Marketing Department
データサイエンスとは
データサイエンティストプロフィール
データサイエンティストとは
統計的推論
探索的データ分析 (EDA)
データサイエンスのプロセス
などなど
今日話すことに含まれるトピック
3
Leverages Marketing Department
● 前段
○ データサイエンスのプロセスは存在し、学術的な部分としては統計学と計算機科学を基
盤としている。
○ 現在、生活の様々な場面に関する膨大なデータが存在し、蓄積されている。加えて、安
価な計算能力も豊富に存在していることが「ビッグデータ」「データサイエンス」とい
う言葉を有名にしている背景となっている。
○ データサイエンスとはデータの土木工学である。
データサイエンスとは
4
Leverages Marketing Department
データサイエンスのベン図 (cf.Drew Conway - 2010)
5
Leverages Marketing Department
データマニアの優れたスキル (cf.Nathan Yau - 2009)
6
統計
検証するのに慣れた従
来の方法
● 全ての領域に強い人はいないため様々な経験や専門性を持つ人間を集めて効果的
なチームを定義するほうが良い。
● 参考:https://qiita.com/hik0107/items/f9bf14a7575d5c885a16
データマンジング
データの解析、解体
、フォーマット
可視化
グラフ、ツールなど
Leverages Marketing Department
データサイエンスプロフィール (cf. Rachel Schutt)
7
● 自身のデータサイエンスのスキル水準に関して尺度的に決めるもの。
● 各個人のデータサイエンスプロフィールの足し上げがデータサイエンスチームプ
ロフィールとなる。データサイエンスチームプロフィールとそのチームが解決し
ようとするデータ課題のプロフィールは合致すべき。
デ
|
タ
可
視
化
機
械
学
習
数
学 統
計
学
計
算
機
科
学
コ
ミ
ュ
ニ
ケ
|
シ
ョ
ン
特
定
分
野
の
専
門
知
識
Leverages Marketing Department
データサイエンティストとは
8
● 学術界
○ 社会科学から生物学までの何かに長けており、大量のデータを扱い、データの構造、サ
イズ、乱雑性、複雑性、性質によってもたらされる計算問題に立ち向かい、現実世界の
問題を解決する科学者。
● 産業界
○ 担っている部分
■ データの収集やロギングのためのエンジニアリングやインフラから、プライバシーに対する懸
念やユーザーが直面するデータをどのように利用して判断を下すか、データからそのようにし
て成果を導くかということまでの全てを定める。
■ 場合によっては、革新系なソリューションの特許取得や研究目的の設定にも携わる。
○ どんな人であるのか
■ データから意味を抽出し解釈する方法を知っている人
● 統計や機械学習のツールや手法に加えて、人間らしくある必要がある。
● データ収集、クリーニング、マンジングに多くの時間を費やし、忍耐、統計、ソフトウェアエンジニア
リングスキルが必要。
■ 探索的データ分析などからパターンを見つけ、モデルとアルゴリズムを構築する。
■ 最終的に、データにもとづいた何らかの意思決定を行う。
Leverages Marketing Department
統計的思考
9
● 統計的推論
○ 世界からデータを取り出し、データから世界を理解するプロセス
○ 確率的過程によって生成されるデータから意味や情報を抽出するための手順や手法、理
論。
● 母集団
○ 対象の全てについての完全な観測値のセット全て
● 標本
○ 母集団の一部から取り出した観測値のセット
Leverages Marketing Department
ビッグデータの母集団と標本
10
ビッグデータ時代においてはユーザーの行動を
全ての期間に渡って記録できるのに標本という概念は必要なのか?
● 一般的に分析/推論のためであれば、通常全てのデータを保持し続ける必要はないとされる。
● ビッグデータであったとしても、データの蓄積の条件や環境によってなどでバイアスがかか
る可能性があることを考慮すべき。
● 母集団と見えるものでも、考え方によってはさらに大きい母集団の標本である。
● 新しい種類のデータに関しては、サンプリングの際に、それがどのような意味を持つ可能性
があるかということを常に慎重に考える必要がある。
■ 伝統的なもの:数値型、カテゴリ型、2値型
■ テキストデータ
■ レコード
■ 地理情報ベースの位置データ
■ ネットワーク
■ センサーデータ
■ 画像
Leverages Marketing Department
ビッグデータの大きな仮定
11
● データが非常に膨大であることを考えれば、ビッグデータにおいては因果関係を
理解する必要はない、またサンプリングの誤差を気にする必要はない。というこ
とは間違っている。ビッグデータであったとしてもN=ALLではない。
○ 結局データが取れている人しか取れていない。
○ 因果関係を無視したモデルは過去の問題を繰り返すだけのものになる。
Leverages Marketing Department
モデル
12
● モデルとは
○ 特定のレンズを通して現実の性質を理解し表現しようとする試み。
○ 全ての余分な詳細部分は取り除かれている。どのような仮定を置いているのか、何が
省略されているのか、という部分を十分考慮すべき。
● モデルの作り方
○ 一般解はない。
○ 探索的データ分析(EDA)から始めるのが一つの有益な方法である。
○ データ収集、定性的な現実世界の情報収集、知っているモデルの種類、可視化の技法
○ シンプルなモデルからはじめ、少しずつ複雑にしながら仮定を追加していくのがよい。
■ シンプルさと正確性はトレードオフ。シンプルなモデルは解釈、理解、作成が容易。どこまで
の正確性で手を打つかの判断が大事。
Leverages Marketing Department
確率分布
13
● 確率分布は統計モデルの構成要素の一部となる。
● 自然のプロセスが生み出す測定値は経験的にある分布系を持つ傾向があり、その
分布が数学関数で近似されている。(確率密度関数)
○ それぞれの確率分布がどういう意味を持ち、どのような現象に当てはまるとされている
のかは各自勉強しておかれたい。
● 数学的意味
○ 確率密度関数は定義域内での積分値が1となる。(確率)変数の特定の範囲内での定積分
はその(確率)変数の範囲の事象が起き得る確率を意味する。
○ 1つ以上の確率変数を持つ場合に拡張した分布の概念が同時分布。確率変数が2変数の
場合は全平面に対しての二重積分が1となる。
○ 一方の確率変数を固定したときのもう一方の確率変数の確率密度関数のことを条件付き
分布という。
Leverages Marketing Department
モデルのフィッティング
14
● フィッティング
○ 観測データを使用してモデルのパラメータを推定すること。
○ 最尤推定などの最適化手法やアルゴリズムが必要となる。
○ 実務的にはRやPython等を使用して実現可能。
● オーバーフィッティング
○ パラメータを推定する際に使用した標本データの範囲を超えたデータに対してのモデ
ルの汎用性が失われている状態。
○ モデルのフィッティングに使用したのとは異なるデータセットに対してモデルを使って
予測を行い、特定の評価指標でモデルを評価するとわかる。
Leverages Marketing Department
探索的データ分析 (EDA)
15
● 基本的なツール
○ プロット
○ グラフ
○ 要約統計量
■ 平均値、最小値、最大値、四分位点、外れ値、など
自分自身で「データがどんな形をしているのか」「データの挙動はどうか」
「現実でなにが起こっているのか」ということを理解する目的でEDAを行う。
データをよく見て、地道に自分の手でデータをいじってみること。
Leverages Marketing Department
データサイエンスのプロセス
16
● 生データの収集
● データの処理
○ データの結合
○ スクレイピング
○ データラングリング
○ 使用ツールはPython,シェルスクリプト,R,SQLなど (割とSSでもできるけど)
● EDA
○ 重複、欠損、外れ値、データの記録ミスなどの発見及び修復。
● モデル設計
○ どのような問題を解決しようとしているのかに応じて適切に選択・設計。
● ゴールに向けてのアウトプット
○ 提言及び意思決定、それに伴うレポーティング
○ データプロダクトの構築や試作
■ データプロダクトは現実世界に取り込まれ、フィードバックループが生成される。解析の際は
モデル自体が原因となったバイアスに関しての取扱を考慮する必要がある。
Leverages Marketing Department
データサイエンティストの役割 (一部小山の意見)
17
● 生データの収集
○ ビジネス現場における解くべき課題の設定
○ 課題解決に対して必要そうなデータ種の設計
○ 仮説を立てる
○ データ収集自体の行為
● データの処理
○ 処理手順、処理手法の設計
● EDA
○ 重複、欠損、外れ値、データの記録ミスなどの発見及び修復。
● モデル設計
○ 仮説を立てる
○ ビジネス現場の環境とデータ世界の定義を結びつけ関係性を意味付けしていく
● ゴールに向けてのアウトプット
○ 誰が見ても理解しやすい制作物の作成(データサイエンスの翻訳)
Leverages Marketing Department
まとめ
18
この章を読んだ上での感想。
データ戦略室の人間としてこういった質問には回答を用意しよう
Leverages Marketing Department
まとめ
19
日常会話にて (対:色んな人)
● データサイエンティストって何をする人?
● データサイエンティストになるにはどんなスキルと経験が必要?
● モデルってどうやって作ったらいいんやろ?
仕事の会話にて (対:データ戦略室内、社内のお偉方)
● この元データに内包される可能性のあるバイアスはないのか?
● モデルを作るときに除外して考えた仮説はなんでしょう?
● そのデータプロダクトは結局どのような意思決定に寄与するのか?
Leverages Marketing Department
まとめ
20
自分の今やっている仕事に対して、
こういうことに責任を持って答えられるようしないといけないな、
という認識になっていれば、今回の章はクリアではないでしょうか。
おわり。

More Related Content

Similar to [DSO]勉強会_データサイエンス講義_Chapter1,2

データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性BrainPad Inc.
 
Mktg06 市場調査(1次データ)
Mktg06 市場調査(1次データ)Mktg06 市場調査(1次データ)
Mktg06 市場調査(1次データ)Takeshi Matsui
 
データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~
データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~
データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~NTT Software Innovation Center
 
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一schoowebcampus
 
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるかGoogle Cloud Platform - Japan
 
金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?Tsunehiko Nagayama
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題kurikiyo
 
20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司
20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司
20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司Insight Technology, Inc.
 
ビッグデータプロジェクトを加速させるための 仕組みと運用
ビッグデータプロジェクトを加速させるための仕組みと運用ビッグデータプロジェクトを加速させるための仕組みと運用
ビッグデータプロジェクトを加速させるための 仕組みと運用Eiji Sasahara, Ph.D., MBA 笹原英司
 
高砂市公共施設マネジメント研修(データ利活用編)
高砂市公共施設マネジメント研修(データ利活用編)高砂市公共施設マネジメント研修(データ利活用編)
高砂市公共施設マネジメント研修(データ利活用編)Daisuke Tsutsui
 
「実践的」カスタマージャーニー分析のすすめ
「実践的」カスタマージャーニー分析のすすめ「実践的」カスタマージャーニー分析のすすめ
「実践的」カスタマージャーニー分析のすすめAkihiko Uchino
 
Webマーケティングを通じたデータサイエンティストの価値発揮方法
Webマーケティングを通じたデータサイエンティストの価値発揮方法Webマーケティングを通じたデータサイエンティストの価値発揮方法
Webマーケティングを通じたデータサイエンティストの価値発揮方法E2D3.org
 
ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"
ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"
ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"Takahiro Noda
 
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)Tsukasa Makino
 
RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)Techno Project Co., Ltd.
 
Meeting agenda for next IT solution
Meeting agenda for next IT solutionMeeting agenda for next IT solution
Meeting agenda for next IT solutionkoichi ikeda
 

Similar to [DSO]勉強会_データサイエンス講義_Chapter1,2 (20)

データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
 
Mktg06 市場調査(1次データ)
Mktg06 市場調査(1次データ)Mktg06 市場調査(1次データ)
Mktg06 市場調査(1次データ)
 
ビッグデータ
ビッグデータビッグデータ
ビッグデータ
 
データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~
データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~
データ分析をビジネスに活かす!データ創出・活用から、分析、課題解決までのDX時代のデータ活用事例のご紹介 ~不揃いのデータとの格闘~
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
 
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
 
金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
 
20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司
20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司
20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司
 
ビッグデータプロジェクトを加速させるための 仕組みと運用
ビッグデータプロジェクトを加速させるための仕組みと運用ビッグデータプロジェクトを加速させるための仕組みと運用
ビッグデータプロジェクトを加速させるための 仕組みと運用
 
高砂市公共施設マネジメント研修(データ利活用編)
高砂市公共施設マネジメント研修(データ利活用編)高砂市公共施設マネジメント研修(データ利活用編)
高砂市公共施設マネジメント研修(データ利活用編)
 
「実践的」カスタマージャーニー分析のすすめ
「実践的」カスタマージャーニー分析のすすめ「実践的」カスタマージャーニー分析のすすめ
「実践的」カスタマージャーニー分析のすすめ
 
Webマーケティングを通じたデータサイエンティストの価値発揮方法
Webマーケティングを通じたデータサイエンティストの価値発揮方法Webマーケティングを通じたデータサイエンティストの価値発揮方法
Webマーケティングを通じたデータサイエンティストの価値発揮方法
 
深層学習モデルと統計モデルHR現場で適切だったのはどっち!?
深層学習モデルと統計モデルHR現場で適切だったのはどっち!?深層学習モデルと統計モデルHR現場で適切だったのはどっち!?
深層学習モデルと統計モデルHR現場で適切だったのはどっち!?
 
ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"
ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"
ビジネス価値を産み出す "攻めのデータマネジメントの姿とは?"
 
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
 
RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
Meeting agenda for next IT solution
Meeting agenda for next IT solutionMeeting agenda for next IT solution
Meeting agenda for next IT solution
 

Recently uploaded

IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (8)

IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 

[DSO]勉強会_データサイエンス講義_Chapter1,2

  • 1. Leverages Marketing Department [DSO]勉強会 データサイエンス講義 Chapter1,2 2019/06/14 データ戦略室 小山祥太郎 1
  • 2. Leverages Marketing Department 教科書 2 Rachel Schutt, Cathy O‘Neil (2014) 「データサイエンス講義」 (瀬戸山 雅人・石井 弓美子・河内 崇・河内 真理子・古畠 敦・ 木下 哲也・竹田 正和・佐藤 正士・望月 啓充 訳) 1章 はじめに:データサイエンスとは 2章 統計的推論、探索的データ分析、データサイエンスのプロセス 3章 アルゴリズム 4章 スパムフィルタ、単純ベイズ、データラングリング 5章 ロジスティック回帰 6章 タイムスタンプと金融モデリング 7章 データから意味を抽出する 8章 レコメンデーションエンジン:ユーザが直接触れる大規模データ製品を構築する 9章 データ可視化と不正検出 10章 ソーシャルネットワークとデータジャーナリズム 11章 因果関係 12章 疫学 13章 データ分析のコンペティションから得られた教訓:データのリークとモデルの評価 14章 データエンジニアリング:MapReduce、Pregel、Hadoop 15章 生徒たちの声 16章 次世代のデータサイエンティスト、データに対する過信と倫理
  • 4. Leverages Marketing Department ● 前段 ○ データサイエンスのプロセスは存在し、学術的な部分としては統計学と計算機科学を基 盤としている。 ○ 現在、生活の様々な場面に関する膨大なデータが存在し、蓄積されている。加えて、安 価な計算能力も豊富に存在していることが「ビッグデータ」「データサイエンス」とい う言葉を有名にしている背景となっている。 ○ データサイエンスとはデータの土木工学である。 データサイエンスとは 4
  • 6. Leverages Marketing Department データマニアの優れたスキル (cf.Nathan Yau - 2009) 6 統計 検証するのに慣れた従 来の方法 ● 全ての領域に強い人はいないため様々な経験や専門性を持つ人間を集めて効果的 なチームを定義するほうが良い。 ● 参考:https://qiita.com/hik0107/items/f9bf14a7575d5c885a16 データマンジング データの解析、解体 、フォーマット 可視化 グラフ、ツールなど
  • 7. Leverages Marketing Department データサイエンスプロフィール (cf. Rachel Schutt) 7 ● 自身のデータサイエンスのスキル水準に関して尺度的に決めるもの。 ● 各個人のデータサイエンスプロフィールの足し上げがデータサイエンスチームプ ロフィールとなる。データサイエンスチームプロフィールとそのチームが解決し ようとするデータ課題のプロフィールは合致すべき。 デ | タ 可 視 化 機 械 学 習 数 学 統 計 学 計 算 機 科 学 コ ミ ュ ニ ケ | シ ョ ン 特 定 分 野 の 専 門 知 識
  • 8. Leverages Marketing Department データサイエンティストとは 8 ● 学術界 ○ 社会科学から生物学までの何かに長けており、大量のデータを扱い、データの構造、サ イズ、乱雑性、複雑性、性質によってもたらされる計算問題に立ち向かい、現実世界の 問題を解決する科学者。 ● 産業界 ○ 担っている部分 ■ データの収集やロギングのためのエンジニアリングやインフラから、プライバシーに対する懸 念やユーザーが直面するデータをどのように利用して判断を下すか、データからそのようにし て成果を導くかということまでの全てを定める。 ■ 場合によっては、革新系なソリューションの特許取得や研究目的の設定にも携わる。 ○ どんな人であるのか ■ データから意味を抽出し解釈する方法を知っている人 ● 統計や機械学習のツールや手法に加えて、人間らしくある必要がある。 ● データ収集、クリーニング、マンジングに多くの時間を費やし、忍耐、統計、ソフトウェアエンジニア リングスキルが必要。 ■ 探索的データ分析などからパターンを見つけ、モデルとアルゴリズムを構築する。 ■ 最終的に、データにもとづいた何らかの意思決定を行う。
  • 9. Leverages Marketing Department 統計的思考 9 ● 統計的推論 ○ 世界からデータを取り出し、データから世界を理解するプロセス ○ 確率的過程によって生成されるデータから意味や情報を抽出するための手順や手法、理 論。 ● 母集団 ○ 対象の全てについての完全な観測値のセット全て ● 標本 ○ 母集団の一部から取り出した観測値のセット
  • 10. Leverages Marketing Department ビッグデータの母集団と標本 10 ビッグデータ時代においてはユーザーの行動を 全ての期間に渡って記録できるのに標本という概念は必要なのか? ● 一般的に分析/推論のためであれば、通常全てのデータを保持し続ける必要はないとされる。 ● ビッグデータであったとしても、データの蓄積の条件や環境によってなどでバイアスがかか る可能性があることを考慮すべき。 ● 母集団と見えるものでも、考え方によってはさらに大きい母集団の標本である。 ● 新しい種類のデータに関しては、サンプリングの際に、それがどのような意味を持つ可能性 があるかということを常に慎重に考える必要がある。 ■ 伝統的なもの:数値型、カテゴリ型、2値型 ■ テキストデータ ■ レコード ■ 地理情報ベースの位置データ ■ ネットワーク ■ センサーデータ ■ 画像
  • 11. Leverages Marketing Department ビッグデータの大きな仮定 11 ● データが非常に膨大であることを考えれば、ビッグデータにおいては因果関係を 理解する必要はない、またサンプリングの誤差を気にする必要はない。というこ とは間違っている。ビッグデータであったとしてもN=ALLではない。 ○ 結局データが取れている人しか取れていない。 ○ 因果関係を無視したモデルは過去の問題を繰り返すだけのものになる。
  • 12. Leverages Marketing Department モデル 12 ● モデルとは ○ 特定のレンズを通して現実の性質を理解し表現しようとする試み。 ○ 全ての余分な詳細部分は取り除かれている。どのような仮定を置いているのか、何が 省略されているのか、という部分を十分考慮すべき。 ● モデルの作り方 ○ 一般解はない。 ○ 探索的データ分析(EDA)から始めるのが一つの有益な方法である。 ○ データ収集、定性的な現実世界の情報収集、知っているモデルの種類、可視化の技法 ○ シンプルなモデルからはじめ、少しずつ複雑にしながら仮定を追加していくのがよい。 ■ シンプルさと正確性はトレードオフ。シンプルなモデルは解釈、理解、作成が容易。どこまで の正確性で手を打つかの判断が大事。
  • 13. Leverages Marketing Department 確率分布 13 ● 確率分布は統計モデルの構成要素の一部となる。 ● 自然のプロセスが生み出す測定値は経験的にある分布系を持つ傾向があり、その 分布が数学関数で近似されている。(確率密度関数) ○ それぞれの確率分布がどういう意味を持ち、どのような現象に当てはまるとされている のかは各自勉強しておかれたい。 ● 数学的意味 ○ 確率密度関数は定義域内での積分値が1となる。(確率)変数の特定の範囲内での定積分 はその(確率)変数の範囲の事象が起き得る確率を意味する。 ○ 1つ以上の確率変数を持つ場合に拡張した分布の概念が同時分布。確率変数が2変数の 場合は全平面に対しての二重積分が1となる。 ○ 一方の確率変数を固定したときのもう一方の確率変数の確率密度関数のことを条件付き 分布という。
  • 14. Leverages Marketing Department モデルのフィッティング 14 ● フィッティング ○ 観測データを使用してモデルのパラメータを推定すること。 ○ 最尤推定などの最適化手法やアルゴリズムが必要となる。 ○ 実務的にはRやPython等を使用して実現可能。 ● オーバーフィッティング ○ パラメータを推定する際に使用した標本データの範囲を超えたデータに対してのモデ ルの汎用性が失われている状態。 ○ モデルのフィッティングに使用したのとは異なるデータセットに対してモデルを使って 予測を行い、特定の評価指標でモデルを評価するとわかる。
  • 15. Leverages Marketing Department 探索的データ分析 (EDA) 15 ● 基本的なツール ○ プロット ○ グラフ ○ 要約統計量 ■ 平均値、最小値、最大値、四分位点、外れ値、など 自分自身で「データがどんな形をしているのか」「データの挙動はどうか」 「現実でなにが起こっているのか」ということを理解する目的でEDAを行う。 データをよく見て、地道に自分の手でデータをいじってみること。
  • 16. Leverages Marketing Department データサイエンスのプロセス 16 ● 生データの収集 ● データの処理 ○ データの結合 ○ スクレイピング ○ データラングリング ○ 使用ツールはPython,シェルスクリプト,R,SQLなど (割とSSでもできるけど) ● EDA ○ 重複、欠損、外れ値、データの記録ミスなどの発見及び修復。 ● モデル設計 ○ どのような問題を解決しようとしているのかに応じて適切に選択・設計。 ● ゴールに向けてのアウトプット ○ 提言及び意思決定、それに伴うレポーティング ○ データプロダクトの構築や試作 ■ データプロダクトは現実世界に取り込まれ、フィードバックループが生成される。解析の際は モデル自体が原因となったバイアスに関しての取扱を考慮する必要がある。
  • 17. Leverages Marketing Department データサイエンティストの役割 (一部小山の意見) 17 ● 生データの収集 ○ ビジネス現場における解くべき課題の設定 ○ 課題解決に対して必要そうなデータ種の設計 ○ 仮説を立てる ○ データ収集自体の行為 ● データの処理 ○ 処理手順、処理手法の設計 ● EDA ○ 重複、欠損、外れ値、データの記録ミスなどの発見及び修復。 ● モデル設計 ○ 仮説を立てる ○ ビジネス現場の環境とデータ世界の定義を結びつけ関係性を意味付けしていく ● ゴールに向けてのアウトプット ○ 誰が見ても理解しやすい制作物の作成(データサイエンスの翻訳)
  • 19. Leverages Marketing Department まとめ 19 日常会話にて (対:色んな人) ● データサイエンティストって何をする人? ● データサイエンティストになるにはどんなスキルと経験が必要? ● モデルってどうやって作ったらいいんやろ? 仕事の会話にて (対:データ戦略室内、社内のお偉方) ● この元データに内包される可能性のあるバイアスはないのか? ● モデルを作るときに除外して考えた仮説はなんでしょう? ● そのデータプロダクトは結局どのような意思決定に寄与するのか?