SlideShare ist ein Scribd-Unternehmen logo
1 von 18
東大生向けデータ解析講座 第3回
2018/01/03
3idea CEO 西岡 賢一郎
スケジュール
● 12/27(水):データ解析のための環境構築(Python3, jupyter notebook等)
● 12/29(金):numpy, pandasの操作
● 1/4(木):sklearnを使った機械学習による予測
○ 機械学習
■ Regression
■ Clustering
■ Classification
○ CrossValidation
○ Preprocessing
● 1/5(金):応用(選択テーマ、若しく持ち込みテーマ)
前回アンケートの質問への解答
● ソフトが違うと一部出してくる数値が異なる、という問題が偶にあります
が、(Rとかもある)そういう特性で知られているもの・注意した方がい
いものがあれば教えてください。
○ 同じ名前でも定義が複数あるものがあり、それによって結果が異なってくることはよくあ
ります(例: 回帰分析の決定係数など)。また同じプログラムでも機械学習ではアルゴリズ
ムの途中で乱数を用いることがあり、それによって毎回結果が異なることもあります (乱
数の生成を制御することは可能)
● 授業の後にトライディアのほうでインターン等は可能ですか?
○ 公募はしていないですが、やる気ある人は随時募集中です。解析者だけでなく、Ruby on
Railsを用いたWebプログラマーも募集中です。Pyenv, Git, Shell, Emacsなど使ってくる
ソフトウェアが本格的になってくるので、より実践的な内容を学ぶことが可能です。今ま
でで計30人ほどの東大インターン生がいましたが、リモートワークがメインで自己管理能
力が求められるため、現在は社会人メインになっており、学生インターンは3人(東大2人)
に縮小しています。
Pandasの公式ドキュメントの見方
Pandas, DataFrame, Seriesのどれに紐付いているかを気をつけないと引数が異なったりしていてはまることがある。
引数に何が必須で何が必須でないかは説明をきちんと読む。デフォルト値の設定に関しても書いてある。
Pandasに紐付いている DataFrameに紐付いている
引数が異なる
引数の説明、デフォルト値など
機械学習
大まかに分けて抑えておくべきは3つ
● Regression (回帰): Y = f(x) として当てはまりが良いものをさがす。誤差を
最小化
● Clustering: 教師なし学習。特定の基準に基づきデータを複数の群に分割す
る
● Classification (分類): 教師あり学習。学習データからモデルを生成し、新
しいデータがあったときがどのラベルに属するかを分類する。予測精度の
最大化
機械学習の流れ
sklearnを今後使う上でよく出る関数の流れ
model.fit
model.predict
model.transform
データの標準化 → 変換
PCA, KMeans, MinMaxScaler,...
データの学習 → 予測
Regression
データに当てはまりの良い関数を探す
● Linear Regression
● Logistic Regression
線形回帰
今回は深入りはできないが、誤差の小さいa1, a2, a3を探す
オーバーフィッティング (過学習)
パラメータを増やすと予測精度が異様に高くなる。このときオーバーフィッテ
ィングになっていないかどうか気をつける。Regressionではオーバーフィッテ
ィングを防ぐためのモデルがある (例: L1正則, L2正則)
Clustering
Clusteringでよく使われる手法
● 階層的Clustering: デンドログラムによって表示
可能
○ 最短(最長)距離法
○ Ward法
● 非階層的Clustering
○ K-means
ClusteringのInput
説明変数を行列として与える
説明変数 X
n
m
model.fit(X)
Classification
元データがどのラベルに属するかがついており、新しくデータが入ったときにどこのラベルに属するかを予測
よく使われる手法
● Logistic Regression
● Support Vector Machine
● Random Forest
元の実データの分類
点の色で分類を表示
学習結果による分類
背景色で分類を表示
新しいデータがどの分類に属するかを予測
ClassificationのInput
説明変数と目的変数を行列として与える
説明変数 X 目的
変数 Y
n
m
n
l
model.fit(X, Y)
トレーニングデータとテストデータ
オーバーフィッティングによる誤認識を防ぐためにもトレーニングデータとテ
ストデータは基本的に分ける
columns
index
トレーニングデータ
テストデータ
説明変数、目的変数とトレーニングデータとテストデータ
トレーニングデータ、テストデータの中にさらに説明変数、目的変数がはいっ
ているので、合計4つの行列ができる
columns
index
train X
train
Y
test X test Y
クロスバリデーション (交差検定)
データをK個に分割し (k-fold cross-validation)、そのうち1つをテストデータ、
残りをトレーニングデータとして扱い学習を行う。
トレーニングデータ ((K-1)/K)
ここからモデルの学習を行う
テストデータ (1/K)
これを使って評価をする
K分割し、1つをテストデータに使用
分割するときにデータの性質を反映してしまうような分割となっていないか注意
columns
index
Accuracy
どのくらい正解しているかの率。正解不正解が偏っている場合は、精度が高く
なり使えない。
正解で正 正解で負
予測で正 真陽性
True Positive
偽陽性
False Positive
予測で負 偽陰性
False Positive
真陰性
True Negative
質的データの扱い
質的データはそのままでは扱えないのでダミー変数に変換 (one-hot表現)
a, b, cがそれぞれ[1, 0, 0], [0, 1, 0], [0, 0, 1]として表されている
見た目は数値でも比較できないデータなどに注意しておく (idなど)
col
0 a
1 a
2 b
3 b
4 c
5 b
6 a
a b c
0 1 0 0
1 1 0 0
2 0 1 0
3 0 1 0
4 0 0 1
5 0 1 0
6 1 0 0
dummy変数に変換
get_dummies()

Weitere ähnliche Inhalte

Was ist angesagt?

データベースシステム論15 - 関係データモデル以外のデータベース
データベースシステム論15 - 関係データモデル以外のデータベースデータベースシステム論15 - 関係データモデル以外のデータベース
データベースシステム論15 - 関係データモデル以外のデータベースShohei Yokoyama
 
Introduction of network analysis with Google Colaboratory -- Network Metrics
Introduction of network analysis with Google Colaboratory -- Network MetricsIntroduction of network analysis with Google Colaboratory -- Network Metrics
Introduction of network analysis with Google Colaboratory -- Network Metricstm1966
 
Introduction of neo4j
Introduction of neo4jIntroduction of neo4j
Introduction of neo4jIto Kunihiko
 
データベースシステム論01 - ガイダンス
データベースシステム論01 - ガイダンスデータベースシステム論01 - ガイダンス
データベースシステム論01 - ガイダンスShohei Yokoyama
 
時系列データ型(Int4)をつくってみた
時系列データ型(Int4)をつくってみた時系列データ型(Int4)をつくってみた
時系列データ型(Int4)をつくってみたToshi Harada
 
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
Code for Japan Summit 2019 --- BAD OpenData KuyoderaCode for Japan Summit 2019 --- BAD OpenData Kuyodera
Code for Japan Summit 2019 --- BAD OpenData Kuyoderassuserc75473
 
競技プログラミング練習会2015 Normal 第4回
競技プログラミング練習会2015 Normal 第4回競技プログラミング練習会2015 Normal 第4回
競技プログラミング練習会2015 Normal 第4回Hideaki Nagamine
 
競技プログラミング練習会2015 Normal 第2回
競技プログラミング練習会2015 Normal 第2回競技プログラミング練習会2015 Normal 第2回
競技プログラミング練習会2015 Normal 第2回Hideaki Nagamine
 
データベースシステム論05 - PostgreSQLのインストール
データベースシステム論05 - PostgreSQLのインストールデータベースシステム論05 - PostgreSQLのインストール
データベースシステム論05 - PostgreSQLのインストールShohei Yokoyama
 
ReNom 2016 ~ 2018振り返り
ReNom 2016 ~ 2018振り返りReNom 2016 ~ 2018振り返り
ReNom 2016 ~ 2018振り返りReNom User Group
 
トポロジカルデータ解析(仮)
トポロジカルデータ解析(仮)トポロジカルデータ解析(仮)
トポロジカルデータ解析(仮)Takahiro Yoshinaga
 
二階堂愛と二階堂藍の違いについて
二階堂愛と二階堂藍の違いについて二階堂愛と二階堂藍の違いについて
二階堂愛と二階堂藍の違いについてshow you
 
池袋物理学勉強会第一回の予習に関して
池袋物理学勉強会第一回の予習に関して池袋物理学勉強会第一回の予習に関して
池袋物理学勉強会第一回の予習に関してGM3D
 
A Road map of Data Analysis for Visualization with D3.js
A Road map of Data Analysis for Visualization with D3.jsA Road map of Data Analysis for Visualization with D3.js
A Road map of Data Analysis for Visualization with D3.js博三 太田
 
データベースシステム論06 - SQL基礎演習1 データの定義と操作
データベースシステム論06 - SQL基礎演習1 データの定義と操作データベースシステム論06 - SQL基礎演習1 データの定義と操作
データベースシステム論06 - SQL基礎演習1 データの定義と操作Shohei Yokoyama
 
Findings from visualizing_massive_data
Findings from visualizing_massive_dataFindings from visualizing_massive_data
Findings from visualizing_massive_dataToshiyuki Shimono
 
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」西岡 賢一郎
 
論文読み 20170525
論文読み 20170525論文読み 20170525
論文読み 20170525Taichi Iki
 

Was ist angesagt? (20)

データベースシステム論15 - 関係データモデル以外のデータベース
データベースシステム論15 - 関係データモデル以外のデータベースデータベースシステム論15 - 関係データモデル以外のデータベース
データベースシステム論15 - 関係データモデル以外のデータベース
 
Introduction of network analysis with Google Colaboratory -- Network Metrics
Introduction of network analysis with Google Colaboratory -- Network MetricsIntroduction of network analysis with Google Colaboratory -- Network Metrics
Introduction of network analysis with Google Colaboratory -- Network Metrics
 
Introduction of neo4j
Introduction of neo4jIntroduction of neo4j
Introduction of neo4j
 
Rゼミ 1
Rゼミ 1Rゼミ 1
Rゼミ 1
 
データベースシステム論01 - ガイダンス
データベースシステム論01 - ガイダンスデータベースシステム論01 - ガイダンス
データベースシステム論01 - ガイダンス
 
時系列データ型(Int4)をつくってみた
時系列データ型(Int4)をつくってみた時系列データ型(Int4)をつくってみた
時系列データ型(Int4)をつくってみた
 
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
Code for Japan Summit 2019 --- BAD OpenData KuyoderaCode for Japan Summit 2019 --- BAD OpenData Kuyodera
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
 
競技プログラミング練習会2015 Normal 第4回
競技プログラミング練習会2015 Normal 第4回競技プログラミング練習会2015 Normal 第4回
競技プログラミング練習会2015 Normal 第4回
 
競技プログラミング練習会2015 Normal 第2回
競技プログラミング練習会2015 Normal 第2回競技プログラミング練習会2015 Normal 第2回
競技プログラミング練習会2015 Normal 第2回
 
データベースシステム論05 - PostgreSQLのインストール
データベースシステム論05 - PostgreSQLのインストールデータベースシステム論05 - PostgreSQLのインストール
データベースシステム論05 - PostgreSQLのインストール
 
ReNom 2016 ~ 2018振り返り
ReNom 2016 ~ 2018振り返りReNom 2016 ~ 2018振り返り
ReNom 2016 ~ 2018振り返り
 
トポロジカルデータ解析(仮)
トポロジカルデータ解析(仮)トポロジカルデータ解析(仮)
トポロジカルデータ解析(仮)
 
二階堂愛と二階堂藍の違いについて
二階堂愛と二階堂藍の違いについて二階堂愛と二階堂藍の違いについて
二階堂愛と二階堂藍の違いについて
 
池袋物理学勉強会第一回の予習に関して
池袋物理学勉強会第一回の予習に関して池袋物理学勉強会第一回の予習に関して
池袋物理学勉強会第一回の予習に関して
 
A Road map of Data Analysis for Visualization with D3.js
A Road map of Data Analysis for Visualization with D3.jsA Road map of Data Analysis for Visualization with D3.js
A Road map of Data Analysis for Visualization with D3.js
 
データベースシステム論06 - SQL基礎演習1 データの定義と操作
データベースシステム論06 - SQL基礎演習1 データの定義と操作データベースシステム論06 - SQL基礎演習1 データの定義と操作
データベースシステム論06 - SQL基礎演習1 データの定義と操作
 
Findings from visualizing_massive_data
Findings from visualizing_massive_dataFindings from visualizing_massive_data
Findings from visualizing_massive_data
 
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
 
論文読み 20170525
論文読み 20170525論文読み 20170525
論文読み 20170525
 
機械学習ライブラリ : TensorFlow
機械学習ライブラリ : TensorFlow機械学習ライブラリ : TensorFlow
機械学習ライブラリ : TensorFlow
 

Ähnlich wie 東大生向けデータ解析講座 第3回 2018/01/04

論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...y-uti
 
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術JustSystems Corporation
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7Shunsuke Nakamura
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案Toshiyuki Shimono
 
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...ryoma yoshimura
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題Kenta Oono
 
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較National Institute of Informatics
 
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事Shunsuke Nakamura
 
ぜねこん 鳳祭用脳筋スライド
ぜねこん 鳳祭用脳筋スライドぜねこん 鳳祭用脳筋スライド
ぜねこん 鳳祭用脳筋スライドKohei Yarita
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)none_toka
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1Shunsuke Nakamura
 
短距離古典分子動力学計算の 高速化と大規模並列化
短距離古典分子動力学計算の 高速化と大規模並列化短距離古典分子動力学計算の 高速化と大規模並列化
短距離古典分子動力学計算の 高速化と大規模並列化Hiroshi Watanabe
 
Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話y-uti
 
データ表現演習(その後
データ表現演習(その後データ表現演習(その後
データ表現演習(その後ssn37
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門Yuichiro Kobayashi
 

Ähnlich wie 東大生向けデータ解析講座 第3回 2018/01/04 (18)

論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
 
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術
 
TokyoWebming
TokyoWebmingTokyoWebming
TokyoWebming
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
 
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
 
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
 
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事
 
ぜねこん 鳳祭用脳筋スライド
ぜねこん 鳳祭用脳筋スライドぜねこん 鳳祭用脳筋スライド
ぜねこん 鳳祭用脳筋スライド
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
 
短距離古典分子動力学計算の 高速化と大規模並列化
短距離古典分子動力学計算の 高速化と大規模並列化短距離古典分子動力学計算の 高速化と大規模並列化
短距離古典分子動力学計算の 高速化と大規模並列化
 
Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話
 
データ表現演習(その後
データ表現演習(その後データ表現演習(その後
データ表現演習(その後
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
 

Mehr von 西岡 賢一郎

Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用するAmazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する西岡 賢一郎
 
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化するAmazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する西岡 賢一郎
 
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成するAmazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する西岡 賢一郎
 
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待西岡 賢一郎
 
リモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのことリモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのこと西岡 賢一郎
 
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介西岡 賢一郎
 
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解するFeature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する西岡 賢一郎
 
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store西岡 賢一郎
 
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで西岡 賢一郎
 
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習西岡 賢一郎
 
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成西岡 賢一郎
 
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論西岡 賢一郎
 
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析西岡 賢一郎
 
TorchDataチュートリアル解説
TorchDataチュートリアル解説TorchDataチュートリアル解説
TorchDataチュートリアル解説西岡 賢一郎
 
Amazon SageMaker JumpStart
Amazon SageMaker JumpStartAmazon SageMaker JumpStart
Amazon SageMaker JumpStart西岡 賢一郎
 
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介西岡 賢一郎
 
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習西岡 賢一郎
 
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきことPMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと西岡 賢一郎
 
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門西岡 賢一郎
 

Mehr von 西岡 賢一郎 (20)

Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用するAmazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
 
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化するAmazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
 
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成するAmazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する
 
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待
 
リモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのことリモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのこと
 
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介
 
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解するFeature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
 
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store
 
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
 
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習
 
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
 
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論
 
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
 
未来のカタチ x AI
未来のカタチ x AI未来のカタチ x AI
未来のカタチ x AI
 
TorchDataチュートリアル解説
TorchDataチュートリアル解説TorchDataチュートリアル解説
TorchDataチュートリアル解説
 
Amazon SageMaker JumpStart
Amazon SageMaker JumpStartAmazon SageMaker JumpStart
Amazon SageMaker JumpStart
 
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介
 
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習
 
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきことPMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
 
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門
 

東大生向けデータ解析講座 第3回 2018/01/04

Hinweis der Redaktion

  1. a_1 + a_1x_{11} + a_1x_{12} = y_1\\ a_2 + a_2x_{21} + a_2x_{22} = y_2\\ a_3 + a_3x_{31} + a_3x_{32} = y_3 \left[ \begin{array}{rrr} 1 & x_{11} & x_{12} \\ 1 & x_{21} & x_{22} \\ 1 & x_{31} & x_{32} \end{array} \right] \times \left[ \begin{array}{r} a_1\\a_2\\a_3 \end{array} \right] = \left[ \begin{array}{r} y_1\\y_2\\y_3 \end{array} \right]
  2. Accuracy = \frac{TP + TN}{TP + FP + FN + TN}