Suche senden
Hochladen
東大生向けデータ解析講座 第3回 2018/01/04
•
Als PPTX, PDF herunterladen
•
0 gefällt mir
•
327 views
西岡 賢一郎
Folgen
解析初心者の東大生向けの講座の第三回。sklearnを用いてregression, clustering, classificationを実装。
Weniger lesen
Mehr lesen
Daten & Analysen
Melden
Teilen
Melden
Teilen
1 von 18
Jetzt herunterladen
Empfohlen
東大生向けデータ解析講座 第4回 2018/01/05
東大生向けデータ解析講座 第4回 2018/01/05
西岡 賢一郎
東大生向けデータ解析講座 第1回 2017/12/27
東大生向けデータ解析講座 第1回 2017/12/27
西岡 賢一郎
東大生向けデータ解析講座 第2回 2017/12/29
東大生向けデータ解析講座 第2回 2017/12/29
西岡 賢一郎
TokyoWebmining
TokyoWebmining
Ryoji Yanashima
IA14
IA14
mfumi
データベースシステム論14 - 総復習!
データベースシステム論14 - 総復習!
Shohei Yokoyama
TokyoR42_around_chaining
TokyoR42_around_chaining
TokorosawaYoshio
HTML5 Conference LT TensorFlow
HTML5 Conference LT TensorFlow
isaac-otao
Empfohlen
東大生向けデータ解析講座 第4回 2018/01/05
東大生向けデータ解析講座 第4回 2018/01/05
西岡 賢一郎
東大生向けデータ解析講座 第1回 2017/12/27
東大生向けデータ解析講座 第1回 2017/12/27
西岡 賢一郎
東大生向けデータ解析講座 第2回 2017/12/29
東大生向けデータ解析講座 第2回 2017/12/29
西岡 賢一郎
TokyoWebmining
TokyoWebmining
Ryoji Yanashima
IA14
IA14
mfumi
データベースシステム論14 - 総復習!
データベースシステム論14 - 総復習!
Shohei Yokoyama
TokyoR42_around_chaining
TokyoR42_around_chaining
TokorosawaYoshio
HTML5 Conference LT TensorFlow
HTML5 Conference LT TensorFlow
isaac-otao
データベースシステム論15 - 関係データモデル以外のデータベース
データベースシステム論15 - 関係データモデル以外のデータベース
Shohei Yokoyama
Introduction of network analysis with Google Colaboratory -- Network Metrics
Introduction of network analysis with Google Colaboratory -- Network Metrics
tm1966
Introduction of neo4j
Introduction of neo4j
Ito Kunihiko
Rゼミ 1
Rゼミ 1
tarokun3
データベースシステム論01 - ガイダンス
データベースシステム論01 - ガイダンス
Shohei Yokoyama
時系列データ型(Int4)をつくってみた
時系列データ型(Int4)をつくってみた
Toshi Harada
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
ssuserc75473
競技プログラミング練習会2015 Normal 第4回
競技プログラミング練習会2015 Normal 第4回
Hideaki Nagamine
競技プログラミング練習会2015 Normal 第2回
競技プログラミング練習会2015 Normal 第2回
Hideaki Nagamine
データベースシステム論05 - PostgreSQLのインストール
データベースシステム論05 - PostgreSQLのインストール
Shohei Yokoyama
ReNom 2016 ~ 2018振り返り
ReNom 2016 ~ 2018振り返り
ReNom User Group
トポロジカルデータ解析(仮)
トポロジカルデータ解析(仮)
Takahiro Yoshinaga
二階堂愛と二階堂藍の違いについて
二階堂愛と二階堂藍の違いについて
show you
池袋物理学勉強会第一回の予習に関して
池袋物理学勉強会第一回の予習に関して
GM3D
A Road map of Data Analysis for Visualization with D3.js
A Road map of Data Analysis for Visualization with D3.js
博三 太田
データベースシステム論06 - SQL基礎演習1 データの定義と操作
データベースシステム論06 - SQL基礎演習1 データの定義と操作
Shohei Yokoyama
Findings from visualizing_massive_data
Findings from visualizing_massive_data
Toshiyuki Shimono
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
西岡 賢一郎
論文読み 20170525
論文読み 20170525
Taichi Iki
機械学習ライブラリ : TensorFlow
機械学習ライブラリ : TensorFlow
エンジニア勉強会 エスキュービズム
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
y-uti
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術
JustSystems Corporation
Weitere ähnliche Inhalte
Was ist angesagt?
データベースシステム論15 - 関係データモデル以外のデータベース
データベースシステム論15 - 関係データモデル以外のデータベース
Shohei Yokoyama
Introduction of network analysis with Google Colaboratory -- Network Metrics
Introduction of network analysis with Google Colaboratory -- Network Metrics
tm1966
Introduction of neo4j
Introduction of neo4j
Ito Kunihiko
Rゼミ 1
Rゼミ 1
tarokun3
データベースシステム論01 - ガイダンス
データベースシステム論01 - ガイダンス
Shohei Yokoyama
時系列データ型(Int4)をつくってみた
時系列データ型(Int4)をつくってみた
Toshi Harada
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
ssuserc75473
競技プログラミング練習会2015 Normal 第4回
競技プログラミング練習会2015 Normal 第4回
Hideaki Nagamine
競技プログラミング練習会2015 Normal 第2回
競技プログラミング練習会2015 Normal 第2回
Hideaki Nagamine
データベースシステム論05 - PostgreSQLのインストール
データベースシステム論05 - PostgreSQLのインストール
Shohei Yokoyama
ReNom 2016 ~ 2018振り返り
ReNom 2016 ~ 2018振り返り
ReNom User Group
トポロジカルデータ解析(仮)
トポロジカルデータ解析(仮)
Takahiro Yoshinaga
二階堂愛と二階堂藍の違いについて
二階堂愛と二階堂藍の違いについて
show you
池袋物理学勉強会第一回の予習に関して
池袋物理学勉強会第一回の予習に関して
GM3D
A Road map of Data Analysis for Visualization with D3.js
A Road map of Data Analysis for Visualization with D3.js
博三 太田
データベースシステム論06 - SQL基礎演習1 データの定義と操作
データベースシステム論06 - SQL基礎演習1 データの定義と操作
Shohei Yokoyama
Findings from visualizing_massive_data
Findings from visualizing_massive_data
Toshiyuki Shimono
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
西岡 賢一郎
論文読み 20170525
論文読み 20170525
Taichi Iki
機械学習ライブラリ : TensorFlow
機械学習ライブラリ : TensorFlow
エンジニア勉強会 エスキュービズム
Was ist angesagt?
(20)
データベースシステム論15 - 関係データモデル以外のデータベース
データベースシステム論15 - 関係データモデル以外のデータベース
Introduction of network analysis with Google Colaboratory -- Network Metrics
Introduction of network analysis with Google Colaboratory -- Network Metrics
Introduction of neo4j
Introduction of neo4j
Rゼミ 1
Rゼミ 1
データベースシステム論01 - ガイダンス
データベースシステム論01 - ガイダンス
時系列データ型(Int4)をつくってみた
時系列データ型(Int4)をつくってみた
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
競技プログラミング練習会2015 Normal 第4回
競技プログラミング練習会2015 Normal 第4回
競技プログラミング練習会2015 Normal 第2回
競技プログラミング練習会2015 Normal 第2回
データベースシステム論05 - PostgreSQLのインストール
データベースシステム論05 - PostgreSQLのインストール
ReNom 2016 ~ 2018振り返り
ReNom 2016 ~ 2018振り返り
トポロジカルデータ解析(仮)
トポロジカルデータ解析(仮)
二階堂愛と二階堂藍の違いについて
二階堂愛と二階堂藍の違いについて
池袋物理学勉強会第一回の予習に関して
池袋物理学勉強会第一回の予習に関して
A Road map of Data Analysis for Visualization with D3.js
A Road map of Data Analysis for Visualization with D3.js
データベースシステム論06 - SQL基礎演習1 データの定義と操作
データベースシステム論06 - SQL基礎演習1 データの定義と操作
Findings from visualizing_massive_data
Findings from visualizing_massive_data
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
論文読み 20170525
論文読み 20170525
機械学習ライブラリ : TensorFlow
機械学習ライブラリ : TensorFlow
Ähnlich wie 東大生向けデータ解析講座 第3回 2018/01/04
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
y-uti
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術
JustSystems Corporation
TokyoWebming
TokyoWebming
Ryoji Yanashima
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
Shunsuke Nakamura
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
Toshiyuki Shimono
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
ryoma yoshimura
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
Kenta Oono
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
National Institute of Informatics
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事
Shunsuke Nakamura
ぜねこん 鳳祭用脳筋スライド
ぜねこん 鳳祭用脳筋スライド
Kohei Yarita
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)
none_toka
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
Shunsuke Nakamura
短距離古典分子動力学計算の 高速化と大規模並列化
短距離古典分子動力学計算の 高速化と大規模並列化
Hiroshi Watanabe
Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話
y-uti
データ表現演習(その後
データ表現演習(その後
ssn37
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
Yuichiro Kobayashi
Ähnlich wie 東大生向けデータ解析講座 第3回 2018/01/04
(18)
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術
TokyoWebming
TokyoWebming
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事
ぜねこん 鳳祭用脳筋スライド
ぜねこん 鳳祭用脳筋スライド
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
短距離古典分子動力学計算の 高速化と大規模並列化
短距離古典分子動力学計算の 高速化と大規模並列化
Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話
データ表現演習(その後
データ表現演習(その後
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
Mehr von 西岡 賢一郎
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
西岡 賢一郎
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
西岡 賢一郎
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する
西岡 賢一郎
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待
西岡 賢一郎
リモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのこと
西岡 賢一郎
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介
西岡 賢一郎
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
西岡 賢一郎
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store
西岡 賢一郎
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
西岡 賢一郎
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習
西岡 賢一郎
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
西岡 賢一郎
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論
西岡 賢一郎
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
西岡 賢一郎
未来のカタチ x AI
未来のカタチ x AI
西岡 賢一郎
TorchDataチュートリアル解説
TorchDataチュートリアル解説
西岡 賢一郎
Amazon SageMaker JumpStart
Amazon SageMaker JumpStart
西岡 賢一郎
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介
西岡 賢一郎
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習
西岡 賢一郎
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
西岡 賢一郎
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門
西岡 賢一郎
Mehr von 西岡 賢一郎
(20)
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのこと
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
未来のカタチ x AI
未来のカタチ x AI
TorchDataチュートリアル解説
TorchDataチュートリアル解説
Amazon SageMaker JumpStart
Amazon SageMaker JumpStart
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門
東大生向けデータ解析講座 第3回 2018/01/04
1.
東大生向けデータ解析講座 第3回 2018/01/03 3idea CEO
西岡 賢一郎
2.
スケジュール ● 12/27(水):データ解析のための環境構築(Python3, jupyter
notebook等) ● 12/29(金):numpy, pandasの操作 ● 1/4(木):sklearnを使った機械学習による予測 ○ 機械学習 ■ Regression ■ Clustering ■ Classification ○ CrossValidation ○ Preprocessing ● 1/5(金):応用(選択テーマ、若しく持ち込みテーマ)
3.
前回アンケートの質問への解答 ● ソフトが違うと一部出してくる数値が異なる、という問題が偶にあります が、(Rとかもある)そういう特性で知られているもの・注意した方がい いものがあれば教えてください。 ○ 同じ名前でも定義が複数あるものがあり、それによって結果が異なってくることはよくあ ります(例:
回帰分析の決定係数など)。また同じプログラムでも機械学習ではアルゴリズ ムの途中で乱数を用いることがあり、それによって毎回結果が異なることもあります (乱 数の生成を制御することは可能) ● 授業の後にトライディアのほうでインターン等は可能ですか? ○ 公募はしていないですが、やる気ある人は随時募集中です。解析者だけでなく、Ruby on Railsを用いたWebプログラマーも募集中です。Pyenv, Git, Shell, Emacsなど使ってくる ソフトウェアが本格的になってくるので、より実践的な内容を学ぶことが可能です。今ま でで計30人ほどの東大インターン生がいましたが、リモートワークがメインで自己管理能 力が求められるため、現在は社会人メインになっており、学生インターンは3人(東大2人) に縮小しています。
4.
Pandasの公式ドキュメントの見方 Pandas, DataFrame, Seriesのどれに紐付いているかを気をつけないと引数が異なったりしていてはまることがある。 引数に何が必須で何が必須でないかは説明をきちんと読む。デフォルト値の設定に関しても書いてある。 Pandasに紐付いている
DataFrameに紐付いている 引数が異なる 引数の説明、デフォルト値など
5.
機械学習 大まかに分けて抑えておくべきは3つ ● Regression (回帰):
Y = f(x) として当てはまりが良いものをさがす。誤差を 最小化 ● Clustering: 教師なし学習。特定の基準に基づきデータを複数の群に分割す る ● Classification (分類): 教師あり学習。学習データからモデルを生成し、新 しいデータがあったときがどのラベルに属するかを分類する。予測精度の 最大化
6.
機械学習の流れ sklearnを今後使う上でよく出る関数の流れ model.fit model.predict model.transform データの標準化 → 変換 PCA,
KMeans, MinMaxScaler,... データの学習 → 予測
7.
Regression データに当てはまりの良い関数を探す ● Linear Regression ●
Logistic Regression
8.
線形回帰 今回は深入りはできないが、誤差の小さいa1, a2, a3を探す
9.
オーバーフィッティング (過学習) パラメータを増やすと予測精度が異様に高くなる。このときオーバーフィッテ ィングになっていないかどうか気をつける。Regressionではオーバーフィッテ ィングを防ぐためのモデルがある (例:
L1正則, L2正則)
10.
Clustering Clusteringでよく使われる手法 ● 階層的Clustering: デンドログラムによって表示 可能 ○
最短(最長)距離法 ○ Ward法 ● 非階層的Clustering ○ K-means
11.
ClusteringのInput 説明変数を行列として与える 説明変数 X n m model.fit(X)
12.
Classification 元データがどのラベルに属するかがついており、新しくデータが入ったときにどこのラベルに属するかを予測 よく使われる手法 ● Logistic Regression ●
Support Vector Machine ● Random Forest 元の実データの分類 点の色で分類を表示 学習結果による分類 背景色で分類を表示 新しいデータがどの分類に属するかを予測
13.
ClassificationのInput 説明変数と目的変数を行列として与える 説明変数 X 目的 変数
Y n m n l model.fit(X, Y)
14.
トレーニングデータとテストデータ オーバーフィッティングによる誤認識を防ぐためにもトレーニングデータとテ ストデータは基本的に分ける columns index トレーニングデータ テストデータ
15.
説明変数、目的変数とトレーニングデータとテストデータ トレーニングデータ、テストデータの中にさらに説明変数、目的変数がはいっ ているので、合計4つの行列ができる columns index train X train Y test X
test Y
16.
クロスバリデーション (交差検定) データをK個に分割し (k-fold
cross-validation)、そのうち1つをテストデータ、 残りをトレーニングデータとして扱い学習を行う。 トレーニングデータ ((K-1)/K) ここからモデルの学習を行う テストデータ (1/K) これを使って評価をする K分割し、1つをテストデータに使用 分割するときにデータの性質を反映してしまうような分割となっていないか注意 columns index
17.
Accuracy どのくらい正解しているかの率。正解不正解が偏っている場合は、精度が高く なり使えない。 正解で正 正解で負 予測で正 真陽性 True
Positive 偽陽性 False Positive 予測で負 偽陰性 False Positive 真陰性 True Negative
18.
質的データの扱い 質的データはそのままでは扱えないのでダミー変数に変換 (one-hot表現) a, b,
cがそれぞれ[1, 0, 0], [0, 1, 0], [0, 0, 1]として表されている 見た目は数値でも比較できないデータなどに注意しておく (idなど) col 0 a 1 a 2 b 3 b 4 c 5 b 6 a a b c 0 1 0 0 1 1 0 0 2 0 1 0 3 0 1 0 4 0 0 1 5 0 1 0 6 1 0 0 dummy変数に変換 get_dummies()
Hinweis der Redaktion
a_1 + a_1x_{11} + a_1x_{12} = y_1\\ a_2 + a_2x_{21} + a_2x_{22} = y_2\\ a_3 + a_3x_{31} + a_3x_{32} = y_3 \left[ \begin{array}{rrr} 1 & x_{11} & x_{12} \\ 1 & x_{21} & x_{22} \\ 1 & x_{31} & x_{32} \end{array} \right] \times \left[ \begin{array}{r} a_1\\a_2\\a_3 \end{array} \right] = \left[ \begin{array}{r} y_1\\y_2\\y_3 \end{array} \right]
Accuracy = \frac{TP + TN}{TP + FP + FN + TN}
Jetzt herunterladen