SlideShare ist ein Scribd-Unternehmen logo
1 von 15
Downloaden Sie, um offline zu lesen
本(提案)書に含まれる情報は、貴社内部のご検討、評価の目的のために提供されるものです。貴社内でのご使用、複製、開示はこの目的のために必要な範囲でのみお願いいたします。 貴社との間で正式な契約が成立した場合には、
それに従ってこれをお取り扱い願います。なお、貴社にて既に取得されている情報については、これらの制限は及びません。
Copyright © 2018 ITOCHU Techno-Solutions Corporation
2018年11月14日
TDAを使ったタイタニック生存者予測
Page 0
Copyright © 2018 ITOCHU Techno-Solutions Corporation
タイタニックについて
Page 1
タイタニックについて
 映画にもなっている、有名な『タイタニック』です。
 1912年の航海中、氷山に接触し沈没しました。
 約2500人の乗客の中で、犠牲者数は約1500人。
Copyright © 2018 ITOCHU Techno-Solutions Corporation
 図形や空間の本質(普遍性)をとらえる
何をもって同相とみなすか。。
合同 ⇒大きさ/長さ/角度
相似 ⇒長さの比/角度
TDAについて
Page 2
 位相的幾何学を使った分析手法
TDA(Topological Data Analysis)とは
 図形や空間の性質を考えること
タイタニック
タイタニック
一緒
一緒
一緒
トポロジーで考えると。。
位相 ⇒可逆性(有限性/連続性/穴の数)
Copyright © 2018 ITOCHU Techno-Solutions Corporation
今回のテーマ
 タイタニック号の乗客データをTDAで分析しました。
Page 3
TDAタイタニック
Copyright © 2018 ITOCHU Techno-Solutions Corporation
1. データを作ります
Page 4
Copyright © 2018 ITOCHU Techno-Solutions Corporation
データプリパレーション
Kaggleの「タイタニック生存者予
測」のデータセットを使います。
Page 5
変数 意味 型 内訳
PassengerId ID int64 1~891
1 Pclass 客室グレード int64 1~3
Name 名前 object
2 Sex 性別 object male:男, female:女
3 Age 年齢 float64 0.42~80
4 SibSp 乗船していた兄弟・配偶者の数 int64 0~8
5 Parch 乗船していた親・子供の数 int64 0~6
Ticket チケット番号 object
6 Fare 運賃 float64 0~512.3292
Cabin 客室番号 object
7 Embarked 乗船した港 object C:Cherbourg(フランス)
Q:Queenstown(アイルランド)
S:Southampton(アメリカ)
8 Survived 生死 int64 0:No, 1:Yes
目
説
 データ件数:712
 説明変数項目:7
 目的変数:1
目的変数と関係
ない変数は除外
欠損値を含
む行は削除
Copyright © 2018 ITOCHU Techno-Solutions Corporation
データ
ヒストグラムの確認
Page 6
Copyright © 2018 ITOCHU Techno-Solutions Corporation
2. TDAで可視化します
Page 7
2. 分析
Copyright © 2018 ITOCHU Techno-Solutions Corporation
TDAを使った可視化
Page 8
TDAをどう使うか
55
60
65
70
75
80
85
90
140 160 180 200
身長
体重
単純なデータは
可視化できる
項目が多い複雑
なデータは?
TDAで可視化
Copyright © 2018 ITOCHU Techno-Solutions Corporation
TDAを使った可視化
Page 9
Survived
タイタニックの
データ
TDAで可視化
複雑なデータを位相空間で可視化する
⇒データの持つ特徴の距離が近いものを集合として可視化
TDAの使い方
変数 意味 型 内訳
PassengerId ID int64 1~891
1 Pclass 客室グレード int64 1~3
Name 名前 object
2 Sex 性別 object male:男, female:女
3 Age 年齢 float64 0.42~80
4 SibSp 乗船していた兄弟・配偶者の数 int64 0~8
5 Parch 乗船していた親・子供の数 int64 0~6
Ticket チケット番号 object
6 Fare 運賃 float64 0~512.3292
Cabin 客室番号 object
7 Embarked 乗船した港 object C:Cherbourg(フランス)
Q:Queenstown(アイルランド)
S:Southampton(アメリカ)
Survived 生死 int64 0:No, 1:Yes
データの形と
色の付き方で
見る
Copyright © 2018 ITOCHU Techno-Solutions Corporation Page 10
Female
Survived
Fare
TDA(PCA ⇒TDA )
男/女で
色付け
運賃で
色付け
生/死で
色付け
色の付き方が似ている
⇒「性別」と「運賃」に相関がありそう
Copyright © 2018 ITOCHU Techno-Solutions Corporation
3. Deep Learningによる分析
Page 11
Copyright © 2018 ITOCHU Techno-Solutions Corporation
confusion_matrix:
[[ 39 4 ]
[ 11 18 ]]
classification_report:
Precision recall f1-score support
0 0.78 0.91 0.84 43
1 0.82 0.62 0.71 29
avg / total 0.80 0.79 0.79 72
生/死予測
Page 12
# model
sequential = rm.Sequential([
rm.Dense(30),
rm.BatchNormalize(),
rm.Dropout(dropout_ratio=0.5),
rm.Relu(),
rm.Dense(5),
rm.BatchNormalize(),
rm.Relu(),
rm.Dense(2),
])
DeepLearningで分類
Pclass Age SibSp Parch Fare female male C Q S
1 58 0 1 153.4625 1 0 0 0 1
1 23 0 1 63.3583 0 1 1 0 0
1 36 0 0 135.6333 1 0 1 0 0
1 23 3 2 263 1 0 0 0 1
2 4 1 1 23 1 0 0 0 1
1 38 1 0 71.2833 1 0 1 0 0
3 29 0 2 15.2458 1 0 1 0 0
1 16 0 1 39.4 1 0 0 0 1
3 0.75 2 1 19.2583 1 0 1 0 0
1 18 1 0 227.525 1 0 1 0 0
1 21 2 2 262.375 1 0 1 0 0
1 22 0 0 151.55 1 0 0 0 1
1 18 0 2 79.65 1 0 0 0 1
3 31 0 0 8.6833 1 0 0 0 1
2 0.67 1 1 14.5 0 1 0 0 1
1 36 0 1 512.3292 0 1 1 0 0
1 36 1 2 120 1 0 0 0 1
1 52 1 0 78.2667 1 0 1 0 0
性別と運賃の影
響をある程度学
習できている
予測:arrive
実際:arrive
Copyright © 2018 ITOCHU Techno-Solutions Corporation
まとめ
Page 13
データ加工
TDAによる可視化
分類/予測
データ加工
分類/予測
TDAとは
TDAの意味/メリット
 データ分析の計画ができる(仮説ができる)
 高次元的にデータの特徴/関連性が可視化できる
仮説、分析方針
PCA TDA
Copyright © 2018 ITOCHU Techno-Solutions Corporation
ありがとうございました
Page 14

Weitere ähnliche Inhalte

Mehr von Yutaka Terasawa

Mehr von Yutaka Terasawa (6)

20180717 unsupervised learning
20180717 unsupervised learning20180717 unsupervised learning
20180717 unsupervised learning
 
20180717 zeal
20180717 zeal20180717 zeal
20180717 zeal
 
20180717 the average
20180717 the average20180717 the average
20180717 the average
 
20180717 opening
20180717 opening20180717 opening
20180717 opening
 
Wg for ai_dev_ops_20180713
Wg for ai_dev_ops_20180713Wg for ai_dev_ops_20180713
Wg for ai_dev_ops_20180713
 
Wg for edu_20180713
Wg for edu_20180713Wg for edu_20180713
Wg for edu_20180713
 

20181114 TDAを使ったタイタニック生存者分析

  • 2. Copyright © 2018 ITOCHU Techno-Solutions Corporation タイタニックについて Page 1 タイタニックについて  映画にもなっている、有名な『タイタニック』です。  1912年の航海中、氷山に接触し沈没しました。  約2500人の乗客の中で、犠牲者数は約1500人。
  • 3. Copyright © 2018 ITOCHU Techno-Solutions Corporation  図形や空間の本質(普遍性)をとらえる 何をもって同相とみなすか。。 合同 ⇒大きさ/長さ/角度 相似 ⇒長さの比/角度 TDAについて Page 2  位相的幾何学を使った分析手法 TDA(Topological Data Analysis)とは  図形や空間の性質を考えること タイタニック タイタニック 一緒 一緒 一緒 トポロジーで考えると。。 位相 ⇒可逆性(有限性/連続性/穴の数)
  • 4. Copyright © 2018 ITOCHU Techno-Solutions Corporation 今回のテーマ  タイタニック号の乗客データをTDAで分析しました。 Page 3 TDAタイタニック
  • 5. Copyright © 2018 ITOCHU Techno-Solutions Corporation 1. データを作ります Page 4
  • 6. Copyright © 2018 ITOCHU Techno-Solutions Corporation データプリパレーション Kaggleの「タイタニック生存者予 測」のデータセットを使います。 Page 5 変数 意味 型 内訳 PassengerId ID int64 1~891 1 Pclass 客室グレード int64 1~3 Name 名前 object 2 Sex 性別 object male:男, female:女 3 Age 年齢 float64 0.42~80 4 SibSp 乗船していた兄弟・配偶者の数 int64 0~8 5 Parch 乗船していた親・子供の数 int64 0~6 Ticket チケット番号 object 6 Fare 運賃 float64 0~512.3292 Cabin 客室番号 object 7 Embarked 乗船した港 object C:Cherbourg(フランス) Q:Queenstown(アイルランド) S:Southampton(アメリカ) 8 Survived 生死 int64 0:No, 1:Yes 目 説  データ件数:712  説明変数項目:7  目的変数:1 目的変数と関係 ない変数は除外 欠損値を含 む行は削除
  • 7. Copyright © 2018 ITOCHU Techno-Solutions Corporation データ ヒストグラムの確認 Page 6
  • 8. Copyright © 2018 ITOCHU Techno-Solutions Corporation 2. TDAで可視化します Page 7 2. 分析
  • 9. Copyright © 2018 ITOCHU Techno-Solutions Corporation TDAを使った可視化 Page 8 TDAをどう使うか 55 60 65 70 75 80 85 90 140 160 180 200 身長 体重 単純なデータは 可視化できる 項目が多い複雑 なデータは? TDAで可視化
  • 10. Copyright © 2018 ITOCHU Techno-Solutions Corporation TDAを使った可視化 Page 9 Survived タイタニックの データ TDAで可視化 複雑なデータを位相空間で可視化する ⇒データの持つ特徴の距離が近いものを集合として可視化 TDAの使い方 変数 意味 型 内訳 PassengerId ID int64 1~891 1 Pclass 客室グレード int64 1~3 Name 名前 object 2 Sex 性別 object male:男, female:女 3 Age 年齢 float64 0.42~80 4 SibSp 乗船していた兄弟・配偶者の数 int64 0~8 5 Parch 乗船していた親・子供の数 int64 0~6 Ticket チケット番号 object 6 Fare 運賃 float64 0~512.3292 Cabin 客室番号 object 7 Embarked 乗船した港 object C:Cherbourg(フランス) Q:Queenstown(アイルランド) S:Southampton(アメリカ) Survived 生死 int64 0:No, 1:Yes データの形と 色の付き方で 見る
  • 11. Copyright © 2018 ITOCHU Techno-Solutions Corporation Page 10 Female Survived Fare TDA(PCA ⇒TDA ) 男/女で 色付け 運賃で 色付け 生/死で 色付け 色の付き方が似ている ⇒「性別」と「運賃」に相関がありそう
  • 12. Copyright © 2018 ITOCHU Techno-Solutions Corporation 3. Deep Learningによる分析 Page 11
  • 13. Copyright © 2018 ITOCHU Techno-Solutions Corporation confusion_matrix: [[ 39 4 ] [ 11 18 ]] classification_report: Precision recall f1-score support 0 0.78 0.91 0.84 43 1 0.82 0.62 0.71 29 avg / total 0.80 0.79 0.79 72 生/死予測 Page 12 # model sequential = rm.Sequential([ rm.Dense(30), rm.BatchNormalize(), rm.Dropout(dropout_ratio=0.5), rm.Relu(), rm.Dense(5), rm.BatchNormalize(), rm.Relu(), rm.Dense(2), ]) DeepLearningで分類 Pclass Age SibSp Parch Fare female male C Q S 1 58 0 1 153.4625 1 0 0 0 1 1 23 0 1 63.3583 0 1 1 0 0 1 36 0 0 135.6333 1 0 1 0 0 1 23 3 2 263 1 0 0 0 1 2 4 1 1 23 1 0 0 0 1 1 38 1 0 71.2833 1 0 1 0 0 3 29 0 2 15.2458 1 0 1 0 0 1 16 0 1 39.4 1 0 0 0 1 3 0.75 2 1 19.2583 1 0 1 0 0 1 18 1 0 227.525 1 0 1 0 0 1 21 2 2 262.375 1 0 1 0 0 1 22 0 0 151.55 1 0 0 0 1 1 18 0 2 79.65 1 0 0 0 1 3 31 0 0 8.6833 1 0 0 0 1 2 0.67 1 1 14.5 0 1 0 0 1 1 36 0 1 512.3292 0 1 1 0 0 1 36 1 2 120 1 0 0 0 1 1 52 1 0 78.2667 1 0 1 0 0 性別と運賃の影 響をある程度学 習できている 予測:arrive 実際:arrive
  • 14. Copyright © 2018 ITOCHU Techno-Solutions Corporation まとめ Page 13 データ加工 TDAによる可視化 分類/予測 データ加工 分類/予測 TDAとは TDAの意味/メリット  データ分析の計画ができる(仮説ができる)  高次元的にデータの特徴/関連性が可視化できる 仮説、分析方針 PCA TDA
  • 15. Copyright © 2018 ITOCHU Techno-Solutions Corporation ありがとうございました Page 14