SlideShare ist ein Scribd-Unternehmen logo
1 von 40
Downloaden Sie, um offline zu lesen
機械学習の説明可能性
Women in Data Science TOKYO@IBM
2020/6/5
株式会社ブレインパッド 栗原 理央
2
はじめに
資料は後日公開予定
SNSアップOK
#WiDS2020 #WiDSTokyoIBM
• テキストのみの投稿
• スクリーンショットを含んだ投稿
slidoで感想・質問ください
(初オンライン登壇で、皆様の反応が見えないと不安です・・・)
セクション 15:35-16:15 DATA SCIENCETALK
3
Ajenda
▪ 自己紹介
▪ イントロダクション
▪ アプローチ概要
▪ アプローチ詳細
▪ まとめ
▪ 質疑応答
30分
10分
自己紹介
4
5
栗原 理央
株式会社ブレインパッド
データサイエンティスト
2016年入社
経験領域
機械学習/深層学習
• 自然言語処理
• 画像処理
• 需要予測
イントロダクション
6
7
本日お伝えしたい内容
機械学習モデルの説明性が必要な場合があること
目的に合わせて手法を選択すること
8
本日お話する/しない内容
• 機械学習そのものについて
• 説明性を与える手法の詳細
※参考になるリンクを本資料Appendixに記載
• 機械学習の説明性とは何か
• 何故必要か、具体的にどういうケースで必要か
• その手法の概要
9
機械学習の説明性が注目されている背景
機械学習は研究から社会実装のフェーズへ入っている
⇒ ブラックボックスだと業務適用しにくい
総務省がAI利活用ガイドラインを公表(10個の原則のうち下記二つ)
• 公平性の原則
• 透明性の原則
参考:https://www.soumu.go.jp/main_content/000637099.pdf
10
機械学習は研究から社会実装のフェーズへ
機械学習モデルはシステム全体の一部で、それ以外の部分が注目されている
モデルがブラックボックスだと、使いにくい・使われにくい
機械学習モデル
Aさんは癌です 医者
なんで?
わかりません
11
公平性の原則
AI利活用ガイドラインには下記のような記載がある
AIサービスプロバイダ、ビジネス利用者及びデータ提供者は、AIシステム又はAIサービスの判
断にバイアスが含まれる可能性があることに留意し、また、AIシステム又はAIサービスの判断
によって個人及び集団が不当に差別されないよう配慮する
• 学習等に用いられるデータの代表性やデータに内在する社会的なバイアス
• アルゴリズムによるバイアスへの留意
• AIシステムよりなされた判断に対する人間の判断の介在
参考:https://www.soumu.go.jp/main_content/000637099.pdf
12
例えば・・・
採用システムによる、意図しない性別バイアス
は採用しましょう。 は不採用にしましょう。
理由は?
Aさんは男性、Bさんは女性だからです。
Aさん Bさん
データセットの偏りのせいで、意図せず性別が重要な特徴量になってしまった
13
透明性の原則
AIサービスプロバイダ及びビジネス利用者は、AIシステム又はAIサービスの入出力の検証可能性及び
判断結果の説明可能性に留意する
▪ 生命、身体、財産に危害が及ぼし得る分野で利活用する場合におけるAIの入出力等のログの記録・ 保存
▪ 個人の権利・利益に重大な影響を及ぼす可能性のある分野で利活用する場合におけるAIシステム又はAI
サービスの判断結果の説明可能性の確保
▪ 行政機関が利用する際の透明性の確保
(※アルゴリズム、ソースコード、学習データの開示を想定するものではない。)
AI利活用ガイドラインには下記のような記載がある
例えば・・・
▪ 医療
▪ 自動運転
▪ 与信審査
参考:https://www.soumu.go.jp/main_content/000637099.pdf
14
なぜ説明性が必要か
サービスを提供する事業者としての説明責任
ユーザーの信頼や納得感の獲得、関係者への説得材料
モデル開発における精度改善、デバッグ
人間の知的好奇心
※ユーザー≒MLモデルの推論結果を活用する人
15
実プロジェクトにおいて説明性が必要だったケース
「機械学習モデルの根拠がないと信用してもらえない!」
「もっと精度改善したいけど、何を変更したらいいんだろう?」
「この需要の増減ってなんで?」
「ユーザー離脱を防ぐ、マーケティング施策を打ちたい!」
「どんな説明が必要か」によって手法を適切に選択
16
まとめると、
公平性:想定外のバイアスがないか?
透明性:サービスに必要十分な説明性があるか?
を考えてサービスへ適用する
アプローチ概要
17
18
アプローチ概要
ブラックボックスモデルを近似して説明性を付与する
深層学習など、より複雑なアルゴリズムの発展とともに研究が進んでいます
解釈性の高いモデルを設計する
決定木や線形モデルなど、多くの場面で使われています
19
アプローチ概要
ブラックボックスモデルを近似して説明性を付与する
深層学習など、より複雑なアルゴリズムの発展とともに研究が進んでいます
解釈性の高いモデルを設計する
決定木や線形モデルなど、多くの場面で使われています
20
「説明性が確保できている」とはどういう状態か
①特定のサンプルに対してどんな特徴量を
判断根拠としているかがわかっている
シマウマ
この画像のココを見て
シマウマと判断しました
例:画像による動物分類器
②機械学習モデル全体の推論ルールがわかっている
明日何時集合にす
る?
件名:ー
例:スパムメール分類器
スパム
おめでとうございま
す!!↓↓当選ペー
ジはこちら↓↓
https://abc.1234/
件名:【宝くじ☆当
★選☆通★知☆】
非スパム
このモデルにとって
重要な特徴量
記号の数
文字数
URLの有無
21
局所的な説明と大局的な説明
シマウマ
この画像のココを見て
シマウマと判断しました
例:画像による動物分類器
明日何時集合にす
る?
件名:ー
例:スパムメール分類器
スパム
おめでとうございま
す!!↓↓当選ペー
ジはこちら↓↓
https://abc.1234/
件名:【宝くじ☆当
★選☆通★知☆】
非スパム
このモデルにとって
重要な特徴量
記号の数
文字数
URLの有無
局所的な説明
ある入力に対して各特徴量が
どのように予測に寄与して
いるか
大局的な説明
モデル全体に対して
重要な特徴量は何か
それぞれ局所的な説明、大局的な説明と呼ばれる
22
様々な手法
それぞれの手法について、簡単にご紹介いたします
Exampleでイメージを掴んでいただければと思います
局所的な説明
• LIME
• SHAP
• Anchor
• TCAV
大局的な説明
• Born Again Trees
• Making Tree Ensembles
Interpretable
• Node Harvest
アプローチ詳細
23
24
Born Again Trees
▪ 学習で得られた(ブラックボックス)モデルを決定木で近似する手法
▪ 追加の教師データを大量に生成し、追加データを使って決定木を学習する
https://www.stat.berkeley.edu/users/breiman/BAtrees.pdf
学習済みの
(ブラックボックス)モデル
入力 出力
犬
猫
・・・
決定木を構築
ブラックボックスモデルの
出力を目的変数として
決定木を構築
25
LIME (Local Interpretable Model-agnostic Explanations)
https://www.kdd.org/kdd2016/papers/files/rfp0573-ribeiroA.pdf
特定の入力点(説明を知りたいデータ)
近似したモデルの決定境界
データ点(左図+)の近傍でランダムサンプリングを行い、
局所的な線形分類器で近似する。
その線形モデルの係数の大小を、各特徴量の重要度とする。
▪ 任意の分類器に対して、特定のデータサンプルを分類するときに有効な特徴量を出力する手法
▪ 画像データを処理する機械学習モデルの解釈性に用いられることが多いようです
26
Example 1/2:画像分類
エレキギター入力画像 アコースティックギター ラブラドール
(p=0.32) (p=0.24) (p=0.21)
ギターのネック ギターのボディ 顔
https://www.kdd.org/kdd2016/papers/files/rfp0573-ribeiroA.pdf
27
Example 2/2:ハスキーor狼分類
背景の雪を見て狼と分類している
https://www.kdd.org/kdd2016/papers/files/rfp0573-ribeiroA.pdf
28
SHAP (SHapley Additive exPlanation)
▪ 任意のブラックボックスモデルを線形モデルで近似するという方針はLIMEと同様
▪ Shapely値を利用して変数の寄与を説明する手法
▪ テーブルデータを処理する機械学習モデルの解釈性に用いられることが多いようです
https://papers.nips.cc/paper/7062-a-unified-approach-to-interpreting-model-predictions.pdf
モデルの予測値 特徴量 報酬の大きさ=寄与の大きさ
⇒ 協力ゲームにおいて、報酬を各プレイヤーに対して公平に分配するアイデア
29
Example 1/2:ボストンの住宅価格予測
https://github.com/slundberg/shap
(解釈例)
予測値を押し上げた特徴量:LSTAT(給与の低い職業に従事する人口の割合 (%)が低い)
予測値を押し下げた特徴量:RM(住居の部屋数)
予測を押し上げる特徴量は赤で表示され、予測を押し下げる特徴量は青で表示
30
Example 2/2:0~9の画像分類
0 1 2 3 4 5 6 7 8 9
入
力
画
像
https://github.com/slundberg/shap
←各クラス
0と予測する際は、真ん中の空白を重視している
4と予測する際は、上部の接続を重視している. 上部の接続がないため予測クラスは
9ではなく4になる
31
Anchors
▪ 特徴量がどの範囲にあれば(分布していれば)予測に十分かを提示する手法
▪ なくても精度が変わらない特徴量は任意の値に置き換えても構わないという考え方が根底にある
“This movie is not bad.”という文章を
ポジティブに分類するために必要な特徴量は
”not bad”
https://homes.cs.washington.edu/~marcotcr/aaai18.pdf
32
Example:画像分類
https://homes.cs.washington.edu/~marcotcr/aaai18.pdf
足がない
人間の体
水にいる
空にいる
90%以上の確率でビーグルと予測した画像元画像 ビーグルのAnchor
33
TCAV (Testing with Concept Activation Vectors)
▪ 予測クラスの概念(色、性別、人種など)の重要度を示す
▪ 各クラスに対する説明を生成するので、人間にわかりやすい説明性を持つ
https://qiita.com/_rio_/items/2c3eca260beb1a86a711
https://arxiv.org/pdf/1711.11279.pdf
34
Example:画像分類
データセットのバイアスが確認できる
https://arxiv.org/pdf/1711.11279.pdf
「シマウマ」クラスにおいて
「ストライプ」の概念が
関連
「エプロン」クラスにおいて
「女性」の概念が関連
「ラグビーボール」において
「白人」の概念が関連
まとめ
35
36
まとめ
機械学習の説明性が注目されているが、目的に合わせて手法を選択
解釈性の高いモデルを設計する/ブラックボックスモデルを近似す
るアプローチがある
後者は、局所的/大局的説明にわけられる
まだ研究段階のため、MLモデルの公平性・説明性を担保するのは容
易ではない
質疑応答
37
38
コメント&アンケートはこちら
slido.com
#wids0605
セクション
15:35-16:15 DATA SCIENCETALK
Appendix
39
40
参考リンク集
▪ https://www.slideshare.net/SatoshiHara3/ss-126157179
▪ https://www.slideshare.net/SatoshiHara3/ver2-225753735
▪ https://tjo.hatenablog.com/entry/2019/12/19/190000
▪ https://www.ai-gakkai.or.jp/my-bookmark_vol33-no3/

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (16)

機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み
 
Business utilization of real estate image classification system using deep le...
Business utilization of real estate image classification system using deep le...Business utilization of real estate image classification system using deep le...
Business utilization of real estate image classification system using deep le...
 
エンジニア勉強会資料_⑤広告プロダクトとプラットフォームの開発
エンジニア勉強会資料_⑤広告プロダクトとプラットフォームの開発エンジニア勉強会資料_⑤広告プロダクトとプラットフォームの開発
エンジニア勉強会資料_⑤広告プロダクトとプラットフォームの開発
 
あなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイントあなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイント
 
2018.08.21-機械学習工学研究会 現場を交えた勉強会発表資料
2018.08.21-機械学習工学研究会 現場を交えた勉強会発表資料2018.08.21-機械学習工学研究会 現場を交えた勉強会発表資料
2018.08.21-機械学習工学研究会 現場を交えた勉強会発表資料
 
金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?
 
機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムを受託開発 する時に気をつけておきたい事機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムを受託開発 する時に気をつけておきたい事
 
DMPの分析機能を実現する技術
DMPの分析機能を実現する技術DMPの分析機能を実現する技術
DMPの分析機能を実現する技術
 
Smart SE: コロナ時代のAI・IoTの社会人オン・オフライン教育
Smart SE: コロナ時代のAI・IoTの社会人オン・オフライン教育Smart SE: コロナ時代のAI・IoTの社会人オン・オフライン教育
Smart SE: コロナ時代のAI・IoTの社会人オン・オフライン教育
 
機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns
 
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
 
機械学習システムの33のアーキテクチャパターンおよびデザインパターン
機械学習システムの33のアーキテクチャパターンおよびデザインパターン機械学習システムの33のアーキテクチャパターンおよびデザインパターン
機械学習システムの33のアーキテクチャパターンおよびデザインパターン
 
新卒2ヶ月でAIを社会実装させた3つのデザイン
新卒2ヶ月でAIを社会実装させた3つのデザイン新卒2ヶ月でAIを社会実装させた3つのデザイン
新卒2ヶ月でAIを社会実装させた3つのデザイン
 
NLPソリューション開発の最前線
NLPソリューション開発の最前線NLPソリューション開発の最前線
NLPソリューション開発の最前線
 
社会やビジネスに新たな価値を生み出すソフトウェア工学 SE4BS(Software Engineering for Business and Society)
社会やビジネスに新たな価値を生み出すソフトウェア工学 SE4BS(Software Engineering for Business and Society)社会やビジネスに新たな価値を生み出すソフトウェア工学 SE4BS(Software Engineering for Business and Society)
社会やビジネスに新たな価値を生み出すソフトウェア工学 SE4BS(Software Engineering for Business and Society)
 
データサイエンティストのつくり方
データサイエンティストのつくり方データサイエンティストのつくり方
データサイエンティストのつくり方
 

Ähnlich wie 20200605_wids_explainableAI

デジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネスデジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネス
Osaka University
 
20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」
20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」
20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」
Takashi Uemura
 

Ähnlich wie 20200605_wids_explainableAI (20)

Teams + Power Platform でチームメンバーの状況報告を圧倒的効率化!
Teams + Power Platform でチームメンバーの状況報告を圧倒的効率化!Teams + Power Platform でチームメンバーの状況報告を圧倒的効率化!
Teams + Power Platform でチームメンバーの状況報告を圧倒的効率化!
 
個人的情報発信ノスゝメ~準備編~
個人的情報発信ノスゝメ~準備編~個人的情報発信ノスゝメ~準備編~
個人的情報発信ノスゝメ~準備編~
 
ロボコンの為のFusion360講座 vol1.モデリング編
ロボコンの為のFusion360講座 vol1.モデリング編ロボコンの為のFusion360講座 vol1.モデリング編
ロボコンの為のFusion360講座 vol1.モデリング編
 
キャリアコンサルタント向け「企業で求められるITスキルの実態」と実践スキル向上研修
キャリアコンサルタント向け「企業で求められるITスキルの実態」と実践スキル向上研修キャリアコンサルタント向け「企業で求められるITスキルの実態」と実践スキル向上研修
キャリアコンサルタント向け「企業で求められるITスキルの実態」と実践スキル向上研修
 
ロボコンの為のFusion360講座 #CAD編
ロボコンの為のFusion360講座 #CAD編ロボコンの為のFusion360講座 #CAD編
ロボコンの為のFusion360講座 #CAD編
 
Jaws ug yokoyama-16
Jaws ug yokoyama-16Jaws ug yokoyama-16
Jaws ug yokoyama-16
 
20201107 四国クラウドお遍路 2020 LT
20201107 四国クラウドお遍路 2020 LT20201107 四国クラウドお遍路 2020 LT
20201107 四国クラウドお遍路 2020 LT
 
デジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネスデジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネス
 
第79回 Machine Learning 15minutes ! 生成AIをエンタープライズで活用するWatsonx.aiの紹介
第79回 Machine Learning 15minutes ! 生成AIをエンタープライズで活用するWatsonx.aiの紹介第79回 Machine Learning 15minutes ! 生成AIをエンタープライズで活用するWatsonx.aiの紹介
第79回 Machine Learning 15minutes ! 生成AIをエンタープライズで活用するWatsonx.aiの紹介
 
Rapid PrototypingからRapid Manufacturingへ
Rapid PrototypingからRapid ManufacturingへRapid PrototypingからRapid Manufacturingへ
Rapid PrototypingからRapid Manufacturingへ
 
Yahoo!の急上昇ワード1位になった話
Yahoo!の急上昇ワード1位になった話Yahoo!の急上昇ワード1位になった話
Yahoo!の急上昇ワード1位になった話
 
予約したくても遅すぎるホテルのWebサイト ~ ホテルの命運を左右するDX時代のデジタルホスピタリティ
予約したくても遅すぎるホテルのWebサイト ~ ホテルの命運を左右するDX時代のデジタルホスピタリティ予約したくても遅すぎるホテルのWebサイト ~ ホテルの命運を左右するDX時代のデジタルホスピタリティ
予約したくても遅すぎるホテルのWebサイト ~ ホテルの命運を左右するDX時代のデジタルホスピタリティ
 
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
 
Custom Visionで仏像を画像分類
Custom Visionで仏像を画像分類Custom Visionで仏像を画像分類
Custom Visionで仏像を画像分類
 
構造化データをツールで簡単に分析
構造化データをツールで簡単に分析構造化データをツールで簡単に分析
構造化データをツールで簡単に分析
 
第1回八子クラウドナイト事前配布・趣旨説明資料です。 20170714
第1回八子クラウドナイト事前配布・趣旨説明資料です。 20170714第1回八子クラウドナイト事前配布・趣旨説明資料です。 20170714
第1回八子クラウドナイト事前配布・趣旨説明資料です。 20170714
 
WebDB Forum 2013
WebDB Forum 2013 WebDB Forum 2013
WebDB Forum 2013
 
20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」
20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」
20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」
 
Wiz国際情報工科自動車大学校_特別講演_ITの織り成す未来
Wiz国際情報工科自動車大学校_特別講演_ITの織り成す未来Wiz国際情報工科自動車大学校_特別講演_ITの織り成す未来
Wiz国際情報工科自動車大学校_特別講演_ITの織り成す未来
 
より良い登壇を目指して今すぐできること 〜楽しい? 面白い? 伝わる?〜
より良い登壇を目指して今すぐできること 〜楽しい? 面白い? 伝わる?〜より良い登壇を目指して今すぐできること 〜楽しい? 面白い? 伝わる?〜
より良い登壇を目指して今すぐできること 〜楽しい? 面白い? 伝わる?〜
 

20200605_wids_explainableAI