SlideShare ist ein Scribd-Unternehmen logo
1 von 23
AIを取り巻く基準について
人工知能の開発・運用を行う際に参考となる基準、特に機械学習品
質マネジメントガイドライン、QA4AIについて取りまとめています。
東野 憲康 (株式会社ムーンライトシステム)
2020/9/30
自己紹介
CDLE LT2 @NHigashino
2
監査対象を選定することで、監査(コンサルティング、助言型監査)は可能と考える
方針・指針を基準とすることで「ITガバナンスの実現に貢献」は可能と考える
今後の課題
• 社会的要求が高い「自動運転」、「ロボティクス」分野の監査について知見・基準の収集・検討
• 「高度な専門性を持った監査」について、尺度設定
• システム管理基準への適用について検討(プログラム中心 ⇔ データ中心)
• 特に方針・指針に近い基準の継続的なキャッチアップ
2020/9/30
機械学習品質マネジメントガイドライン
CDLE LT2 @NHigashino
32020/9/30
機械学習品質マネジメントガイドライン
AIQM
AIプロダクト品質保証ガイドライン
QA4AI
発行
国立研究開発法人
産業技術総合研究所
AI プロダクト品質保証コンソーシアム
クリエイティブ・コモンズ (表示 – 継承 4.0 国際)
初版 2020 年 6 月 30 日 2019 年 5 月 17 日
改定 2020 年 8 月 1 日
URL
https://www.aist.go.jp/aist_j/press_release/pr
2020/pr20200630_2/pr20200630_2.html
http://www.qa4ai.jp/
132ページ 267ページ
想定利用 サービス提供者とシステム開発者 自ドメインや自社、自組織
対象 主に「教師あり学習」 機械学習(帰納的開発)
機械学習品質マネジメントガイドライン
CDLE LT2 @NHigashino
42020/9/30
機械学習品質マネジメントガイドライン
AIQM
AIプロダクト品質保証ガイドライン
QA4AI
特徴
システム全体で最終的な利用者に提供す
べき品質として 「利用時品質」を捉える
システムの構成要素を階層的に整理し、
その構成要素毎 に「外部品質」「内部品
質」を考える
品質保証の枠組みをの 4 つのドメイン適
用する際のガイドラインを例示
コンテンツ生成系システム、スマートス
ピーカー、産業用プロセス、自動運転、AI-
OCR
品質特性
1 要求分析の十分性
2 データ設計の十分性
3 データセットの被覆性
4 データセットの均一性
5 機械学習モデルの正確性
6 機械学習モデルの安定性
7 プログラムの健全性
8 運用時品質の維持性
1 Data Integrity
2 Model Robustness
3 System Quality
4 Process Agility
5 Customer Expectation
機械学習品質マネジメントガイドライン 全体像
CDLE LT2 @NHigashino
52020/9/30
機械学習品質マネジメントガイドライン 第 1 版 9ページより
※別途検討・適用が必要
セキュリティ・プライバシー
耐攻撃性
倫理性
外部環境の複雑性への対応限界
機械学習品質マネジメントガイドライン 機械学習要素の内部品質 データ
CDLE LT2 @NHigashino
62020/9/30
機械学習品質マネジメントガイドライン 第 1 版 17ページより
CDLE LT2 @NHigashino
72020/9/30
機械学習品質マネジメントガイドライン 第 1 版 17ページより
機械学習品質マネジメントガイドライン 機械学習要素の内部品質 モデル
機械学習品質マネジメントガイドライン
CDLE LT2 @NHigashino
82020/9/30
機械学習品質マネジメントガイドライン 第 1 版 46ページより
「リスク回避性レベルについて」
AISL 0.1 → Lv 1 以上
AISL 0.2 → Lv 2 以上
AISL 1 → Lv 3
Lv2
 システムの利用状況が許す範囲において、システムの品質について、動作結果との
対照などから品質劣化・誤判断のモニタリングを行うこと。モニタリングにおいては、プ
ライバシーなど製品品質以外の要因を十分に検討すること。
 オンライン学習を行う場合には、追加学習結果を何らかの方法で定常的にモニタリ
ングすること。モニタリングの結果で性能要求からの逸脱が判明した場合には、直ち
に対処を行うことができること。
 オフラインでの追加学習を行う場合には、システム開発段階で用いたテスト用データ
セットでの「性能劣化の回帰テスト」を行い、更新前に品質が失われていないことを
確認すること。必要な場合には、システム開発段階と同等の手法でテスト用データ
セットの更新を行うこと。
TP FN
FP TN
正答率
適合率
再現率
F値
ここに私たちの知見が必要
?
AIプロダクト品質保証ガイドライン 分類軸
CDLE LT2 @NHigashino
92020/9/30
AI プロダクト品質保証ガイドライン 2020.08版 2-1より
1 Data Integrity 質においても量においても適切かつ充分なデータの確保が重要で
あり、学習用データと 検証用データが独立しているか
2 Model Robustness 精度が高く頑健性が確保されたモデルが重要となる。また学習など
においてデグレード に適切に対処できているか
3 System Quality システム全体として価値が高く、何かが起 きても何とかならないとい
けない。すなわち、AI プロダクト全体の品質が確保できているか
4 Process Agility 納得感を共感した開発者や開発チームが自動化された開発環境
を駆使して臨機応変に探索的開発を進めていく必要がある。すな
わち、プロセスが機動的であるか
5 Customer Expectation 良くも悪くも顧客の期待が高いかどうか
AIプロダクト品質保証ガイドライン 分類軸例 Model Robustness
CDLE LT2 @NHigashino
2020/9/30
AI プロダクト品質保証ガイドライン 2020.08版 2-13より
(a.i) 正答率、適合率、再現率、F 値といった推論性能に関する評価指標の値は,要求に対して十分か.
(b.i) 汎化性能は確保されているか.
(c.i)(AUROC といった)精度以外のモデルのよさを表す指標についても適切な指標を 選定し充分に評価したか.
(d.i) 学習は適切に進行したか.
(d.ii) 学習結果が局所最適に陥っていないか.
(e.i) 適切なアルゴリズムやハイパーパラメータかどうかの検討は行ったか.
(f.i) 十分に交差検証などを行ったか.
(g.i) ノイズに対して頑健か.
(h.i) 数理的多様性,意味的多様性,社会的文化的多様性などを考慮し,十分に多様なデータで検証を行ったか.
(i.i) モデルを更新する場合,以前の振る舞いとの変化について把握しているか,それ が許容可能であることを確認して
いるか.
(i.ii) 特に自動でのモデル更新・配備を行う場合,自動化された検査内容は十分であ るか.
(j.i) 運用時における傾向の変化により,モデルの性能,妥当性,有用性が低下する可能性を検討し,それに対するモ
デルの頑健性確保,運用における監視などの対策をとっているか.
(k.i) 学習アルゴリズムの特性や,そのライブラリやそれを呼び出すプログラムの不具 合や誤った利用により,不適切なモデ
ルとなっていないか.
10
ある学習を行う前には正しく判別できていたデータが学習後に誤判別を起こすといった現象を指す。デグレードが許容可能な範囲なのか、デ
グレードの影響範囲をきちんと把握できているか、などを考慮する必要がある。
AIプロダクト品質保証ガイドライン 分類軸例 Customer Expectation
CDLE LT2 @NHigashino
2020/9/30
AI プロダクト品質保証ガイドライン 2020.08版 2-13より
(a) ステークホルダーの期待度
(a.i) 顧客の期待は高いか.
(a.ii) 狙っているのが「人間並み」か.
(b) ステークホルダーの技術理解度
(b.i) 顧客は確率的動作という考え方を受容していないか.
(b.ii) リスク・副作用を理解していないか,もしくは安易に受容して必要な対策を怠っていないか.
(b.iii) データの量や質に対する認識は甘いか.
(b.iv)“合理的”説明を求める傾向や、“外挿”や“予測”をしたがる傾向、
“原因”や“責 任(者)”を求めたがる傾向はあるか.
(c) 運用に対する期待度
(c.i) 継続的実運用にどのくらい近いか.
(d) 標準適合性の必要度
(d.i) AI プロダクトの利用に法令上、倫理上の問題はないか、第三者のプライバシー等 への
配慮が必要ないか、AI プロダクトの利用が社会的に受容されているか.
(e) ステークホルダーとの関係性
(e.i) 納得感を共感する風土や雰囲気、仕事の進め方は少ないか.
(e.ii) 顧客担当者・チームで意思決定できる権限や範囲は少ない・狭いか.
11
AIプロダクト品質保証ガイドライン バランスに着目した構築‧評価
CDLE LT2 @NHigashino
2020/9/30
AI プロダクト品質保証ガイドライン 2020.08版 2-13より
12
AI プロダクト品質保証ガイドライン 2020.08版 2-16より
顧客の期待に対して他の分類軸に過不足がないか確認
開発が進むに伴い、品質も向上しているか確認
CDLE LT2 @NHigashino
132020/9/30
まとめ
• 両ガイドラインともに非常に有用な知見が含まれている。ただし、
知見を広めていくために識者の活動が必要
• Discord+MiroでOSTやっても面白いかも
• 品質の枠にとらわれず、これをもとに「AI開発規約」として社内
規約を作成することも有効と考えられる
• cf. クラウドの利用促進に際しセキュリティ基準が果たした役割
CDLE LT2 @NHigashino
142020/9/30
補足:データ量についての指標(QA4AI)
Data Integrity
(a) 学習データの量の十分性
(a.i) 想定する学習手法の適用前提や統計的観点から十分な量の
データがあるか.
(a.ii) 想定する要求・適用環境において,希少な状況や分類クラス
の偏りがある場合で あっても,それらに対して十分な量のデータがある
か.
(a.iii) データ量が少ない場合,「かさ増し」(人工的なデータ生成な
ど)で補完が可能か.
(b) 学習データの妥当性
(b.i) 想定する要求・適用環境に意味の観点から対応した適切なデータ
となっているか.
(b.ii) 要求・適用環境の想定にそぐわないデータが入っていないか.
(b.iii) 人工的に作成・加工したデータについても,要求・適用環境を適
切に表現している といえるか.
(b.iv) データの収集等の費用対効果の観点からも適切であるか.
(c) 学習データの要件適合性
(c.i) データに関するステークホルダーの要求事項を満たしているか.
(c.ii) データが満たすべき不変条件や整合性条件,学習対象となる判
断の公平性,個人 情報の有無など,データに対する制約を満たしてい
るか.
(d) 学習データの適正性
(d.i) 潜在的なバイアスや汚染の可能性について,多様なステークホル
ダーや社会への 影響の観点から検討し,データが適切であることを確認
したか.
(e) 学習データの複雑性
(e.i) 学習させたい推論機能に対して,必要以上の情報量や傾向を含
む複雑なデータと なっていないか.
(e.ii) データを単純化しすぎて,必要な情報が入っていないことはないか.
(f) 学習データの性質の考慮
(f.i) 想定する学習手法の適用前提となるようなデータの性質(多重共
線性など)は適 切に考慮されているか.
(g) 学習データの値域の妥当性
(g.i) データに含まれている値は,対象ドメインの知識などと照らし合わ
せて現実的に 発生する妥当な値となっているか.
(g.ii) 外れ値と欠損値と判断した値は,真に現実的な値ではなく取り
除くべきであるこ とを確認したか.データを取り除くための前処理は適切で
あったか.
(h) 学習データの法的適合性
(h.i) データの利用が契約や第三者の知的財産権により制限されないか、
データの利用 に法令上、倫理上の問題はないか、プライバシー等への配
慮が必要ないか.
(i) 検証用データの妥当性
(i.i) 学習用データと検証用データは独立しているか.
(j) オンライン学習の影響の考慮
(j.i) インクリメンタルに追加や置き換え,削除されるデータについて,適
切な運用機 構・体制を設け,監視,制御や制限 ,検証を適切に
行っているか.
(k) データ処理プログラムの妥当性
(k.i) データに対する前処理,作成・加工などの処理を行うアルゴリズム
の特性や,その ライブラリやそれを呼び出すプログラムの不具合,誤った
利用により,データの 適切さが失われていないか.
データ量が十分かをプロセスが機能しているかによって判断
→識者による知見が必要
CDLE LT2 @NHigashino
152020/9/30
補足:データ量についての指標(AIQM)
1 要求分析の十分性
2 データ設計の十分性
3 データセットの被覆性
4 データセットの均一性
5 機械学習モデルの正確性
6 機械学習モデルの安定性
7 プログラムの健全性
8 運用時品質の維持性
『属性の組み合わせに対して、全て の属性値の組み合わせ(属
性の直積)に対応する十分なデータ』があるか
誤動作・ 誤判定などを引き起こす可能性のある属性の組み合わせ
実装する機械学習利用システムが運用時に遭遇しうる全状況
信号の色を判定するための属性例:ここでは3つの属性例
信号機の色(青・黄・赤)
時刻(朝焼け・昼・夕方・夜間)
天候(晴れ・曇り・雨・雪)
→属性値の組み合わせ(属性の直積)は
3×4×4=48
『前項で基準を定めて網羅したそれぞれのケースに対して、それぞ
れのケースに対応する 入力の可能性に対して抜け漏れなく、十
分な量のデータが与えられていること』
テスト用データセットの取得源や方法を検討し、応用の状況に対して偏りがな
いことを期待できるようにすること。
各ケース毎に、元データから偏りのないサンプル抽出などを行い、偏りがないこ
とを期待できるようにすること。
分析した各ケースについて訓練用データおよびテスト用データが十分に存在す
ることを、訓練フェーズやバリデーションフェーズなどで確認すること。
等
『リスク事象毎・ケース毎の出現確率の想定に基づき、各ケースの
データ量を事前に見積もり設計すること。』
リスク回避性が強く求められる
⇒回避すべきリスクに十分な訓練用データ
全体的な性能が求められる
⇒詳細なケースのデータを省略
目的とするシステム・機能を分析したうえで、データ属性・網羅性・ケース毎のデータ量を決定
CDLE LT2 @NHigashino
162020/9/30
補足:倫理について(QA4AI)
参考例:EU 倫理ガイドライン
• 人間による営みと監視
• 技術的な堅牢性と安全性 AI
• プライバシーとデータガバナンス
• 透明性
• 多様性、無差別、公平性
• 社会と環境の福利
• 説明責任
https://ec.europa.eu/digital-single-
market/en/news/ethics-guidelines-trustworthy-ai
AIQM
『機械学習利用システムに要求される社会的要求として、「FAST(fairness,
accountability, sustainability, transparency)」の 4要素が指摘されることがあ
るが、本ガイ ドラインではそのうちでも特に統計的な性質として直接的に分析可能な公
平性にまず着目』
『機械学習要素が「どのような判断を行えば」社会的正当性を持つかについては、システ
ムの開発の最初に要求定義の一部として事前に人間 によって整理されるべきものとして、
その直接の検討の対象としない』
IEEE P7000 シリーズにてプライバシーや Nudge (行動の誘導) 他の検討が、また
ISO/IEC JTC1/SC42 ではガバナンス他の検討
QA4AI
『対象アプリケーションによっては、判断の公平性 (fairness) など、文化的・社会的な要
求の反映という観点からの品質を考慮する必要がある』
公平性
『該当システムにおいて重要となる公平性について定義し、評価を行う必要がある。』
説明可能性
『人間が出力を参考にして意思決定を行う場合など、 アプリケーションによっては説明可
能性・解釈性が必要』
組織の倫理規定をあらかじめ規定
参考例:EU、DoD、総務省、
ユネスコ(2021年策定予定)
ガイドラインを参考にシステムの
倫理要件を定義・検証
※システムによって必要とされる倫理感は様々であり、
個別に定義・検証するより組織として統一見解を
持つほうが品質が安定すると思われる
機械学習品質マネジメントガイドライン
CDLE LT2 @NHigashino
17
1 ガイドライン全体概要
1.1 目的と背景
1.2 本ガイドラインの使われ方
1.3 機械学習の品質管理に関する課題
1.4 品質管理の基本的な考え方
1.5 実現目標とする外部品質特性
1.6 その他の「AI品質」の観点についての取扱い
1.7 品質管理の対象とする内部品質特性
1.8 開発プロセスについての考え方
1.9 他の文書・規範類との関係について
1.10 本ガイドラインの構成
2 基本的事項
2.1 ガイドラインのスコープ
2.2 システムの品質に関する他の規格等との関係
2.3 用語の定義
3 機械学習利用システムの外部品質特性レベルの設定
3.1 リスク回避性
3.2 AI パフォーマンス
3.3 公平性
4 機械学習利用システムの開発プロセス参照モデル
4.1 PoC 試行フェーズ
4.2 本格開発フェーズ
4.3 品質監視・運用フェーズ2020/9/30
5 本ガイドラインの適用方法
5.1 基本的な適用プロセス
5.2 (参考)AI開発の依頼
5.3 差分開発等における留意点
6 品質保証のための要求事項
6.1 要求分析の十分性
6.2 データ設計の十分性
6.3 データセットの被覆性
6.4 データセットの均一性
6.5 機械学習モデルの正確性
6.6 機械学習モデルの安定性
6.7 プログラムの健全性
6.8 運用時品質の維持性
7 品質管理のための具体的技術適用の考え方
7.1 要求分析の十分性
7.2 データ設計の十分性
7.3 データセットの被覆性
7.4 データセットの均一性
7.5 機械学習モデルの正確性・安定性
7.6 (欠番)
7.7 プログラムの健全性
7.8 運用時品質の維持性
8 (参考)関連する文書類に関する情報
8.1 他のガイドライン類との相互関係
8.2 AIの品質に関する国際的取り組みとの関係
9 (参考)分析に関する情報
9.1 リスク回避性及び
9.2 AIパフォーマンスに対する品質管理軸の分析
9.3 公平性に対する品質管理軸の検討
10 図表
AI プロダクト品質保証ガイドライン
CDLE LT2 @NHigashino
18
1 目的とスコープ
1.1 背景と目的
1.2 AI プロダクトの品質保証上の課題と本ガイドラインのスコープ
2 AI プロダクトの品質保証の枠組み
2.1 AI プロダクトの品質保証の基本的考え方
2.2 AI プロダクトの品質保証の分類軸ごとのチェックリスト
2.3 AI プロダクトの品質保証の構築・評価
3 技術カタログ
3.1 AI プロダクト固有の品質特性
3.2 AI プロダクトにおける品質管理
3.3 AI プロダクトの品質保証技術
3.4 参考文献
4 機械学習における説明可能性‧解釈性
4.1 はじめに
4.2 説明可能性・解釈性を付与する手法の分類
4.3 説明可能性・解釈性を付与する代表的手法
2020/9/30
5 生成系システム
5.1 想定するシステム
5.2 特有の課題
5.3 期待される品質特性
5.4 品質評価・保証のための技術アプローチ
5.5 品質保証レベル
5.6 参考文献
6 Voice User Interface (VUI)
6.1 想定するシステム
6.2 VUI システムの特徴
6.3 特有の課題
6.4 期待される品質
6.5 テストアーキテクチャ
6.6 有効な手法
6.7 品質保証レベル
7 産業用プロセス
7.1 検討の前提と対象
7.2 産業用システムへの AI 技術適用にあたっての重点課題
7.3 参照システムアーキテクチャ
7.4 想定ステークホルダー
7.5 品質保証活動
7.6 産業用システムにおける 5 つの指標の具体化
7.7 AI プロダクト開発プロセスでの品質保証観点
7.8 品質保証検討例
8 自動運転
8.1 検討の前提
8.2 想定するシステム
8.3 特有の課題と対策
8.4 品質保証活動のバランスチャートの特性
8.5 実例による QA4AI ガイドラインの評価
8.6 考察
8.7 付録
9 AI-OCR
9.1 本章の背景と目的
9.2 前提となるシステム構成
9.3 AI-OCR 特有の課題と考慮すべき点
9.4 品質保証技術の AI-OCR 適用例
9.5 推奨する品質評価レベル
10 AI プロダクト品質保証コンソーシアムについて
付録 チェックリストの新旧対照表
AI プロダクト品質保証ガイドライン
CDLE LT2 @NHigashino
19
1 目的とスコープ
1.1 背景と目的
1.2 AI プロダクトの品質保証上の課題と本ガイドラインのスコープ
2 AI プロダクトの品質保証の枠組み
2.1 AI プロダクトの品質保証の基本的考え方
2.1.1 AI プロダクトの品質保証において考慮すべき軸
2.1.2 Data Integrity
2.1.3 Model Robustness
2.1.4 System Quality
2.1.5 Process Agility
2.1.6 Customer Expectation
2.2 AI プロダクトの品質保証の分類軸ごとのチェックリスト
2.2.1 Data Integrity
2.2.2 Model Robustness
2.2.3 System Quality
2.2.4 Process Agility
2.2.5 Customer Expectation
2.3 AI プロダクトの品質保証の構築・評価
2.3.1 バランスに着目した構築・評価
2.3.2 開発段階に着目した構築・評価
2.3.3 余力と過剰品質
3 技術カタログ
3.1 AI プロダクト固有の品質特性
3.1.1 教師あり学習のモデルに対する性能指標
3.1.2 データに対する評価
3.1.3 頑健性
3.1.4 公平性
2020/9/30
CDLE LT2 @NHigashino
20
1 ガイドライン全体概要
1.1 目的と背景
1.2 本ガイドラインの使われ方
1.3 機械学習の品質管理に関する課題
環境分析の重要性
継続的なリスクアセスメント
データに依存した品質確保
1.4 品質管理の基本的な考え方
1.5 実現目標とする外部品質特性
リスク回避性
AIパフォーマンス(有用性)
公平性
1.6 その他の「AI 品質」の観点についての取扱い
セキュリティ・プライバシー
耐攻撃性
倫理性などの社会的側面
外部環境の複雑性への対応限界
1.7 品質管理の対象とする内部品質特性
要求分析の十分性
データ設計の十分性
データセットの被覆性.
データセットの均一性.
機械学習モデルの正確性.
機械学習モデルの安定性.
プログラムの健全性
運用時品質の維持性
1.8 開発プロセスについての考え方
2020/9/30
機械学習品質マネジメントガイドライン
1 アシロマAI原則 The Future of Life Institute 2017
2 人間中心のAI社会原則 内閣府 ⇒ G20 2019
3 国際的な議論のためのAI開発ガイドライン案 総務省 2018
4 人工知能学会 倫理指針 人工知能学会 2017
5 ISO/IEC JTC 1/SC 42 国際標準化機構 、国際電気標準会議
情報処理学会 情報規格調査会
2020?
6 IEEE P7000(システム設計における倫理
的懸念に対処するモデルプロセス
IEEE 2019?
7 AI・データの利用に関する契約ガイドライン 経産省 2018
8 ディープラーニング開発標準契約書 日本ディープラーニング協会(JDLA) 2019
9 改正著作権法 文化庁 2018
10 品質保証ガイドライン 産業技術総合研究所 2020?
11 AI監査『フレームワーク』 内部監査人協会(IIA) 2018
12 新たなパラダイムの確立・体系化 日本ソフトウェア科学会機械学習工学
研究会(MLSE)
2019?
13 AIプロダクト品質保証ガイドライン AI プロダクト品質保証コンソーシアム
(QA4AI コンソーシアム)
2019
3-1. 人工知能の基準
CDLE LT2 @NHigashino
21
3. 人工知能の標準化・ルール
方針・指針
現場での
利活用
国内外問わず産官学連携し様々なレイヤーで基準作りが進む
2020/9/30
3-6. 「AI監査『フレームワーク』」について
CDLE LT2 @NHigashino
22
3. 人工知能の標準化・ルール
AI戦略、ガバナンス、人的要因の3つの包括的な要素、7つの構成要素で構成
それぞれに監査目的またはコントロール目的、活動または手続を定義
2018 内部監査人協会 月間監査研究 「人工知能ー内部監査の専門家が考慮すべきこと」 抜粋
AI戦略
• 組織にはAIに対する 明確な戦略があるか?
• 組織はAIの研究開発に投資しているか?
• 組織にはAIの脅威 や機会を特定し対処する計画
があるか?
ガバナンス
• アカウンタビリティ、責任、監督体制を確立する。
• AI責任者が必要なスキルと専門知識を確 保するの
を支援する。
• AI活動やAIに関連する意思決定と活動 が、組
織の価値観、および倫理的、社会的、 法的責任に
沿ったものとなるように支援する。
人的要因
• 意図的でない人間の判断の偏りがAI設計に影響す
る、というリスクが特定され管理 されているか。
• AIの結果が元の目的を反映していること を確かめる
ために効果的にテストされているか。
• 技術的な複雑さを考慮すると、AIには透明性がある
か。
• AIのアウトプットは合法的に、倫理的に、 責任ある
形で使用されているか。
2020/9/30
3-6. 「AI監査『フレームワーク』」について
CDLE LT2 @NHigashino
23
3. 人工知能の標準化・ルール
サイバーレジリエンス
• サイバーセキュリティ能力を迅速に磨き、AIリス クやサイ
バーセキュリティリスクを継続的に 監視し、経営幹部と取
締役会に組織のリスクレベルとそのリスクに対処する取り組
みを伝える
AI能力
• AIのしくみを知る
• AIがもたらすリスクと機会を理解する
• AIの成果が期待どおりかを判断する
• 必要に応じて是正措置を提案したり講じる
データアーキテクチャとインフラストラクチャ
• データへのアクセス方法
• データのライフサイクルを通した情報のプライバシーとセキュリ
ティ
• データライフサイクルを通したデータ所有 権と使用に対する
役割と責任
• データ統合
• アプリケーションの最新化
• 従業員教育
データ品質
• データの信頼性
• データの正規化
• データの完全性
• データ例外の特定・説明
成果測定
• AI指標の設定方法
• 脆弱性に関するストレステスト
• 監査結果の伝達
• 第1のディフェンスラインのコント ロールと第2のディフェ
ンスラインの監督
倫理
• 意図的でない人間の判断の偏りがAI設計に影響
する、というリスクが特定され管理されているか
• AIの結果が元の目的を反映していること を確かめ
るために効果的にテストされているか
• 技術的な複雑さを考慮すると、AIには透明性があ
るか
• AIのアウトプットは合法的に、倫理的に、責任ある
形で使用されているか
ブラックボックス
• 「ブラックボックス」データ(例:根底にあるア ルゴリズ
ム、内部機能、AIを可能にするメカニ ズムに対する
組織の理解度を評価
2018 内部監査人協会 月間監査研究 「IIAの人工知能監査フレームワーク 実務への適用 パートA」 抜粋
2018 内部監査人協会 月間監査研究 「IIAの人工知能監査フレームワーク 実務への適用 パートB」 抜粋
2020/9/30

Weitere ähnliche Inhalte

Was ist angesagt?

階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 

Was ist angesagt? (20)

階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
時系列分析入門
時系列分析入門時系列分析入門
時系列分析入門
 
CatBoost on GPU のひみつ
CatBoost on GPU のひみつCatBoost on GPU のひみつ
CatBoost on GPU のひみつ
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
[R勉強会][データマイニング] R言語による時系列分析
[R勉強会][データマイニング] R言語による時系列分析[R勉強会][データマイニング] R言語による時系列分析
[R勉強会][データマイニング] R言語による時系列分析
 
なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性
 

Ähnlich wie AIを取り巻く基準について

高度試験午前Ⅱ - システム戦略
高度試験午前Ⅱ - システム戦略高度試験午前Ⅱ - システム戦略
高度試験午前Ⅱ - システム戦略
Yohei Sato
 
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
Sho Nakamura
 

Ähnlich wie AIを取り巻く基準について (20)

初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
 
業者に騙されないデジタルアーカイブシステム開発、デジタル化の調達のために
業者に騙されないデジタルアーカイブシステム開発、デジタル化の調達のために業者に騙されないデジタルアーカイブシステム開発、デジタル化の調達のために
業者に騙されないデジタルアーカイブシステム開発、デジタル化の調達のために
 
超高速開発の基礎概念 20141119 0
超高速開発の基礎概念 20141119 0超高速開発の基礎概念 20141119 0
超高速開発の基礎概念 20141119 0
 
210413 data101day1
210413 data101day1210413 data101day1
210413 data101day1
 
AIシステムの要求とプロジェクトマネジメント-前半:機械学習工学概論
AIシステムの要求とプロジェクトマネジメント-前半:機械学習工学概論AIシステムの要求とプロジェクトマネジメント-前半:機械学習工学概論
AIシステムの要求とプロジェクトマネジメント-前半:機械学習工学概論
 
高度試験午前Ⅱ - システム戦略
高度試験午前Ⅱ - システム戦略高度試験午前Ⅱ - システム戦略
高度試験午前Ⅱ - システム戦略
 
In-Database Analyticsの必要性と可能性
In-Database Analyticsの必要性と可能性In-Database Analyticsの必要性と可能性
In-Database Analyticsの必要性と可能性
 
Social GAME における AI 活用事例 [第 4 回 Google Cloud INSIDE Games & Apps]
Social GAME における AI 活用事例 [第 4 回 Google Cloud INSIDE Games & Apps] Social GAME における AI 活用事例 [第 4 回 Google Cloud INSIDE Games & Apps]
Social GAME における AI 活用事例 [第 4 回 Google Cloud INSIDE Games & Apps]
 
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
 
ドメイン駆動設計と要求開発
ドメイン駆動設計と要求開発ドメイン駆動設計と要求開発
ドメイン駆動設計と要求開発
 
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptxJOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
 
楽天におけるビッグデータを対象としたデータサイエンス&AIの最新応用事例
楽天におけるビッグデータを対象としたデータサイエンス&AIの最新応用事例楽天におけるビッグデータを対象としたデータサイエンス&AIの最新応用事例
楽天におけるビッグデータを対象としたデータサイエンス&AIの最新応用事例
 
東北大学AIE - 機械学習入門編
東北大学AIE - 機械学習入門編東北大学AIE - 機械学習入門編
東北大学AIE - 機械学習入門編
 
データベースで始める機械学習
データベースで始める機械学習データベースで始める機械学習
データベースで始める機械学習
 
ソフトウェア工学における問題提起と機械学習の新たなあり方
ソフトウェア工学における問題提起と機械学習の新たなあり方ソフトウェア工学における問題提起と機械学習の新たなあり方
ソフトウェア工学における問題提起と機械学習の新たなあり方
 
一人三役!一気通貫でデータ活用するエンジニアリング
一人三役!一気通貫でデータ活用するエンジニアリング一人三役!一気通貫でデータ活用するエンジニアリング
一人三役!一気通貫でデータ活用するエンジニアリング
 
できない学生向けの学習(修)支援サービス 田邊稔
できない学生向けの学習(修)支援サービス 田邊稔できない学生向けの学習(修)支援サービス 田邊稔
できない学生向けの学習(修)支援サービス 田邊稔
 
201024 ai koeln (akemi yokota) auf japanisch
201024 ai koeln (akemi yokota)  auf japanisch201024 ai koeln (akemi yokota)  auf japanisch
201024 ai koeln (akemi yokota) auf japanisch
 
ビジネスファーストアプローチで、データガバナンス戦略を構築する方法
ビジネスファーストアプローチで、データガバナンス戦略を構築する方法ビジネスファーストアプローチで、データガバナンス戦略を構築する方法
ビジネスファーストアプローチで、データガバナンス戦略を構築する方法
 
IT投資のオペレーション・マネジメントの価値
IT投資のオペレーション・マネジメントの価値IT投資のオペレーション・マネジメントの価値
IT投資のオペレーション・マネジメントの価値
 

AIを取り巻く基準について

  • 2. 自己紹介 CDLE LT2 @NHigashino 2 監査対象を選定することで、監査(コンサルティング、助言型監査)は可能と考える 方針・指針を基準とすることで「ITガバナンスの実現に貢献」は可能と考える 今後の課題 • 社会的要求が高い「自動運転」、「ロボティクス」分野の監査について知見・基準の収集・検討 • 「高度な専門性を持った監査」について、尺度設定 • システム管理基準への適用について検討(プログラム中心 ⇔ データ中心) • 特に方針・指針に近い基準の継続的なキャッチアップ 2020/9/30
  • 3. 機械学習品質マネジメントガイドライン CDLE LT2 @NHigashino 32020/9/30 機械学習品質マネジメントガイドライン AIQM AIプロダクト品質保証ガイドライン QA4AI 発行 国立研究開発法人 産業技術総合研究所 AI プロダクト品質保証コンソーシアム クリエイティブ・コモンズ (表示 – 継承 4.0 国際) 初版 2020 年 6 月 30 日 2019 年 5 月 17 日 改定 2020 年 8 月 1 日 URL https://www.aist.go.jp/aist_j/press_release/pr 2020/pr20200630_2/pr20200630_2.html http://www.qa4ai.jp/ 132ページ 267ページ 想定利用 サービス提供者とシステム開発者 自ドメインや自社、自組織 対象 主に「教師あり学習」 機械学習(帰納的開発)
  • 4. 機械学習品質マネジメントガイドライン CDLE LT2 @NHigashino 42020/9/30 機械学習品質マネジメントガイドライン AIQM AIプロダクト品質保証ガイドライン QA4AI 特徴 システム全体で最終的な利用者に提供す べき品質として 「利用時品質」を捉える システムの構成要素を階層的に整理し、 その構成要素毎 に「外部品質」「内部品 質」を考える 品質保証の枠組みをの 4 つのドメイン適 用する際のガイドラインを例示 コンテンツ生成系システム、スマートス ピーカー、産業用プロセス、自動運転、AI- OCR 品質特性 1 要求分析の十分性 2 データ設計の十分性 3 データセットの被覆性 4 データセットの均一性 5 機械学習モデルの正確性 6 機械学習モデルの安定性 7 プログラムの健全性 8 運用時品質の維持性 1 Data Integrity 2 Model Robustness 3 System Quality 4 Process Agility 5 Customer Expectation
  • 5. 機械学習品質マネジメントガイドライン 全体像 CDLE LT2 @NHigashino 52020/9/30 機械学習品質マネジメントガイドライン 第 1 版 9ページより ※別途検討・適用が必要 セキュリティ・プライバシー 耐攻撃性 倫理性 外部環境の複雑性への対応限界
  • 6. 機械学習品質マネジメントガイドライン 機械学習要素の内部品質 データ CDLE LT2 @NHigashino 62020/9/30 機械学習品質マネジメントガイドライン 第 1 版 17ページより
  • 7. CDLE LT2 @NHigashino 72020/9/30 機械学習品質マネジメントガイドライン 第 1 版 17ページより 機械学習品質マネジメントガイドライン 機械学習要素の内部品質 モデル
  • 8. 機械学習品質マネジメントガイドライン CDLE LT2 @NHigashino 82020/9/30 機械学習品質マネジメントガイドライン 第 1 版 46ページより 「リスク回避性レベルについて」 AISL 0.1 → Lv 1 以上 AISL 0.2 → Lv 2 以上 AISL 1 → Lv 3 Lv2  システムの利用状況が許す範囲において、システムの品質について、動作結果との 対照などから品質劣化・誤判断のモニタリングを行うこと。モニタリングにおいては、プ ライバシーなど製品品質以外の要因を十分に検討すること。  オンライン学習を行う場合には、追加学習結果を何らかの方法で定常的にモニタリ ングすること。モニタリングの結果で性能要求からの逸脱が判明した場合には、直ち に対処を行うことができること。  オフラインでの追加学習を行う場合には、システム開発段階で用いたテスト用データ セットでの「性能劣化の回帰テスト」を行い、更新前に品質が失われていないことを 確認すること。必要な場合には、システム開発段階と同等の手法でテスト用データ セットの更新を行うこと。 TP FN FP TN 正答率 適合率 再現率 F値 ここに私たちの知見が必要 ?
  • 9. AIプロダクト品質保証ガイドライン 分類軸 CDLE LT2 @NHigashino 92020/9/30 AI プロダクト品質保証ガイドライン 2020.08版 2-1より 1 Data Integrity 質においても量においても適切かつ充分なデータの確保が重要で あり、学習用データと 検証用データが独立しているか 2 Model Robustness 精度が高く頑健性が確保されたモデルが重要となる。また学習など においてデグレード に適切に対処できているか 3 System Quality システム全体として価値が高く、何かが起 きても何とかならないとい けない。すなわち、AI プロダクト全体の品質が確保できているか 4 Process Agility 納得感を共感した開発者や開発チームが自動化された開発環境 を駆使して臨機応変に探索的開発を進めていく必要がある。すな わち、プロセスが機動的であるか 5 Customer Expectation 良くも悪くも顧客の期待が高いかどうか
  • 10. AIプロダクト品質保証ガイドライン 分類軸例 Model Robustness CDLE LT2 @NHigashino 2020/9/30 AI プロダクト品質保証ガイドライン 2020.08版 2-13より (a.i) 正答率、適合率、再現率、F 値といった推論性能に関する評価指標の値は,要求に対して十分か. (b.i) 汎化性能は確保されているか. (c.i)(AUROC といった)精度以外のモデルのよさを表す指標についても適切な指標を 選定し充分に評価したか. (d.i) 学習は適切に進行したか. (d.ii) 学習結果が局所最適に陥っていないか. (e.i) 適切なアルゴリズムやハイパーパラメータかどうかの検討は行ったか. (f.i) 十分に交差検証などを行ったか. (g.i) ノイズに対して頑健か. (h.i) 数理的多様性,意味的多様性,社会的文化的多様性などを考慮し,十分に多様なデータで検証を行ったか. (i.i) モデルを更新する場合,以前の振る舞いとの変化について把握しているか,それ が許容可能であることを確認して いるか. (i.ii) 特に自動でのモデル更新・配備を行う場合,自動化された検査内容は十分であ るか. (j.i) 運用時における傾向の変化により,モデルの性能,妥当性,有用性が低下する可能性を検討し,それに対するモ デルの頑健性確保,運用における監視などの対策をとっているか. (k.i) 学習アルゴリズムの特性や,そのライブラリやそれを呼び出すプログラムの不具 合や誤った利用により,不適切なモデ ルとなっていないか. 10 ある学習を行う前には正しく判別できていたデータが学習後に誤判別を起こすといった現象を指す。デグレードが許容可能な範囲なのか、デ グレードの影響範囲をきちんと把握できているか、などを考慮する必要がある。
  • 11. AIプロダクト品質保証ガイドライン 分類軸例 Customer Expectation CDLE LT2 @NHigashino 2020/9/30 AI プロダクト品質保証ガイドライン 2020.08版 2-13より (a) ステークホルダーの期待度 (a.i) 顧客の期待は高いか. (a.ii) 狙っているのが「人間並み」か. (b) ステークホルダーの技術理解度 (b.i) 顧客は確率的動作という考え方を受容していないか. (b.ii) リスク・副作用を理解していないか,もしくは安易に受容して必要な対策を怠っていないか. (b.iii) データの量や質に対する認識は甘いか. (b.iv)“合理的”説明を求める傾向や、“外挿”や“予測”をしたがる傾向、 “原因”や“責 任(者)”を求めたがる傾向はあるか. (c) 運用に対する期待度 (c.i) 継続的実運用にどのくらい近いか. (d) 標準適合性の必要度 (d.i) AI プロダクトの利用に法令上、倫理上の問題はないか、第三者のプライバシー等 への 配慮が必要ないか、AI プロダクトの利用が社会的に受容されているか. (e) ステークホルダーとの関係性 (e.i) 納得感を共感する風土や雰囲気、仕事の進め方は少ないか. (e.ii) 顧客担当者・チームで意思決定できる権限や範囲は少ない・狭いか. 11
  • 12. AIプロダクト品質保証ガイドライン バランスに着目した構築‧評価 CDLE LT2 @NHigashino 2020/9/30 AI プロダクト品質保証ガイドライン 2020.08版 2-13より 12 AI プロダクト品質保証ガイドライン 2020.08版 2-16より 顧客の期待に対して他の分類軸に過不足がないか確認 開発が進むに伴い、品質も向上しているか確認
  • 13. CDLE LT2 @NHigashino 132020/9/30 まとめ • 両ガイドラインともに非常に有用な知見が含まれている。ただし、 知見を広めていくために識者の活動が必要 • Discord+MiroでOSTやっても面白いかも • 品質の枠にとらわれず、これをもとに「AI開発規約」として社内 規約を作成することも有効と考えられる • cf. クラウドの利用促進に際しセキュリティ基準が果たした役割
  • 14. CDLE LT2 @NHigashino 142020/9/30 補足:データ量についての指標(QA4AI) Data Integrity (a) 学習データの量の十分性 (a.i) 想定する学習手法の適用前提や統計的観点から十分な量の データがあるか. (a.ii) 想定する要求・適用環境において,希少な状況や分類クラス の偏りがある場合で あっても,それらに対して十分な量のデータがある か. (a.iii) データ量が少ない場合,「かさ増し」(人工的なデータ生成な ど)で補完が可能か. (b) 学習データの妥当性 (b.i) 想定する要求・適用環境に意味の観点から対応した適切なデータ となっているか. (b.ii) 要求・適用環境の想定にそぐわないデータが入っていないか. (b.iii) 人工的に作成・加工したデータについても,要求・適用環境を適 切に表現している といえるか. (b.iv) データの収集等の費用対効果の観点からも適切であるか. (c) 学習データの要件適合性 (c.i) データに関するステークホルダーの要求事項を満たしているか. (c.ii) データが満たすべき不変条件や整合性条件,学習対象となる判 断の公平性,個人 情報の有無など,データに対する制約を満たしてい るか. (d) 学習データの適正性 (d.i) 潜在的なバイアスや汚染の可能性について,多様なステークホル ダーや社会への 影響の観点から検討し,データが適切であることを確認 したか. (e) 学習データの複雑性 (e.i) 学習させたい推論機能に対して,必要以上の情報量や傾向を含 む複雑なデータと なっていないか. (e.ii) データを単純化しすぎて,必要な情報が入っていないことはないか. (f) 学習データの性質の考慮 (f.i) 想定する学習手法の適用前提となるようなデータの性質(多重共 線性など)は適 切に考慮されているか. (g) 学習データの値域の妥当性 (g.i) データに含まれている値は,対象ドメインの知識などと照らし合わ せて現実的に 発生する妥当な値となっているか. (g.ii) 外れ値と欠損値と判断した値は,真に現実的な値ではなく取り 除くべきであるこ とを確認したか.データを取り除くための前処理は適切で あったか. (h) 学習データの法的適合性 (h.i) データの利用が契約や第三者の知的財産権により制限されないか、 データの利用 に法令上、倫理上の問題はないか、プライバシー等への配 慮が必要ないか. (i) 検証用データの妥当性 (i.i) 学習用データと検証用データは独立しているか. (j) オンライン学習の影響の考慮 (j.i) インクリメンタルに追加や置き換え,削除されるデータについて,適 切な運用機 構・体制を設け,監視,制御や制限 ,検証を適切に 行っているか. (k) データ処理プログラムの妥当性 (k.i) データに対する前処理,作成・加工などの処理を行うアルゴリズム の特性や,その ライブラリやそれを呼び出すプログラムの不具合,誤った 利用により,データの 適切さが失われていないか. データ量が十分かをプロセスが機能しているかによって判断 →識者による知見が必要
  • 15. CDLE LT2 @NHigashino 152020/9/30 補足:データ量についての指標(AIQM) 1 要求分析の十分性 2 データ設計の十分性 3 データセットの被覆性 4 データセットの均一性 5 機械学習モデルの正確性 6 機械学習モデルの安定性 7 プログラムの健全性 8 運用時品質の維持性 『属性の組み合わせに対して、全て の属性値の組み合わせ(属 性の直積)に対応する十分なデータ』があるか 誤動作・ 誤判定などを引き起こす可能性のある属性の組み合わせ 実装する機械学習利用システムが運用時に遭遇しうる全状況 信号の色を判定するための属性例:ここでは3つの属性例 信号機の色(青・黄・赤) 時刻(朝焼け・昼・夕方・夜間) 天候(晴れ・曇り・雨・雪) →属性値の組み合わせ(属性の直積)は 3×4×4=48 『前項で基準を定めて網羅したそれぞれのケースに対して、それぞ れのケースに対応する 入力の可能性に対して抜け漏れなく、十 分な量のデータが与えられていること』 テスト用データセットの取得源や方法を検討し、応用の状況に対して偏りがな いことを期待できるようにすること。 各ケース毎に、元データから偏りのないサンプル抽出などを行い、偏りがないこ とを期待できるようにすること。 分析した各ケースについて訓練用データおよびテスト用データが十分に存在す ることを、訓練フェーズやバリデーションフェーズなどで確認すること。 等 『リスク事象毎・ケース毎の出現確率の想定に基づき、各ケースの データ量を事前に見積もり設計すること。』 リスク回避性が強く求められる ⇒回避すべきリスクに十分な訓練用データ 全体的な性能が求められる ⇒詳細なケースのデータを省略 目的とするシステム・機能を分析したうえで、データ属性・網羅性・ケース毎のデータ量を決定
  • 16. CDLE LT2 @NHigashino 162020/9/30 補足:倫理について(QA4AI) 参考例:EU 倫理ガイドライン • 人間による営みと監視 • 技術的な堅牢性と安全性 AI • プライバシーとデータガバナンス • 透明性 • 多様性、無差別、公平性 • 社会と環境の福利 • 説明責任 https://ec.europa.eu/digital-single- market/en/news/ethics-guidelines-trustworthy-ai AIQM 『機械学習利用システムに要求される社会的要求として、「FAST(fairness, accountability, sustainability, transparency)」の 4要素が指摘されることがあ るが、本ガイ ドラインではそのうちでも特に統計的な性質として直接的に分析可能な公 平性にまず着目』 『機械学習要素が「どのような判断を行えば」社会的正当性を持つかについては、システ ムの開発の最初に要求定義の一部として事前に人間 によって整理されるべきものとして、 その直接の検討の対象としない』 IEEE P7000 シリーズにてプライバシーや Nudge (行動の誘導) 他の検討が、また ISO/IEC JTC1/SC42 ではガバナンス他の検討 QA4AI 『対象アプリケーションによっては、判断の公平性 (fairness) など、文化的・社会的な要 求の反映という観点からの品質を考慮する必要がある』 公平性 『該当システムにおいて重要となる公平性について定義し、評価を行う必要がある。』 説明可能性 『人間が出力を参考にして意思決定を行う場合など、 アプリケーションによっては説明可 能性・解釈性が必要』 組織の倫理規定をあらかじめ規定 参考例:EU、DoD、総務省、 ユネスコ(2021年策定予定) ガイドラインを参考にシステムの 倫理要件を定義・検証 ※システムによって必要とされる倫理感は様々であり、 個別に定義・検証するより組織として統一見解を 持つほうが品質が安定すると思われる
  • 17. 機械学習品質マネジメントガイドライン CDLE LT2 @NHigashino 17 1 ガイドライン全体概要 1.1 目的と背景 1.2 本ガイドラインの使われ方 1.3 機械学習の品質管理に関する課題 1.4 品質管理の基本的な考え方 1.5 実現目標とする外部品質特性 1.6 その他の「AI品質」の観点についての取扱い 1.7 品質管理の対象とする内部品質特性 1.8 開発プロセスについての考え方 1.9 他の文書・規範類との関係について 1.10 本ガイドラインの構成 2 基本的事項 2.1 ガイドラインのスコープ 2.2 システムの品質に関する他の規格等との関係 2.3 用語の定義 3 機械学習利用システムの外部品質特性レベルの設定 3.1 リスク回避性 3.2 AI パフォーマンス 3.3 公平性 4 機械学習利用システムの開発プロセス参照モデル 4.1 PoC 試行フェーズ 4.2 本格開発フェーズ 4.3 品質監視・運用フェーズ2020/9/30 5 本ガイドラインの適用方法 5.1 基本的な適用プロセス 5.2 (参考)AI開発の依頼 5.3 差分開発等における留意点 6 品質保証のための要求事項 6.1 要求分析の十分性 6.2 データ設計の十分性 6.3 データセットの被覆性 6.4 データセットの均一性 6.5 機械学習モデルの正確性 6.6 機械学習モデルの安定性 6.7 プログラムの健全性 6.8 運用時品質の維持性 7 品質管理のための具体的技術適用の考え方 7.1 要求分析の十分性 7.2 データ設計の十分性 7.3 データセットの被覆性 7.4 データセットの均一性 7.5 機械学習モデルの正確性・安定性 7.6 (欠番) 7.7 プログラムの健全性 7.8 運用時品質の維持性 8 (参考)関連する文書類に関する情報 8.1 他のガイドライン類との相互関係 8.2 AIの品質に関する国際的取り組みとの関係 9 (参考)分析に関する情報 9.1 リスク回避性及び 9.2 AIパフォーマンスに対する品質管理軸の分析 9.3 公平性に対する品質管理軸の検討 10 図表
  • 18. AI プロダクト品質保証ガイドライン CDLE LT2 @NHigashino 18 1 目的とスコープ 1.1 背景と目的 1.2 AI プロダクトの品質保証上の課題と本ガイドラインのスコープ 2 AI プロダクトの品質保証の枠組み 2.1 AI プロダクトの品質保証の基本的考え方 2.2 AI プロダクトの品質保証の分類軸ごとのチェックリスト 2.3 AI プロダクトの品質保証の構築・評価 3 技術カタログ 3.1 AI プロダクト固有の品質特性 3.2 AI プロダクトにおける品質管理 3.3 AI プロダクトの品質保証技術 3.4 参考文献 4 機械学習における説明可能性‧解釈性 4.1 はじめに 4.2 説明可能性・解釈性を付与する手法の分類 4.3 説明可能性・解釈性を付与する代表的手法 2020/9/30 5 生成系システム 5.1 想定するシステム 5.2 特有の課題 5.3 期待される品質特性 5.4 品質評価・保証のための技術アプローチ 5.5 品質保証レベル 5.6 参考文献 6 Voice User Interface (VUI) 6.1 想定するシステム 6.2 VUI システムの特徴 6.3 特有の課題 6.4 期待される品質 6.5 テストアーキテクチャ 6.6 有効な手法 6.7 品質保証レベル 7 産業用プロセス 7.1 検討の前提と対象 7.2 産業用システムへの AI 技術適用にあたっての重点課題 7.3 参照システムアーキテクチャ 7.4 想定ステークホルダー 7.5 品質保証活動 7.6 産業用システムにおける 5 つの指標の具体化 7.7 AI プロダクト開発プロセスでの品質保証観点 7.8 品質保証検討例 8 自動運転 8.1 検討の前提 8.2 想定するシステム 8.3 特有の課題と対策 8.4 品質保証活動のバランスチャートの特性 8.5 実例による QA4AI ガイドラインの評価 8.6 考察 8.7 付録 9 AI-OCR 9.1 本章の背景と目的 9.2 前提となるシステム構成 9.3 AI-OCR 特有の課題と考慮すべき点 9.4 品質保証技術の AI-OCR 適用例 9.5 推奨する品質評価レベル 10 AI プロダクト品質保証コンソーシアムについて 付録 チェックリストの新旧対照表
  • 19. AI プロダクト品質保証ガイドライン CDLE LT2 @NHigashino 19 1 目的とスコープ 1.1 背景と目的 1.2 AI プロダクトの品質保証上の課題と本ガイドラインのスコープ 2 AI プロダクトの品質保証の枠組み 2.1 AI プロダクトの品質保証の基本的考え方 2.1.1 AI プロダクトの品質保証において考慮すべき軸 2.1.2 Data Integrity 2.1.3 Model Robustness 2.1.4 System Quality 2.1.5 Process Agility 2.1.6 Customer Expectation 2.2 AI プロダクトの品質保証の分類軸ごとのチェックリスト 2.2.1 Data Integrity 2.2.2 Model Robustness 2.2.3 System Quality 2.2.4 Process Agility 2.2.5 Customer Expectation 2.3 AI プロダクトの品質保証の構築・評価 2.3.1 バランスに着目した構築・評価 2.3.2 開発段階に着目した構築・評価 2.3.3 余力と過剰品質 3 技術カタログ 3.1 AI プロダクト固有の品質特性 3.1.1 教師あり学習のモデルに対する性能指標 3.1.2 データに対する評価 3.1.3 頑健性 3.1.4 公平性 2020/9/30
  • 20. CDLE LT2 @NHigashino 20 1 ガイドライン全体概要 1.1 目的と背景 1.2 本ガイドラインの使われ方 1.3 機械学習の品質管理に関する課題 環境分析の重要性 継続的なリスクアセスメント データに依存した品質確保 1.4 品質管理の基本的な考え方 1.5 実現目標とする外部品質特性 リスク回避性 AIパフォーマンス(有用性) 公平性 1.6 その他の「AI 品質」の観点についての取扱い セキュリティ・プライバシー 耐攻撃性 倫理性などの社会的側面 外部環境の複雑性への対応限界 1.7 品質管理の対象とする内部品質特性 要求分析の十分性 データ設計の十分性 データセットの被覆性. データセットの均一性. 機械学習モデルの正確性. 機械学習モデルの安定性. プログラムの健全性 運用時品質の維持性 1.8 開発プロセスについての考え方 2020/9/30 機械学習品質マネジメントガイドライン
  • 21. 1 アシロマAI原則 The Future of Life Institute 2017 2 人間中心のAI社会原則 内閣府 ⇒ G20 2019 3 国際的な議論のためのAI開発ガイドライン案 総務省 2018 4 人工知能学会 倫理指針 人工知能学会 2017 5 ISO/IEC JTC 1/SC 42 国際標準化機構 、国際電気標準会議 情報処理学会 情報規格調査会 2020? 6 IEEE P7000(システム設計における倫理 的懸念に対処するモデルプロセス IEEE 2019? 7 AI・データの利用に関する契約ガイドライン 経産省 2018 8 ディープラーニング開発標準契約書 日本ディープラーニング協会(JDLA) 2019 9 改正著作権法 文化庁 2018 10 品質保証ガイドライン 産業技術総合研究所 2020? 11 AI監査『フレームワーク』 内部監査人協会(IIA) 2018 12 新たなパラダイムの確立・体系化 日本ソフトウェア科学会機械学習工学 研究会(MLSE) 2019? 13 AIプロダクト品質保証ガイドライン AI プロダクト品質保証コンソーシアム (QA4AI コンソーシアム) 2019 3-1. 人工知能の基準 CDLE LT2 @NHigashino 21 3. 人工知能の標準化・ルール 方針・指針 現場での 利活用 国内外問わず産官学連携し様々なレイヤーで基準作りが進む 2020/9/30
  • 22. 3-6. 「AI監査『フレームワーク』」について CDLE LT2 @NHigashino 22 3. 人工知能の標準化・ルール AI戦略、ガバナンス、人的要因の3つの包括的な要素、7つの構成要素で構成 それぞれに監査目的またはコントロール目的、活動または手続を定義 2018 内部監査人協会 月間監査研究 「人工知能ー内部監査の専門家が考慮すべきこと」 抜粋 AI戦略 • 組織にはAIに対する 明確な戦略があるか? • 組織はAIの研究開発に投資しているか? • 組織にはAIの脅威 や機会を特定し対処する計画 があるか? ガバナンス • アカウンタビリティ、責任、監督体制を確立する。 • AI責任者が必要なスキルと専門知識を確 保するの を支援する。 • AI活動やAIに関連する意思決定と活動 が、組 織の価値観、および倫理的、社会的、 法的責任に 沿ったものとなるように支援する。 人的要因 • 意図的でない人間の判断の偏りがAI設計に影響す る、というリスクが特定され管理 されているか。 • AIの結果が元の目的を反映していること を確かめる ために効果的にテストされているか。 • 技術的な複雑さを考慮すると、AIには透明性がある か。 • AIのアウトプットは合法的に、倫理的に、 責任ある 形で使用されているか。 2020/9/30
  • 23. 3-6. 「AI監査『フレームワーク』」について CDLE LT2 @NHigashino 23 3. 人工知能の標準化・ルール サイバーレジリエンス • サイバーセキュリティ能力を迅速に磨き、AIリス クやサイ バーセキュリティリスクを継続的に 監視し、経営幹部と取 締役会に組織のリスクレベルとそのリスクに対処する取り組 みを伝える AI能力 • AIのしくみを知る • AIがもたらすリスクと機会を理解する • AIの成果が期待どおりかを判断する • 必要に応じて是正措置を提案したり講じる データアーキテクチャとインフラストラクチャ • データへのアクセス方法 • データのライフサイクルを通した情報のプライバシーとセキュリ ティ • データライフサイクルを通したデータ所有 権と使用に対する 役割と責任 • データ統合 • アプリケーションの最新化 • 従業員教育 データ品質 • データの信頼性 • データの正規化 • データの完全性 • データ例外の特定・説明 成果測定 • AI指標の設定方法 • 脆弱性に関するストレステスト • 監査結果の伝達 • 第1のディフェンスラインのコント ロールと第2のディフェ ンスラインの監督 倫理 • 意図的でない人間の判断の偏りがAI設計に影響 する、というリスクが特定され管理されているか • AIの結果が元の目的を反映していること を確かめ るために効果的にテストされているか • 技術的な複雑さを考慮すると、AIには透明性があ るか • AIのアウトプットは合法的に、倫理的に、責任ある 形で使用されているか ブラックボックス • 「ブラックボックス」データ(例:根底にあるア ルゴリズ ム、内部機能、AIを可能にするメカニ ズムに対する 組織の理解度を評価 2018 内部監査人協会 月間監査研究 「IIAの人工知能監査フレームワーク 実務への適用 パートA」 抜粋 2018 内部監査人協会 月間監査研究 「IIAの人工知能監査フレームワーク 実務への適用 パートB」 抜粋 2020/9/30