機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)

機械学習工学と
機械学習応用システムの開発
吉岡信和
国立情報学研究所
２０２１年３月３０日
@SmartSEセミナー: 機械学習デザインパターン

1
従来型プログラミングと機械学習
機械学習はデータからルールを抽出
丸山宏, 情報処理学会第81回全国大会「機械学習システムのセキュリティ」, 3/14/2019
正確な関数を導出するためには、
十分な数、品質の訓練データが必要
従来は、ルール・アルゴリズムを記述
モデル・アルゴリズムが
不明だと記述できない
正解をどう導けばよいか分かって
いない状況で予測可能
シェパード犬
ハスキー犬
https://ja.wikipedia.org/wiki/シベリアン・ハスキー

2
なぜ、機械学習が急速に発展しているのか？
n データの普及
n オープンサイエンスとオープンデータ
n IoT・センサーの普及
n Crowed Sourcing: データの収集、ラベル付け
n マシンパワー
n クラウド・GPUの普及
n 研究者・技術者の急増
n 産業の発展
高性能なアプリケーション・
新たなアプリケーションの発掘

3
オープンサイエンスとオープンデータ
n ImageNet: http://www.image-net.org/
n 1,400万枚を超える画像,物体名（クラス名）は2万種類以上
u 14,197,122 images, 21841 synsets indexed
n 画像に写っている物体名（クラス名）を付与
n http://starpentagon.net/analytics/imagenet_ilsvrc2012_dataset/
n Berkeley DeepDrive BDD100k: http://bdd-data.berkeley.edu/
n Currently the largest dataset for self-driving AI. Contains over 100,000 videos of over 1,100-hour
driving experiences across different times of the day and weather conditions. The annotated images
come from New York and San Francisco areas.
n 訓練済みモデルの公開と集合知による改良
n Model Zooなど
https://modelzoo.co/

4
Content-Based Image Retrieval using Deep Learning
CLS: Classification Error
LOC: Localization Error
AlexNet ResNet GoogLeNet
２０１５年に人の認識率を超える
ImageNet Large Scale Visual Recognition Competition

5
http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf
パラーメータは膨大に
https://externaltable.blogspot.com/2016/07/a-neural-network-scoring-engine-in-plsql.html
2千〜5千万パラメータ

6
機械学習を使うことで、出来ることが広がる
n プログラミングが難しい機能を実装可能
n アルゴリズムに書き下すことができない
n 人が行っていた処理
n 計算に膨大な時間・リソース・情報が必要な
処理を高速・軽量に実装可能
n リアルタイム処理が困難な計算
n 特定の状況におけるショートカットルールを機械
学習により抽出
u例）気象シミュレーション

機械学習を使ったシステム開発

8
機械学習モジュールの開発
丸山宏, 機械学習工学の狙いと展開, 情報処理,Vol.60,No.1,pp.12-16 (2018)

9
機械学習のプロセス例
Amershi, S., Begel, A., Bird, C., Deline, R., Gall, H., Kamar, E., … Zimmermann, T. (2019). Software Engineering
for Machine Learning: A Case Study. 41st ACM/IEEE International Conference on Software Engineering
(ICSE 2019). https://doi.org/10.1109/ICSE-SEIP.2019.00042
データクリーニング
クレンジング
ラベリング
（正解データ作成）
フィーチャーエンジニアリング
（特徴量の抽出）訓練
訓練済みモデルの
配置
データ収集
訓練済みモデル
の要求

10
システムの開発プロセスと機械学習プロセス
https://webrage.jp/techblog/v_shaped_mode/
https://www.sei-info.co.jp/framework/keyword/agile.html
？
システム要求
モデル要求
ニーズの不確実性への対応
性能のモニタリング
が重要
？？
？
？
トライ＆エラー、
実現可能性への対応
想定と実際のギャップ
の確認

11
システムの開発プロセスへの機械学習プロセス
の組み込みパターン例
国立研究開発法人産業技術総合研究所サイバーフィジカルセキュリティ研究センター. (2020). 機械学習品質マネジメントガイ
ドライン. 産業技術総合研究所人工知能研究センター. https://www.cpsec.aist.go.jp/achievements/aiqm/

12
機械学習応用システムの開発と通常のシステ
ム開発の違い
n システムの品質低下への対処
n 訓練済みモデルの品質低下、コンセプトドリフト
u データの傾向が時間とともに変化
n データの収集・加工に膨大なコスト
n データの管理が重要
n 利用データと訓練済みモデルのパラメータの
バージョン管理が必要
n 効率の良い試行錯誤、再現性の確保
n 機械学習モジュール間での影響が大きい
n 複数の訓練済みモデルを用いる場合注意が必要
Wan, Z., Xia, X., Lo, D., & Murphy, G. C. (2019). How does Machine Learning Change Software Development Practices? IEEE Transactions on Software Engineering, 1–14. https://doi.org/10.1109/tse.2019.2937083

13
機械学習のコードはシステム全体のごく一部
Sculley, D., Holt, G., Golovin, D., Davydov, E., Phillips, T., Ebner, D., … Dennison, D. (2015). Hidden technical debt in
machine learning systems. In Advances in Neural Information Processing Systems (Vol. 2015-Janua, pp. 2503–2511).
データの処理

14
機械学習応用システムの開発の難しさ
機械学習を応用したシステム
確率・統計的な精度訓練データに依存
従来型システムの開発
演繹的にアルゴリズム・論理の
組み合わせ
• 適切なシステムの構築が困難
• 品質の担保が困難
0 20 40 60 80 100
開発者へのギャップアンケート (278回答）
要求定義、テスト・品質保証が最も
ギャップが大きい
根本的に異なる考え方が必要
手法が未成熟特化したツールが存在
従来どおり
ギャップ
MLSE2018アンケート調査結果より
https://sites.google.com/view/sig-mlse/参考文献

15
ソフトウェア工学と機械学習工学
ソフトウェア工学
n “The application of a systematic, disciplined, quantifiable approach to the
development, operation, and maintenance of software” -IEEE Standard
Glossary of Software Engineering Terminology, IEEE std 610.12-1990,
1990.
機械学習工学
n 機械学習を利用したソフトウェア（機械学習応用システム、機械学習ア
プリケーション）の開発、運用、保守に対する系統的で規律化された、
定量化可能なアプローチの適用およびアプローチに関する研究
n 機械学習応用システムへのエンジニアリングの適用
機械学習応用システムにはこれまでのソフトウェア工学のアプローチが通用しない

16
2700人以上の
コミュニティ
メルシー
https://mlxse.connpass.com/
https://sites.google.com/view/sig-mlse

17
2700人以上の
コミュニティ
メルシー
https://sites.google.com/view/sig-mlse
https://mlxse.connpass.com/

18
機械学習応用システムの開発・運用の難しさ
n 要求抽出の難しさ
n 実現可能な要求の抽出と整理の難しさ
u 機械学習への期待が大きい
u そもそもどこまでできるのかが不明
n AIシステムとしての新たな要求への対応
u 公平性、プライバシー、低い説明可能性の考慮
n テスト・品質保証の難しさ
n 訓練プログラム・訓練済みモデルの妥当性の確認の難しさ
n 振る舞いを完全に把握できない
n 機械学習特有の脆弱性への対応
n 意図的に判断を狂わせる攻撃
n 訓練パイプラインの難しさ
n 発見的なプロセス、工数が膨大で予測が困難
n コードの再利用の難しさ
n データ処理に関するマネジメントの難しさ
n ツールの未成熟
n 機械学習のためのバージョン管理

19
機械学習応用システム特有の要求
n 公平性とバイアス
n 人の判断をソフトウェアで置き換える際の問題
n 説明可能性、透明性
n 訓練済みモデルの説明性・透明性が低いことに起因する考慮
n プライバシー
n データ収集に関するプライバシー要求
n システムに関するプライバシー要求
n コンセプトドリフトへの対応
n 安全性
n 訓練済みモデルの頑健性（ロバスト性）
u 理想とやや異なっていても同様に推論できる
n ハザードが起こるまれな状況（訓練データが少ない場合）への対処
n 機械学習特有のセキュリティ脆弱性への考慮
n データに対する要求
n 安全性担保に必要な訓練データ、確認に必要なテストデータ

20
機械学習における公平性とは？
n 公平性の種類
n 集団公平性：人種などのセンシティブ属性によるグループ間で判断に差異がない
n 個人公平性：人種などのセンシティブ属性以外が似ている個人間で差異がない
法的な要求
n 人種，肌の色，宗教，性別，出身国による雇用差別の禁止
n 男女雇用機会均等法
n 職場における男女差別の禁止
n GDPR:
n 個人データの処理は”適法、公平かつ透明性のある手段で処理しなければならない”
推論結果により差別を生む可能性を排除・軽減する要求
• 雇用に関するサービス・個人情報を扱うサービスは、公平性を考慮する必要がある
• 差別の原因となるセンシティブな情報から判断・予測・推薦するサービスも公平性がリスク
にならないか分析する必要がある
• 肌の色などDNNが自動的に特徴量として抽出、判断に利用する場合がある

21
実行時に精度が低下するリスク：
コンセプトドリフト
AIシステム
MLコンポーネント
訓練プログラム
訓練用データセット
ハイパーパラメータ
テスト用データセット
テスト
実際の入力データ将来の入力データ
変化
コンセプトドリフト
ドメインシフト
想定と異なり精度が低下
把握しきれない複雑・膨大な
データを扱う
不変部分と可変部分の
切り分けが困難
過去と異なる新しい状況
訓練パイプライン
推論パイプライン

22
機械学習工学のトレンド
2020
booking.comにおけるベストプラクティス [2]
AIプロダクト品質保証ガイドライン第１版†2
機械学習品質マネジメントガイドライン†3
マイクロソフトにおけるベストプラクティス [3]
ソフトウェア工学の観点での課題[4]
バグの原因・修正パターンを整理[5,6]
[1]Sculley, D., Holt, G., Golovin, D., Davydov, E., Phillips, T., Ebner, D., … Dennison, D. (2015). Hidden technical debt in machine learning
systems. In Advances in Neural Information Processing Systems (Vol. 2015-Janua, pp. 2503–2511).
[2]Bernardi, L., Mavridis, T., & Estevez, P. (2019). 150 successful machine learning models: 6 lessons learned at Booking.com. In Proceedings of
the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1743–1751).
[3]Amershi, S., Begel, A., Bird, C., Deline, R., Gall, H., Kamar, E., … Zimmermann, T. (2019). Software Engineering for Machine Learning: A
Case Study. 41st ACM/IEEE International Conference on Software Engineering (ICSE 2019).
[4]Wan, Z., Xia, X., Lo, D., & Murphy, G. C. (2019). How does Machine Learning Change Software Development Practices? IEEE Transactions
on Software Engineering, 1–14.
[5]Nargiz Humbatova, Gunel Jahangirova, Gabriele Bavota, Vincenzo Riccio, Andrea Stocco, Paolo Tonella, Taxonomy of Real Faults in Deep
Learning Systems, ICSE 2020
[6] Md Johirul Islam, Rangeet Pan, Giang Nguyen, Hridesh Rajan, Repairing Deep Neural, Networks: Fix Patterns and Challenges, ICSE 2020
googleにおけるベストプラクティス[1]
AlexNet GoogLeNet/VGGnet
ResNet
BERT
MLSEのアンケート†1
仕事で始める機械学習,オライリー・ジャパン
• 学術的な中心課題はテスト技術
• ベストプラクティスからガイドライン
†１ https://sites.google.com/view/sig-mlse/参考文献
†2 http://www.qa4ai.jp/download/
†3 https://www.cpsec.aist.go.jp/achievements/aiqm/

23
機械学習工学のトレンド
2020
booking.comにおけるベストプラクティス [2]
AIプロダクト品質保証ガイドライン第１版†2
機械学習品質マネジメントガイドライン†3
マイクロソフトにおけるベストプラクティス [3]
ソフトウェア工学の観点での課題[4]
バグの原因・修正パターンを整理[5,6]
[1]Sculley, D., Holt, G., Golovin, D., Davydov, E., Phillips, T., Ebner, D., … Dennison, D. (2015). Hidden technical debt in machine learning
systems. In Advances in Neural Information Processing Systems (Vol. 2015-Janua, pp. 2503–2511).
[2]Bernardi, L., Mavridis, T., & Estevez, P. (2019). 150 successful machine learning models: 6 lessons learned at Booking.com. In Proceedings of
the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1743–1751).
[3]Amershi, S., Begel, A., Bird, C., Deline, R., Gall, H., Kamar, E., … Zimmermann, T. (2019). Software Engineering for Machine Learning: A
Case Study. 41st ACM/IEEE International Conference on Software Engineering (ICSE 2019).
[4]Wan, Z., Xia, X., Lo, D., & Murphy, G. C. (2019). How does Machine Learning Change Software Development Practices? IEEE Transactions
on Software Engineering, 1–14.
[5]Nargiz Humbatova, Gunel Jahangirova, Gabriele Bavota, Vincenzo Riccio, Andrea Stocco, Paolo Tonella, Taxonomy of Real Faults in Deep
Learning Systems, ICSE 2020
[6] Md Johirul Islam, Rangeet Pan, Giang Nguyen, Hridesh Rajan, Repairing Deep Neural, Networks: Fix Patterns and Challenges, ICSE 2020
googleにおけるベストプラクティス[1]
AlexNet GoogLeNet/VGGnet
ResNet
BERT
†１ https://sites.google.com/view/sig-mlse/参考文献
†2 http://www.qa4ai.jp/download/
†3 https://www.cpsec.aist.go.jp/achievements/aiqm/
MLSEのアンケート†1
仕事で始める機械学習,オライリー・ジャパン
• 学術的な中心課題はテスト技術
• ベストプラクティスからガイドライン
そして、パターンへ

24
ベストプラクティスの例（１／２）
従来にない機械学習応用システム特有の要求
n 公平性、コンプライアンス、倫理への考慮が必要
n 差別やデータのバイアスについて考慮する
n 説明可能性の低さへの対応
n 利用者の観点で説明可能性の要求を抽出する
n コンセプトドリフトへの対応
n リリース後の精度が想定ほどでない、時間がたつにつれ精度が低下することを考慮す
る必要あり
n 実現可能性の不確実性への対応
n 事前実験（概念実証：POC）が必要
ビジネス・システム要求との関係
n 推論時間・スループットの制約を明確にする
n ビジネス目標と推論・予測の性能の関係を明確にする
n 必ずしも性能と目標は比例しない
n 機械学習を使った場合の効果を測定する
u A/Bテストが行える場合

25
ベストプラクティスの例（２／２）
データへの要求管理
n データの可視化が重要
n データの量と品質について検討する
n データを増やすために利用できるデータを検討する
n データの十分性（網羅性）、一貫性、正しさについて考慮する
n データの識別と要求が重要
n データの収集、形式、値の範囲
n データの出どころ・素性を理解することが重要
n データ拡張の可能性を検討する
n データの収集・利用時に対する取り扱いに注意する
n 個人情報・GDPR・ライセンスなどへの考慮
その他
n ドメイン知識が重要
n 要求エンジニア、データサイエンティスト、法律者の参加が必要

26
データの品質ガイドライン例
n (a) 学習データの量の十分性
n (a.i) 想定する学習手法の適用前提や統計的観点から十分な量のデータがあるか．
n (a.ii) 想定する要求・適用環境において，希少な状況や分類クラスの偏りがある場合であっても，それらに対して十分な量のデータがあるか．
n (a.iii) データ量が少ない場合，「かさ増し」（人工的なデータ生成など）で補完が可能か．
n (b) 学習データの妥当性
n (b.i) 想定する要求・適用環境に意味の観点から対応した適切なデータとなっているか．
n (b.ii) 要求・適用環境の想定にそぐわないデータが入っていないか．
n (b.iii) 人工的に作成・加工したデータについても，要求・適用環境を適切に表現しているといえるか．
n (b.iv) データの収集等の費用対効果の観点からも適切であるか．
n (c) 学習データの要件適合性
n (c.i) データに関するステークホルダーの要求事項を満たしているか．
n (c.ii) データが満たすべき不変条件や整合性条件，学習対象となる判断の公平性，個人情報の有無など，データに対する制約を満たしているか．
n (d) 学習データの適正性
n (d.i) 潜在的なバイアスや汚染の可能性について，多様なステークホルダーや社会への影響の観点から検討し，データが適切であることを確認した
か．
n (e) 学習データの複雑性
n (e.i) 学習させたい推論機能に対して，必要以上の情報量や傾向を含む複雑なデータとなっていないか．
n (e.ii) データを単純化しすぎて，必要な情報が入っていないことはないか．
n (f) 学習データの性質の考慮
n (f.i) 想定する学習手法の適用前提となるようなデータの性質（多重共線性など）は適切に考慮されているか．
n (g) 学習データの値域の妥当性
n (g.i) データに含まれている値は，対象ドメインの知識などと照らし合わせて現実的に発生する妥当な値となっているか．
n (g.ii) 外れ値と欠損値と判断した値は，真に現実的な値ではなく取り除くべきであることを確認したか．データを取り除くための前処理は適切であった
か．
n (h) 学習データの法的適合性
n (h.i) データの利用が契約や第三者の知的財産権により制限されないか、データの利用に法令上、倫理上の問題はないか、プライバシー等への配
慮が必要ないか．
n (i) 検証用データの妥当性
n (i.i) 学習用データと検証用データは独立しているか．
AIプロダクト品質保証コンソーシアム. (2020). Ai プロダクト品質保証ガイドライン 2020.08版.

27
機械学習応用システム開発・運用のパターン
テスト技術
PoCのパターンパターン
アーキテクチャ
パターン
運用パターン
データに関する
パターン
国立研究開発法人産業技術総合研究所サイバーフィジカルセキュリティ研究センター. (2020). 機械学習品質マネジメントガイ
ドライン. 産業技術総合研究所人工知能研究センター. https://www.cpsec.aist.go.jp/achievements/aiqm/

28
パターンとは？
n ノウハウを「目に見える形」で表現するための技術†
n 解決手順だけではなく、実施する文脈や解決する問題、
結果なども言語化
n 誰もがパターンを選択し、適用できる
n コミュニケーションの道具として使う
n さまざまなソフトウェアパターン
n 分析パターン
n アーキテクチャパターン
n デザイン・コーディングのためのパターン
n プロジェクト管理のためのパターン
† ソフトウェアパターン入門―基礎から応用へ, ソフトリサーチセンター,2005

29
例）Strategyパターン
オブジェクト指向における再利用のためのデザインパターン, ソフトバンククリエイティブ, 1999
https://ja.wikipedia.org/wiki/Strategy_%E3%83%91%E3%82%BF%E3%83%BC%E3%83%B3
別名：Policy
目的：アルゴリズム集合を定義し、各アルゴリズムをカプセル化して、そ
れらを交換可能にする。
動機：アルゴリズムが多数存在する場合に、そのアルゴリズムをクラスに
埋め込みたくない。
適用可能性：関連する多くのクラスが振る舞いのみ異なっている場合
構造：

それでは機械学習工学に関する
パターンをお楽しみください

機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)

Ähnlich wie 機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30) (20)

Mehr von Nobukazu Yoshioka

Mehr von Nobukazu Yoshioka (11)

機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)