AI2: Safety and Robustness Certification of Neural Networks with Abstract Interpretation
1. XX for ML 論文読み会 #1
AI2: AI Safety and Robustness
with Abstract Interpretation
http://qav.cs.ox.ac.uk/FLoC/Vechev.pdf
@tanimocchi
※本スライドは個人的なものであり、所属組織とは無関係です。
2. 自己紹介:車載Security(暗号学超々初心者)のヒト
XX for ML 論文読み会 #1 2
◼ Twitter ID: @tanimocchi (もっちぃ)
◼ 修士(数学)、博士(情報科学)
◼ 所属: Rの付く半導体
◼ 仕事: 車載Security(産業も)
➢ FLP不可能性とCAP定理(2011年改定証明付き版)がバッチリあてはま
る何もかもが超不安定な非同期ネットワーク向けの、Over-the-Airサービ
ス実現(?)を指向したHW/SW Safety&Security、暗号プロトコル、等。
✓ ここ最近の開発案件は、逆アセとか
3. 目次
XX for ML 論文読み会 #1 3
▪論文の主題:Security for ML ページ 04
▪抽象解釈技法 ページ 07
▪検証手法概要 ページ 16
▪学習手法概要 ページ 23
▪所感 ページ 29
▪参考文献 ページ 31
4. 論文の主題:Security for ML [1/3]
攻撃 攻撃内容 論文リンク
① 敵対的サンプル
(Evasion,Adversa
rial Examples)
入力に対してノイズ(摂動)を与え
る事で、テスト時に訓練されたモ
デルが誤ったクラスに分類させる
https://arxiv.org/abs/
1412.6572
https://arxiv.org/abs/
1802.00420
② Causative攻撃
(Poisoning)
モデル訓練時に誤ったラベルデー
タを与えテスト時分類を誤らせる
https://arxiv.org/abs/
1708.08689
③ モデル反転 モデルから、人間が認識できる形
で認識対象に対する情報を抽出
https://openreview.ne
t/pdf?id=SJOl4DlCZ
④ メンバシップ推定 特定の個人のデータが使われたか
否かの推定(差分プライバシー)
https://www.usenix.o
rg/node/184490
下記表①への対策となる学習手法と学習結果の検証手法が述べられている。
XX for ML 論文読み会 #1 4
5. 論文の主題:Security for ML [2/3]
XX for ML 論文読み会 #1 5
◼ 想定する脅威モデル(論文には陽に記載されていない)
➢ White-Box:敵対的サンプル [“大抵成功する”がこれまでの研究結果]
✓ 攻撃者は、モデルの構造とパラメータを知っている
✓ Adaptive Adversary:攻撃者は、対策に対する知識あり/なし (どちらか選択)
✓ Perturbation Bound:距離尺度による摂動に限界あり/なし (どちらか選択)
➢ Black-Box:https://arxiv.org/abs/1602.02697 [DNNに暗号プリミティブの性質なし]
✓ 攻撃者はモデルの構造とパラメータを知らないが、対象DNNへの選択平文攻撃が可能
• 即ち、任意の入力に対する判別結果(どのクラスかの情報のみ)を取得可能
✓ Adaptive Adversary:攻撃者は、対策に対する知識なし
✓ Perturbation Bound:距離尺度による摂動の限界なし(??)
◼ 満たすべき安全性(論文には陽に記載されていない)
➢ 理想的には、White-Box攻撃を前提として、攻撃者が利用可能な摂動範囲
内であれば、誤判別せず正しい判別結果を返す高精度モデルの生成。
➢ 現実的には、White/Black-Box攻撃に係わらず、誤判別を抑止可能な摂動
範囲を持つ高精度モデルの生成。 あれ??えっと……
6. 論文の主題:Security for ML [3/E]
◼ 超要約
➢ FNNとCNN(活性関数としてReLUのみ使用)に対して、
➢ BoxやZonotopeを用いた抽象解釈技法(Abstract Interpretation)を適
用し、入力+摂動の上界領域に対するFNN/CNN出力を上界領域で近似し、
➢ その上界領域が”正解ラベルとなるかを検証”、”正解ラベルとなるよう学習”
◼ 抽象解釈技法(Box, Polyhedron, Zonotope)
➢ Abstract interpretation frameworks
https://ropas.snu.ac.kr/~kwang/520/readings/absint/Cousot-JLC-1992.pdf
◼ 検証手法
➢ AI2: Safety and Robustness Certification of Neural Networks with Abstract
Interpretation https://ieeexplore.ieee.org/document/8418593/
https://www.cs.rice.edu/~sc40/pubs/ai2.pdf ← これが分かり易い気がする。
◼ 学習手法
➢ Differentiable Abstract Interpretation for Provably Robust Neural Networks
http://proceedings.mlr.press/v80/mirman18b/mirman18b.pdf
XX for ML 論文読み会 #1 6
7. 抽象解釈技法(Abstract Interpretation) [1/5]
◼ 概要
➢ プログラムの入力集合に対する性質(プロパティ)が満たされるか否かを、プ
ログラムを直接実行する事なく検証する技術。
➢ 形式的には、関数 f : 𝒎 → 𝒏、入力集合 X ∈ 𝒎、プロパティ C ∈ 𝒏 と
して、∀ഥ𝒙 ∈X. f ഥ𝒙 ∈C が成立つか否かを、関数 f を X の各要素に対して直
接実行する事なく検証する技術。
◼ 関数のリフト(Lift of Function)
➢ 関数 f を、入力集合 X を直接扱うためにLift。関数の型定義のようなもの。
XX for ML 論文読み会 #1 7
𝑻 𝒇 : P 𝒎
→ P 𝒏
, concrete transformer
ഥ𝒙 ∈ 𝐗 ↦ 𝑻 𝒇 𝐗 = 𝒇 ഥ𝒙 |ഥ𝒙 ∈ 𝐗
f : 𝒎 → 𝒏
∈
∈
ഥ𝒙 ↦ 𝒇 ഥ𝒙
∈
∈
Lift 依然として具体的な入力集合
を直接扱っている!
30. 所感:Safety Critical Systemでは利用困難 [2/E]
◼ 機能安全やセキュリティの対策での勘所
➢ 事業リスクの明確化と、それに至る脅威や脆弱性、及び対策案の列挙
✓ 入力画像の誤判別が事業リスクそのものとなる事は、恐らくレアケース
➢ 重要な暗黙の仮定は、勘所となる脅威はその発生が検知可能である事。
✓ PID制御では、エラー信号と基準信号をコンパレータで比較し検知
• (脅威となる)エラーを検知可能としたまま、ロバスト制御を導入
✓ 無理と判れば、縮退運用など決まった手順・運用で、安全確保が可能
➢ Neural Networkは概ね教えた通りに働いてくれる良い子なので、
① 可能であれば、拾い食いしないよう適切に監視・管理すべき
② “おかしなものを食べた”という事実を如何に検知するかが重要
Ex1. マルチセンシングでの多数決判定による対策
Ex2. 自動運転であれば、登録3D地図との齟齬検知による対策
• 但し、3D地図配送では結果整合性保証が恐らく限界なので、ゼロデイ攻撃の可能性あり
③ 少々おかしなものを食べてても大丈夫な体になる(ロバスト性向上)より
は、①や②が優先されるべき。何も言わずに突然の誤判別は辛過ぎる。
XX for ML 論文読み会 #1 30
31. 参考文献 [1/4]
◼ 主要論文とスライド
1. Martin Vechev, "AI2: AI Safety and Robustness with Abstract Interpretation",
Summit on Machine Learning meets Formal Mwthods, 13th July 2018.
http://qav.cs.ox.ac.uk/FLoC/Vechev.pdf
2. Timon Gehr, Matthew Mirman, Dana Drachsler-Cohen, Petar Tsankov, Swarat
Chaudhuri, and Martin Vechev, "AI2: Safety and Robustness Certification of
Neural Networks with Abstract Interpretation", In Proc. of IEEE Symposium on
Security and Privacy (SP), 2018.
https://ieeexplore.ieee.org/document/8418593/
https://www.cs.rice.edu/~sc40/pubs/ai2.pdf
3. Matthew Mirman, Timon Gehr, and Martin Vechev, "Differentiable Abstract
Interpretation for Provably Robust Neural Networks", In Proc. of ACM ICML,
2018. http://proceedings.mlr.press/v80/mirman18b/mirman18b.pdf
XX for ML 論文読み会 #1 31
32. 参考文献 [2/4]
◼ 抽象解釈
4. Patrick Cousot and Radhia Cousot, "Abstract interpretation frameworks", Journal
of Logic and Computation, No.2, Vol.4, pp.511-547, August 1992.
https://ropas.snu.ac.kr/~kwang/520/readings/absint/Cousot-JLC-1992.pdf
5. Khalil Ghorbal, Eric Goubault, and Sylvie Putot, "The Zonotope Abstract Domain
Taylor1+", In Proc of International Conference on Computer Aided Verification
(CAV), 2009.
http://www.lix.polytechnique.fr/Labo/Khalil.Ghorbal/publi/ghorbal-cav09.pdf
6. Eric Goubault, Tristan Le Gall and Sylvie Putot, "An Accurate Join for Zonotopes,
Preserving Affine Input/Output Relations", Electronic Notes in Theoretical
Computer Science, 2012.
http://www.lix.polytechnique.fr/Labo/Sylvie.Putot/Publications/nsad12.pdf
XX for ML 論文読み会 #1 32
33. 参考文献 [3/4]
◼ 敵対的サンプル
7. Ian J. Goodfellow, Jonathon Shlens, and Christian Szegedy, "Explaining and Harnessing
Adversarial Examples", arXiv preprint, arXiv:1412.6572, 2014.
https://arxiv.org/abs/1412.6572
8. Anish Athalye, Nicholas Carlini, and David Wagner, "Obfuscated Gradients Give a False
Sense of Security: Circumventing Defenses to Adversarial Examples", In Proc of ACM
ICML, 2018. https://arxiv.org/abs/1802.00420
9. Kexin Pei, Yinzhi Cao, Junfeng Yang, and Suman Jana. "Deepxplore: Automated Whitebox
Testing of Deep Learning Systems", In Proc. of the 26th Symposium on Operating
Systems Principles (SOSP), pp.1-18, 2017.
http://www.cs.columbia.edu/~junfeng/papers/deepxplore-sosp17.pdf
10. Nicolas Papernot, Patrick McDaniel, Ian Goodfellow, Somesh Jha, Z. Berkay Celik, and
Ananthram Swami, "Practical Black-Box Attacks against Machine Learning", In Proc. of
ACM Asia Conference on Computer and Communications Security, 2017.
https://arxiv.org/abs/1602.02697
11. Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian
Vladu, "Towards Deep Learning Models Resistant to Adversarial Attacks", In Proc. of ICML
2017 Workshop on Principled Approaches to Deep Learning, 2017.
https://arxiv.org/abs/1706.06083 https://www.padl.ws/papers/Paper%2019.pdf
XX for ML 論文読み会 #1 33
34. 参考文献 [4/E]
◼ Causative攻撃
12.Luis Munoz-Gonzalez, Battista Biggio, Ambra Demontis, Andrea Paudice, Vasin
Wongrassamee, Emil C. Lupu, and Fabio Roli, "Towards Poisoning of Deep
Learning Algorithms with Back-gradient Optimization", In Proc. of the 10th ACM
Workshop on Artificial Intelligence and Security (AISec), pp.27-38, 2017.
https://arxiv.org/abs/1708.08689
◼ モデル反転
13.Kosuke Kusano, and Jun Sakuma, "Classifier-to-Generator Attack: Estimation of
Training Data Distribution from Classifier", In Submission to ICLR, 2018.
https://openreview.net/pdf?id=SJOl4DlCZ
◼ メンバシップ推定
14.Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin, David Page, and
Thomas Ristenpart, "Privacy in Pharmacogenetics: An End-to-End Case Study of
Personalized Warfarin Dosing", In Proc. of the 23rd USENIX Security Symposium,
2014. https://www.usenix.org/node/184490
XX for ML 論文読み会 #1 34