Weitere ähnliche Inhalte Mehr von Takanori Ogata (15) 20210108 Tread: Circuits4. 今回調査した記事
• Zoom In: An Introduction to Circuits
• An Overview of Early Vision in InceptionV1
• Curve Detectors
• Naturally Occurring Equivariance in Neural Networks
6. Zoom In: An Introduction to Circuits
概要
• ニューロンとその接続性を研究することで、NNの重みに意味
のあることができるのではないか、という研究(記事?)
• ニューロンとその接続(Circurits)に対して、3つの推測的な主
張を⽴ててその妥当性を説明しようとしている
• (Circuits Threadの全体像や触りの部分の説明)
8. Zoomed in
• NNに関しても、可視化とZoom inによって新しい分野を拓くこ
とができるのではないか?
• 解釈可能性に関するほとんどの研究は、NN全体の動作を簡単
に説明することを⽬的としている
• -> 神経科学や細胞⽣物学に触発されたアプローチ、つまりズームイン
するアプローチをとるとしたら?
• 個々のニューロンや重みをトレース
調査するとどうなるか?
• この⼊⾨エッセイでは考え⽅の概要と
これらの研究動作原理をこの記事で説明
Andrej+, ICLR2016
9. Three Speculative Claims
• 例)現代の細胞説のもととなった、 1839年 によって提唱された
Schwannの3つの主張
• Claim 1
• 細胞は、⽣物の構造、⽣理学、組織の単位
• Claim 2
• 細胞は、⽣物の構築において、別個の実体および構成要素としての⼆重の存
在を保持
• Claim 3
• 細胞は、結晶の形成と同様に、⾃由細胞の形成によって形成
• (間違っていることが判明しているらしい)
これを参考にNNに当てはめるとどうなるのか?
10. Three Speculative Claims about Neural Networks
• Claim 1: Features(特徴)
• NNの基本単位、⽅向( 特定の層のニューロンの活性化のベクトル空間にお
ける⽅向ベクトル )に対応し、厳密に調査でき理解が可能
• Claim 2: Circuits(回路)
• Featuresは重みによって形成され、Circuitsを形成される
• これらのCircuitsも厳密に調査でき理解が可能
• Claim 3: Universality(普遍性)
• 類似の機能と回路は、モデルとタスク全体で形成される
• 1と3に沿った主張は以前に提案されており、完全に新しいものでは
ないが、これらが証明されれば 解釈可能性の新しい「Zoom in」分
野の基礎を形成する可能性がある
11. Claim 1: Features
• NNは、意味のある、理解しやすい機能で構成されている(と
いう仮説)
• 初期のレイヤーにはエッジ・カーブ検出器のような機能が含まれ、後
段には⽿やホイールの検出器などの機能が含まれている
• ただしコミュニティでは⾮常に議論が割れている
• ⼊⾨エッセイでは、説明に役⽴つと思われるいくつかの例の概
要のみを説明
• InceptionV1から例を取り上げて解説
• 今の所⼀般的に当てはまると考えているが、普遍性に関しては最後の
セクションで説明
12. Example 1: Curve Detectors
• 曲線検出ニューロンはすべての重要な資格モデルに⾒られ、コ
ミュニティが広く同意している機能(エッジ検出器など)と、
かなりの懐疑論がある機能(⽿、⾃動⾞、顔などの⾼レベルの
機能)の間の境界にまたがっている
• InceptionV1のmixed3bの曲線検出器に焦点を当てると
• 半径約60pxの曲線と境界に反応
• 曲線の境界に沿った垂直線によってわずかにさらに励起
• 曲線の両側が異なる⾊であるとよく反応する
13. Example 1: Curve Detectors
• カーブを使⽤したサブコンポーネントを検出するユニットも多
数ある(円、スパイラル、Sカーブ、砂時計の形状、3D曲率な
ど)
• 線や鋭い⾓などの曲線関連の形状に対応するユニットもあり、
これらのユニットをカーブ検出器とは⾒なさない
14. Example 1: Curve Detectors
• これらの”曲線検出器”は本当に曲線に反応しているのか?
• *後の記事にて詳細な調査を⾏うが、根拠は⾮常に強⼒であると考え
ている
• 機能を理解するために、概説する7つの議論を⾏う
• 3つは視覚神経科学の古典的な⽅法、3つは回路に基づいている
18. Example 2: High-Low Frequency Detectors
• 曲線検出器は機能が直感的
• ⾼低周波数検出器は直感的ではない機能の⼀つ
• 受容野の⽚側で低周波パターンを、反対側で⾼周波パターンを検出
• -> なぜこのような機能が構築されているのか?
• オブジェクトの境界を検出するための経験則の1つと推測
• (後の記事An Overview of Early Vision in InceptionV1で紹介)
19. Example 3: Pose-Invariant Dog Head Detector
• より⾼レベルの機能のユニットを考察(イッヌ)
• 特徴の視覚化とデータセットの例の組み合わせだけでも、すで
に⾮常に強⼒な説明⼒がある
• 3Dモデルを使⽤して、さまざまな⾓度から⽝の頭の合成画像を
⽣成することで調査可能
• => アプローチのいくつかは⾼レベルな機能調査に多⼤な労⼒が
必要だが、Circuits-Basedアプローチ(後述)だと簡単に適⽤
可能で居⼒なツールとして利⽤可能
22. Claim 2: Circuits
• ネットワーク内のすべてのニューロンは、前の層のニューロン
とそれに続くReLUの線形結合から形成
• 両⽅のレイヤーの機能を理解できれば、それらの間のつながりも理解
できるのでは?
• ネットワークの重み(Circutis・回路)を紐解けばアルゴリズムが
読み取ることが出来る
• 調査したところ、対称性や綺麗な構造を発⾒できた
23. Circuit 1: Curve Detectors
• 曲線検出器は、弱い曲線検出器と線検出器から実装されている
• 3Dジオメトリおよび複雑な形状の検出器を作成するために上位レイ
ヤーで利⽤
24. Circuit 1: Curve Detectors
• 弱い曲線検出器が洗練された曲線検出器になる例
• 5x5の畳み込みを実装
• 正または負の場合がある
• 重みをみることで、曲線検出器が以前の曲線検出器を使⽤して
「接線曲線」を探していることを意味すると考える事ができる
25. Circuit 1: Curve Detectors
• 同様の⽅向にある初期および完全曲線検出器のすべてのペアに
当てはまる
• 正の重みで励起・負の重みで抑制
26. Circuit 2: Oriented Dog Head Detection
• 曲線検出回路は低レベルの回路、2つの層にのみまたがっている
• 4つの層にまたがる⾼レベルの回路の例(⽝)を紹介
• ImageNetには100種類の⽝が存在 -> 専⽤ニューロンが多数存在
27. Circuit 2: Oriented Dog Head Detection
• 左向きと右向きの⽝の頭を処理するニューロンのコレクションが存在
• 3つのレイヤーにわたって、2つのミラー化された経路を維持
• 左右を向いている類似のユニットを検出
• 各ステップで、これらの経路は互いに抑制、コントラストを鮮明に
• 最後に、両⽅の経路に応答する不変ニューロンを作成
28. Circuit 2: Oriented Dog Head Detection
• このパターンを「ケースの結合」と呼ぶ
• ネットワークは2つのケース(左と右)を別々に検出し、それ
らを結合して不変の「多⾯的」を作成
• 2つの経路が互いに抑制し合うため、この回路には実際には
XORのような特性がある
29. Circuit 2: Oriented Dog Head Detection
• ニューロン間のすべての接続は畳み込みであるため、⼊⼒
ニューロンが次のニューロンを励起する場所を確認することで
きる
• 「頭と⾸」のユニットの例をみると、頭は正しい側でのみ検出
される
30. Circuit 2: Oriented Dog Head Detection
• ケースの結合の例
• 同時に頭部の2つの⽅向には応答せず、励起領域は、⽅向に応
じて中⼼から異なる⽅向に広がり、⿐が同じポイントに収束
31. Circuit 3: Cars in Superposition
• InceptionV1のmixed4cには⾞を検出するニューロンが存在
• 前レイヤーの機能(窓・⾞体・タイヤ)を組み合わせて⾞を検
出
32. Circuit 3: Cars in Superposition
• しかしながら、次の層では純粋な⾞の検出器を作成するのでは
なく、他のものを検出するような機能になっている様に⾒える
• ⾞検出の機能を⽝の検出器が活⽤?
33. Circuit 3: Cars in Superposition
• この回路は、多意味ニューロンが、ある意味で意図的であることを⽰唆
• ⾞や⽝を検出するプロセスが何らかの理由でモデルに深く絡み合っている?
• 結果、多意味ニューロンを回避することが困難になっている?
• => モデルに「純粋なニューロン」があり、それを他の機能と混ぜ合わせたとも⾔
える
• この現象を重ね合わせ(superposition)と呼ぶ
重ね合わせによりニューロンが節約され、より重要なタスクを説いている
のでは? という仮説
=> ⾞と⽝が共起しなければ、後段で⽝の特徴のみを捉えられる?
35. Claim 3: Universality
• NNで⾃然画像を学習すると、初期層にガボールフィルターが
現れることは広く受け⼊れられている事実
• 他の層にもこういった意味のある共通機能が現れるか?(普遍性)
• 機能の普遍性(Universality)(または収束学習/convergent
learning )は様々なNNが相関性の⾼いニューロンを学習でき
ることが⽰されている[Li+ ICLR2016]
• 更に隠れ層で類似の表現を学習するという先⾏研究も
[Kornblith+, arXiv2019]
• ⽑⽪のテクスチャ検出器と⽝の体の検出器の2つの機能は、重要な異な
る機能であるにもかかわらず、⾼度に相関している
36. Claim 3: Universality
• 理想的には、いくつかの機能を特徴付け、それらの機能(相関
する機能だけでなく)が多くのモデルにわたって形成されてい
ることを厳密に⽰したい
• 次に、類似の回路が形成されることをさらに確⽴するために、
複数のモデルの複数の層にわたって類似の特徴を⾒つけ、各モ
デル間に同じ重み構造が形成されることを⽰したい
• -> 多⼤な時間を要するため⼗分に調査できておらず、まだ確か
な根拠は⽰せない
37. Claim 3: Universality
• しかしながら様々なモデル(AlexNet、InceptionV1、
InceptionV3、ResNet等)をImageNet及びPlace365で学習さ
せると同じような機能が形成されていることは確認でき、ゼロ
から学習させても同じような機能が形成されることは確認済
38. Claim 3: Universality
• これらの結果から普遍性の仮説が正しい可能性は⾼いと考えている
• しかしながら、⾒かけ上の普遍性に例外が否かはさらなる調査が必要
• 普遍性の仮説がNNで広く真実であることが判明した場合様々なメ
リットが考えられる
• 神経科学と深層学習の繋がりの理解など
• 回路の研究という観点で普遍性は本当に必要なのか?
• 最初の2つと⽐べると、特に仮説が成り⽴たなくても致命的ではない
• 普遍性仮説は、回路研究のどの形式が理にかなっているのかを決定
する要因にはなる
• モデル間での「視覚的特徴の周期表」の作成ができる
• 誤りであれば、⼀つづつの社会的に重要なモデルに関して紐解くしかない
43. An Overview of Early Vision in InceptionV1
• 「ニューロングループ」分類されたInceptionV1の最初の5層の
ガイド付きツアー
44. An Overview of Early Vision in InceptionV1
• ⼊⼒に近い層は機能がシンプルでニューロンの数が少ない
• 機能が普遍的である可能性が⾼く、異なるアーキテクチャとタスク間で同
じ機能と回路を形成する
• -> 初期レイヤーの 1,056個のニューロンのみを検討することで理解を深め
る
• 全部⼿作業で多⼤な時間がかかるため絞っているが、意外と解析するには⼗分な数
だった、らしい
45. Playing Cards with Neurons
• かの有名なDmitri Mendeleevは、カードに各要素の詳細を書き、
それらを分類および整理するさまざまな⽅法を⾟抱強く試⾏錯
誤することで、周期表を発⾒したと、よく⾔われる
• ニューロンファミリーでも同じようなことをすることで周期性
や規則性を発⾒できないか?という取り組み
• ガボールフィルターや⾊コントラスト検出器が最初の層に現れる、な
ど
• これらを⼀般化できないか?
46. Playing Cards with Neurons
• この記事では、InceptionV1の最初の5層にあるユニットの
ニューロンファミリーの分類についてNetDissect [Bau+,
CVPR2017]の分類を参考に説明
• ニューロンを事前定義された機能のセットと相関させ、⾊、テクス
チャ、オブジェクトなどのカテゴリにグループ化
• スケーラブルな反⾯、事前定義では真の機能を⾒逃す可能性もある⽋
点もあるが、全部⾒るのは不可能なので⼀旦これで
• 注意書き
• ⼤まかな概要であり、カテゴリーの誤解も含まれる可能性もある
• カテゴリの境界は曖昧なこともある
48. Presentation of Circuits
• 回路の動作理解のために、前の層で最も強い重み(L2Norm)を持
つユニットとそれらの間の重みを可視化
• ニューロンの特徴の視覚化をクリックして、最も接続されている前
の層の50個のニューロンに対する重みを確認できる(URL参照)
https://storage.googleapis.com/distill-circuits/inceptionv1-weight-explorer/mixed3a_175.html
58. Black & White Detectors
• mixed3a以前の層では、⾊コントラスト検出器は、⻘と⻩⾊などの対⽐を
⾏っていた
• この層以降はそれらを組み合わせて、⾊がある・ない場合と⽐較する⾊検
出器がよく⾒られるようになる
• ⽩黒検出器もその⼀種
• ほとんどすべてが負であり、⾊がないことを検出
• NOT(color_feature_1 OR color_feature_2 OR ...)のようなイメージ
60. Triangle Detectors
• line (conv2d2) とshifted line (conv2d2)の組み合わせで三⾓形
が形成される
• これらの三⾓形検出器は、マルチエッジ検出器または凸状の境
界を検出するため組み合わせて使⽤される事が多い
74. A Simplified Story of Curve Neurons
• 活性化を持ち、ImageNetの空間位置のわずか10%に応答して発⽕
• 通常は発⽕しても応答は弱い
• 強く発⽕をする場合は、特徴の視覚化と同様の⽅向と曲率を持つ曲線に応答
76. A Simplified Story of Curve Neurons
• Causality(因果関係)
• 曲線と相関する刺激ではなく、曲線を真に検出する。「逆に実⾏すると」曲線が⽣
成されるため、機能の視覚化と帰属の視覚化の実験によって因果関係が確⽴される
と考えている。
• Generality(⼀般性)
• 広範囲の半径に対してカバーしており、⾊・明暗・テクスチャなどの外⾒属性に対
して不変である。Syntheticな刺激に対してこれらの普遍性を⽰すことは説得⼒のあ
る根拠であると考える。
• Purity(純度)
• Curve Detectorは複数の意味を持ち合わせず⼆次的な機能がない。様々なActivation
の⼤きさによるデータセットの例を分類し、可視化することで⼆次的な機能が稀で
あることを⽰す。(次回の記事で深堀り)
• Family
• 曲線ニューロンは、曲線のすべての⽅向に集合的に広がる
80. Dataset Analysis
• 画像のキルトは誤解を招く可能性もある
• 画像のReceptive-fieldのトリミングに対するニューロンの活性化は単
⼀の数値であるため、画像のどの部分がそれを引き起こしたのかを確
認することはできず、その結果疑似相関に騙される可能性もある
• 例えば、3b:379を最も強く発⽕させる画像の多くは時計であるため、
ニューロンは曲線でなく時計を検出するものと考えることもいえる
• 画像がニューロンを興奮する理由を確認するために、特徴の可
視化を利⽤して画像のニューロンへの帰属を可視化できる
81. Visualizing Attribution
• NNの帰属を明らかにする既存研究は多い
• これらの⽅法はどのpixelもしくは以前のニューロンが発汗原因であるかを説
明しようとする
• 線形の場合、⼀般的に帰属は同意されている
• ニューロンのPre-activationとbias値はその前のニューロンの線形関
数であるため、⼀般的に合意された帰属⽅法を使⽤可能
• 特に3bの活性化前の値の曲線検出器は3aの線形関数であり、影響度合いの帰
属テンソルはActivationに重みをかけたもの
• 可視化の際は下記の式を利⽤
• ポジティブネガティブ両⽅の反応を可視化(abs)
• 実際にはAttributionの可視化をグレースケールでパラメーター化しより読み
やすくしている。
83. Human Comparison
• データセット画像から情報を抽出するために、ニューロンの活性化⾃体を⾒ずに
画像を⼿作業で分類
• 著者の⼀⼈であるNickは⼿動で800枚以上の画像を4つのグループに分割し、ラ
ベリング
• 3b:379から⼀定数の画像を100binごとにランダムにサンプリング
• Nickは画像のピクセルのみをみて下記のルーブリックによりアノテーション
を⾏った(ニューロンのActivationやVisualizationは⾒ない)
• 4種類のラベル
• Curves: ニューロンの特徴の可視化と同等の⽅向の曲線の含まれる画像で、
曲線は画像の⼤部分を横切っている。
• Imperfect Curve: 上記に似ているが、少なくとも1つ⽋陥がある。例えば、
平坦すぎたり、円弧を遮る⾓度があったり、⽅向がずれていたり。
• Unrelated: 画像に曲線が含まれていない。
• Opposing Curve: 画像には、ニューロンの特徴の視覚化と45度以上異なる曲
線が含まれている。
86. How important are different points on
the activation spectrum?
• チャートは⼿作業でラベリングされたものを⽐較することには
役⽴だつが、、、
• 3b:379は曲線に対してとても選択的であるように⾒えるが、
ニューロンが発⽕するケースは極稀
• 殆どの場合発⽕せず、発⽕したとしても反応は⾮常に微弱
87. How important are different points on
the activation spectrum?
• ImageNetのexampleに対して、Activation Magunitudeの確率
密度を⾒る
• 活性化マグニチュード当たり(x軸)の⽐率に分割
正直わからん
88. How important are different points on
the activation spectrum?
• グラフより、ニューロンが強く発⽕するケースは稀
• 画像の中で明確な曲線はめったに起こらないので強い発⽕は稀
• 確率密度がニューロンの振る舞いについて考える正しい⽅かどう
かというのは明らかではない
• ケースの⼤部分はニューロンが発⽕しない
• ラベル付のエラーと曲線の希少性が原因というということも考えられる
89. How important are different points on
the activation spectrum?
• 代替⼿段として、期待値への寄与率x * p(x)を考える
• 活性化値がニューロンの出⼒にどの程度影響するか、拡張ネットワー
クの動作によって概算を与えると考えることができる
90. How important are different points on
the activation spectrum?
• 期待値の寄与は、曲線と不完全な曲線が55%を形成
• これは、3b:379が曲線検出器であるという仮説と⼀致しているようみえる
• 発⽕させる他の刺激はラベル付エラー及びノイズの多い画像がニューロン
のmisfireと考えられる
多分ここの面積なぞのひょっこり
Post-activationの平均寄与?
それともマイナスも含む?
91. How important are different points on
the activation spectrum?
• 実験結果から、3b:379は⼈間によるラベル付けの判断にほぼ対
応しているように⾒える
• さらに画像の帰属ベクトルを可視化することで、発⽕する理由は
画像の曲線によるものであり、擬似相関ではないことが分かる
• しかし、これらの実験は曲線ニューロンが曲線画像を検出という
主張には不⼗分
• 曲線画像がデータセットに含まれることはめったに無いため、曲線画像
を体系的に調査する必要あり
次の実験ではこの問題に直接焦点を当て、曲線ニューロンが妥当
な曲線画像空間にどう反応するかを研究
92. Joint Tuning Curves
• 同じ機能で⾓度違いのものを実際
に検出することを確認し、各ユ
ニットが向きの変化にどの程度敏
感であるかを特徴づける実験
• 各ニューロンには、その優先⽅向
を囲むガウスのような隆起がある
• 各ニューロンが発⽕を停⽌すると、
別のニューロンが発⽕を開始し、
曲線のすべての⽅向に広がる
93. Joint Tuning Curves
• Turing Curveは画像の摂動全体に
対するニューロンの活性化を測定
するのに役⽴つが、実⾏可能な摂
動の種類によって制限される
• 次の実験では⼈⼯的な刺激をレン
ダリングすることでより広範囲な
摂動を⾏う
96. Why do we see wispy triangles?
• 三⾓の形状は、曲線検出器が曲率の⾼い曲線のより広い範囲の
⽅向に応答することを⽰している
• 曲率が⼤きければ⼤きいほど反応する⾓度を含んでいる
• 直線には曲線の⽅向が含まれておらず、円にはすべての曲線の⽅向が
含まれていると考えると良い
97. Why do we see wispy triangles?
• ⽅向または曲率のわずかな変化がアクティベーションの劇的な
変化を引き起こす可能性があることを⽰している
• 曲線検出器は繊細で堅牢ではないことを⽰している
98. Why do we see wispy triangles?
• たった2つの変数によって、ほとんど知覚できない摂動が明ら
かになる
• ⾼次元のピクセル空間に有害なエクスプロイトが含まれていることを
⽰しているのではないか?
• 特有の敵対的攻撃を深く研究する研究の⽅向性も⾒えそう?
• Circuits * 初期ビジョンの研究に向いている
• 回路全体を⼊⼒に戻すことがしやすい
• 回路の重要な部分を抽出して個別に研究できる
• => ニューロンをより堅牢にする⽅法、モデル全体を敵対的な攻撃から
保護する⽅法の⼿がかりを与える可能性も⾒えてくる
100. Synthetic Angles
• synthetic curveの実験とdataset analysisの両⽅によって、曲
線は⽅向に敏感だた曲線の半径に対して許容範囲が広いことが
わかった
• 曲線ではなく、実際には⽅向に関して多くの形状に応答すると考える
可能性がある
• 次の実験では、合成曲線と同様に合成⾓度を変化させる
113. Repurposing Curve Detectors
• ⼀例として曲線検出を調査したが、航空写真、⾃動運転⾞、医
学研究などの分野で曲線検出が重要
• 各ドメインにおいて曲線検出に関する古典的な幅広い⽂献が存在
• カーブニューロンファミリーを活⽤してこれらを検出するプロ
トタイプを作成
114. Repurposing Curve Detectors
• 1つのタスクは曲線の抽出
• 視覚化により、線と曲線が明確に分離されて照らされ、視覚的なアーティ
ファクトが少なくなる
• ただし、強⼒なコーミング効果(曲線に対する垂直な線)
• 回路を編集することで取り除くことができると考えている
• 特にこのプロトタイプが既存⼿法より優れているわけではないが回路の活
⽤の可能性を⽰した
119. The Combing Phenomenon
• 曲線に垂直な外内両⽅に現れている線 => コーミング(Combing)
• コーミングはImageNetだけでなくPlaces365でトレーニングされ
たモデルを含む、多くのモデルの曲線検出器で発⽣
• マカクザルの視野覚のV4領域にも現れることがわかっている
120. The Combing Phenomenon
• いくつかの仮説はあるが⽴証はされていない
• 現代の社会にある曲線はホイールのスポークや時計のメモリなど
垂直な線が含まれていることが多い、という仮説が挙げられる
• また、 ⽑⽪の検出に利⽤されているという仮説もある
121. The Combing Phenomenon
• 画像が単⼀の繰り返しテクスチャではなく、コントラストで囲
まれた強い線があるということを検出している可能性
• 接線に沿った平⾏線を弱く抑え込んでいる?
• コーミングはカーブに固有のものではなく、直線にも現れてい
る
mixed3a
125. Equivariance in Neural Networks
• NNの中には対象性のある機能(同じ機能だが回転・拡⼤縮
⼩・反転・異なる⾊に対して反応するもの)が⾃然と形成され
る
• 同変(equivariance)と呼ぶ
• ニューロンを切り替えることが⼊⼒を変換することと同義
• 同変は、システム⽣物学のモチーフに類似した⼀種の「回路モ
チーフ(Circuit Motif)」と⾒なすことができる
• この同変について具体的機能を例に解説
• 本記事ではImageNetで学習されたInceptionV1に焦点をあてる
が、その他いくつかのモデルに関しても同変を確認できた
128. Equivariant Features
• Hue Equivariance / ⾊相同変
• 異なる⾊相で同じ形を検出する
• color center-surrounはその周囲の反対の⾊相検出
• InceptionV1では、7-8番⽬の層まで現れている
129. Equivariant Features
• Hue-Rotation Equivariance / ⾊相回転同変
• color contrast unitは⽚⽅づつの⾊相を検出 -> ⾊相と回転を検出
• ⾊相を180度回転させるとフィルタを180度回転させることと同義になる
• 図の例では、⽅向は360度回転しているが、⾊相は180度しか回転してい
ないことを⽰している