Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
1
全脳アーキテクチャ若手の会
第29回勉強会
哲学的人工知能批判と第3次AIブーム
Part 4
「コネクショニズムと汎化」
東京大学大学院 修士1年
全脳アーキテクチャ若手の会 代表
八木 拓真 (@t_Signull)
17/09/04 ...
2
動機:なぜ過去を振り返る必要があるのか
人工知能 (知能や思考のプログラム化) の実現には
心的過程 (心の動きの変化) の理解を要求する
しかしながら我々自身は自分たちの心的過程を
十分理解しているとは言い難く、今後理解できる
ようになる...
3
目次
コネクショニズムと並列分散処理 (PDP)
コネクショニズムとは
並列分散処理 (PDP)
PDPの前提条件
データ駆動科学の勃興
統計的アプローチの黎明と発展
モデルとデータの密接な関係
我々はドレイファスの疑問に応えているのか?
...
4
目次
コネクショニズムと並列分散処理 (PDP)
コネクショニズムとは
並列分散処理 (PDP)
PDPの前提条件
データ駆動科学の勃興
統計的アプローチの黎明と発展
モデルとデータの密接な関係
我々はドレイファスの疑問に応えているのか?
...
5
コネクショニズム
17/09/04 WBA若手の会 第29回勉強会
Connectionist
Neural Network
※個人の解釈です
6
コネクショニズム
ニューラルネットを用いて人間の心の働きを理解し
ようとする認知科学におけるアプローチの一種
ニューラルネット本体はあくまで学習器の一種で
あるのに対し、コネクショニズムではそれを人の
内的過程に当てはめることに違いがある
...
7
心的過程の記述 (1)
17/09/04 WBA若手の会 第29回勉強会
遊星よりの物体S
Sは脚が4本ある
Sは体毛を持つ
Sには愛嬌がある
Sは脊椎動物である
Sは哺乳類である
Sは嗅覚が鋭い
Sは猫ではない
Sは犬である
Sは柴犬である
8
心的過程の記述 (2)
17/09/04 WBA若手の会 第29回勉強会
遊星よりの物体S
耳が2つ
嗅覚が鋭い
とんがり耳
愛嬌がある
v
水が苦手
Sは柴犬 Sは猫 Sは宇宙生物
目が1つ
毛がふさふさ
(1)・(2) の質的な違いはど...
9
PDP (並列分散処理)
[McClelland+ 86]
多数の (暗黙の) 制約を満たしながら認識や行動を遂行
するための計算モデル
知覚、運動制御、記憶検索の過程を自然に記述可能
e.g. 物体認識、リーチング、連想記憶
明示的な規則...
10
例:PDPができること
タイピングにおいては、正しい順番で文字をタイプ
するために、前の文字を打つまで次の文字とその指
の動きを抑制しなければならない
PDPにおいては、上記の運動制御を指・打鍵・言葉
間に発生する活性化・抑制の結果である...
11
PDPの前提条件
1. 並列処理:計算が早く、ロバスト
2. ミクロ構造:あらゆる情報処理は「ユニット」
と呼ばれる原子要素の相互作用によって表現でき
る
3. 結合による記憶:知識は規則ではなく、ユニッ
ト同士の結合重みによって表される...
12
PDPの前提条件
1. 並列処理:計算が早く、ロバスト
2. ミクロ構造:あらゆる情報処理は「ユニット」
と呼ばれる原子要素の相互作用によって表現でき
る
3. 結合による記憶:知識は規則ではなく、ユニッ
ト同士の結合重みによって表される...
13
前提1: 並列処理
直列処理:平易だが非現実的
制約が多い時に記述可能か?処理は終わるのか?
並列処理:神経科学的には現実的
17/09/04 WBA若手の会 第29回勉強会
処理A 処理B 処理C 処理D ・・・
𝑡
処理A-1
処理B...
14
前提2: ミクロ構造
認知科学における重大な疑問:認知の最小単位は
何か?
意味ネットワークにおける「概念」といった
明示的な記述は処理単位として大きすぎる
コネクショニズムでは、処理単位の仮定を置かず、
最小単位として「ユニット」を置く...
15
PDPの前提条件
1. 並列処理:計算が早く、ロバスト
2. ミクロ構造:あらゆる情報処理は「ユニット」
と呼ばれる原子要素の相互作用によって表現でき
る
3. 分散表現:各ユニットが特定の意味を持たず、
集団として意味を持つことを許容す...
16
例:リンゴの想起と知覚
17/09/04 WBA若手の会 第29回勉強会
“りんご”
ユニット
+1.5
+3.0
-2.5
結合重み
(記憶)
http://www.civillink.net/fsozai/eye.html
https...
17
前提3: 結合による記憶と学習
従来の認知計算モデルと異なり、結合重みが知識を
表す
コンピュータのように刺激そのものを記憶に保持す
るのではなく、刺激を受けた結果起こる反応 (運動、
知覚、etc.) を正しく引き出す重みを学習する
例...
18
例:リンゴの想起と知覚
17/09/04 WBA若手の会 第29回勉強会
“りんご”
ユニット
+1.5
+3.0
-2.5
結合重み
(記憶)
“赤”ユニット
“青”ユニット
“丸”ユニット
http://www.civillink.n...
19
前提4:分散表現
ノードは必ずしもある概念に対応している必要は
なく、それは集団として意味を持つ
深層学習においても、隠れ層の中身は規定されて
おらず、タスクに適した表現を獲得することを期
待する -> 表現学習 (representat...
20
分散表現の特長
分散表現の表現力は局所表現に対して豊かで、
概念間の類似度をより適切に定義できる
→詳細は第13回勉強会『言語と画像の表現学習』を参照
(https://www.slideshare.net/yukinoguchi999/...
21
例:リンゴの想起と知覚
17/09/04 WBA若手の会 第29回勉強会
“りんご”
ユニット
+1.5
+3.0
-2.5
結合重み
(記憶)
“赤”ユニット
“青”ユニット
“丸”ユニット
http://www.civillink.n...
22
PDPの前提条件
1. 並列処理:計算が早く、ロバスト
2. ミクロ構造:あらゆる情報処理は「ユニット」
と呼ばれる原子要素の相互作用によって表現でき
る
3. 結合による記憶:知識は規則ではなく、ユニッ
ト同士の結合重みによって表される...
23
前提5: 汎化性能の獲得
PDPは局所的な結合からマクロな構造を発見できる
→汎化 (generalization)
17/09/04 WBA若手の会 第29回勉強会
2組のギャング
(Jet & Shark) の例:
双方向の矢印は興奮...
24
コネクショニズム:まとめ
ニューラルネットを用いて人間の心の働きを理解
しようとする認知科学におけるアプローチの一種
PDPは、知的なタスクを行うニューラルネットの設
計・学習に関する基本的な考え方を示しており、
現在のニューラルネットに...
25
目次
コネクショニズムと並列分散処理 (PDP)
コネクショニズムとは
並列分散処理 (PDP)
PDPの前提条件
データ駆動科学の勃興
統計的アプローチの黎明と発展
モデルとデータの密接な関係
我々はドレイファスの疑問に応えているのか?...
26
大規模データベースの登場
17/09/04 WBA若手の会 第29回勉強会
http://www.vision.caltech.edu/Image_Datasets/Caltech101/
2004
Caltech101 [Fei-Fei...
27
17/09/04 WBA若手の会 第29回勉強会
www.image-net.org/2009
ImageNet [Deng+ 09]
5,000> classes, 3.2×107 samples
28
17/09/04 WBA若手の会 第29回勉強会
www.image-net.org/
2017
JFT-300M [Sun+ 17]
19,000 classes, 3.0×109 samples
29
データ駆動科学の勃興
自然言語処理
統計的機械翻訳 [Brown+ 93]
Word2vec [Mikolov+ 13]
ニューラルネット統計的機械翻訳 [Sutskever+ 14]
画像認識
統計的顔検出 [Sung & Poggio...
30
モデルとデータの密接な関係
規則そのものが知識源であった伝統的AIとは異な
り、コネクショニズムではモデル (結合) とデータ
の両方を同時に考える必要がある
データの仮定なきニューラルネットは数理的には
意味を持つが、実用的なモデルとし...
31
(深層学習に限らない) データ駆動科学アプローチにおいて
は、データの量の増加に対して性能が対数的に増加する現
象が観察されている
→性能を決めるのはモデルだけではない (当たり前?)
良質・大規模のデータは学習器を凌駕する
17/09/...
32
80年代と10年代のコネクショニズム
80年代:”できるはず”
(観念的には) 様々な知的能力を説明できる
局所最適化に基づくアルゴリズムが登場
適切な制約を加えれば汎化する”はず”
10年代:”できてきた”
大規模データベースが登場 (...
33
現代的コネクショニズム
現代的なニューラルネットの目標は、異なるモダリ
ティ間の相互変換を実現することであり、その内部に
高次構造を見出すことである
17/09/04 WBA若手の会 第29回勉強会
Aytar, Y., Vondrick...
34
目次
コネクショニズムと並列分散処理 (PDP)
コネクショニズムとは
並列分散処理 (PDP)
PDPの前提条件
データ駆動科学の勃興
統計的アプローチの黎明と発展
モデルとデータの密接な関係
我々はドレイファスの疑問に応えているのか?...
35
ドレイファスは何を主張したか
17/09/04 WBA若手の会 第29回勉強会
「古き良きAI」に対する主張
完全に形式化されていない全体論的な知識は「世
界の完全な記述」を求める価値観では説明・処理
できない
状況・身体・意図が不可欠の...
36
ドレイファスは何を主張したか
17/09/04 WBA若手の会 第29回勉強会
「古き良きAI」に対する主張
完全に形式化されていない全体論的な知識は「世
界の完全な記述」を求める価値観では説明・処理
できない
状況・身体・意図が不可欠の...
37
制約はどこから来るのか?
コネクショニズムは一般性を持たせるため、結合の制
約に関する条件は規定していないが、実際的に大事な
のはモデルに対する制約のかけ方である
→適切なデータと制約があればNNは汎化する”はず”
17/09/04 WB...
38
モデル構造に関する制約
17/09/04 WBA若手の会 第29回勉強会
Early/Late Fusion
[Karpathy+ 14] 他
Stacked Autoencoder
[Vincent+ 11] 他
http://rude...
39
画像認識における制約の複雑化
17/09/04 WBA若手の会 第29回勉強会
Context Prediciton [Doersch+ 15]
区切られた画像の位置関係を予測
Shuffle & Learn [Misra+ 16]
映像...
40
汎化 (generalization) とは何か?
心理学における汎化:
過去の経験のうち、現在の状況に類似しているものを
利用すること
パターン認識・機械学習における汎化:
(正解を持つ) 訓練データを用いて学習したシステム
が、(同じ...
41
汎化の評価と実現
心理学的指標
般化勾配 (条件付けの過程において)
数理的指標 (モデルの複雑度による評価)
VC次元 [Vapnik 98]
ラデマッハ複雑度 [Bartlett 02]
汎化を起こすには
データ量を増やす
正則化 (...
42
小噺:Detecting tanks
80年代よりまことしやかに伝わる小噺がある:
「昔々、米軍がカモフラージュされた戦車をニューラ
ルネットで自動検知しようとした。研究者は木の中で
カモフラージュされた戦車とただの森の画像をそれぞ
れ1...
43
事の顛末
「調査の結果、研究者の撮影した戦車は全て曇りの日
に撮影されており、ただの森の画像は全て晴れの日に
撮影されていたことが判明した。NNは戦車と森を見分
けたのではなく、晴れの日と曇りの日を正しく見分け
ることを学習したのだ。」
...
44
数理的な汎化の定義は適切か?
そんなことはない
“Understanding deep learning requires rethinking
generalization” [Zhang+ 17]
DNNはサンプル数<パラメータ数でも...
45
汎化の再考:
2回復活したAIが哲学から学ぶこと
コネクショニズムは「汎化」の判断を人間に委ねた
統計的アプローチが汎化誤差最小化の枠組みで成功し、
実用的なNNが出現した今こそ、データ駆動の枠組み
におけるの汎化の再考が求められている
...
46
汎化の再考:
2回復活したAIが哲学から学ぶこと
以上の現状を踏まえて我々ができることは何か?
1. 精緻化:人間が見て望ましい汎化のクラスを定義し、
それを引き出すモデルを追求 ->記号主義の再来?
2. 実用重視:汎化の定義が明確な問...
47
17/09/04 WBA若手の会 第29回勉強会
48
まとめ
現代的コネクショニズムは良質大量のデータの助
けを得て、実用的なパターンtoパターンの相互変換
を実現している
しかしながら、ドレイファスが懐疑として示した
汎化の定義と判定の正当性の不在は、私たちがNN
に知的な機能を持たせるに...
49
Open question
NNの入力と出力はどこからやってくるのか?ユニットに適切
な表現形式は存在するのか? (例えば、文字をユニットの単位
として認めるのは適切か?)
我々の記述しえない能力をNNは持つことができるのだろう
か?
セ...
50
補足:「○○は必要」論について
ドレイファスのAI批判の多くは確かに的を得ていた
が、当時のAI研究者が打ち立てた「知能は計算で記
述できる」というパラダイム自体は、人工知能のみ
ならず認知科学、計算論的神経科学などの諸理論の
発展を促し...
51
参考文献
[辻井 12] 辻井潤一, 『合理主義と経験主義のはざまで―内的な処理の計算モデル―』, 人工知能学会誌, Vol. 27, No.
3, 2012
[Dreyfus & Dreyfus 87] H. L. Dreyfus an...
52
参考文献
[Collobert+ 08] Collobert, R., & Weston, J. (2008, July). A unified architecture for natural language
processing: ...
53
参考Webサイト
深層意味表現学習, https://www.slideshare.net/bollegala/deep-semantic-representations, (2017年8月アクセ
ス)
Datasets Over Alg...
54
Appendix
~ニューラルネットと神経生理学~
17/09/04 WBA若手の会 第29回勉強会
55
ニューラルネットの復習
フィードフォワードNN (主流)
ボルツマンマシン
17/09/04 WBA若手の会 第29回勉強会
単一方向の非線形写像
𝑓 𝒙 = 𝑎2 𝑾 𝟐 𝑎1 𝑾 𝟏 𝒙 + 𝒃 𝟏 + 𝒃 𝟐
入力層 出力層
隠れ層...
56
ニューラルネット (NN) の起源:形態
マカロピッツのモデル (McCulloch & Pitts, 1943)
神経生理学的知見を基に、生物の脳のニューロンの働き
を模したシンプルな計算モデルを提案
→重み付き線形和&ヘビサイド関数 ...
57
ニューラルネット (NN) の起源:学習
ヘブ則 (Hebb, 1949)
脳のシナプス可塑性に関する仮説 (法則)
ニューロンAの発火がニューロンBの発火につな
がった時、A-B間の結合が強まる
LTP (長期増強) などの記憶のメカニ...
58
1943: ニューロンの数理モデル(McCulloch & Pitts)
1949: ヘブ則 (Hebb)
1952: 微分方程式モデル (Hodgkin & Huxley)
1958: パーセプトロン (Rosenblatt)
1967...
Nächste SlideShare
Wird geladen in …5
×

コネクショニズムと汎化 (全脳アーキテクチャ若手の会 第29回勉強会)

2.251 Aufrufe

Veröffentlicht am

第29回全脳アーキテクチャ若手の会「哲学的人工知能批判と第3次AIブーム」Part 4の発表資料です。イベントページ: https://wbawakate.connpass.com/event/64967/

Veröffentlicht in: Wissenschaft
  • Als Erste(r) kommentieren

コネクショニズムと汎化 (全脳アーキテクチャ若手の会 第29回勉強会)

  1. 1. 1 全脳アーキテクチャ若手の会 第29回勉強会 哲学的人工知能批判と第3次AIブーム Part 4 「コネクショニズムと汎化」 東京大学大学院 修士1年 全脳アーキテクチャ若手の会 代表 八木 拓真 (@t_Signull) 17/09/04 WBA若手の会 第29回勉強会
  2. 2. 2 動機:なぜ過去を振り返る必要があるのか 人工知能 (知能や思考のプログラム化) の実現には 心的過程 (心の動きの変化) の理解を要求する しかしながら我々自身は自分たちの心的過程を 十分理解しているとは言い難く、今後理解できる ようになるかも分からない 当面の「前提」を置く必要性 人工知能研究は楽観的前提により2回失敗し、2回 復活した。現在のアプローチはどのような前提の 上に立っているのか?私たちは過去の失敗を繰り 返そうとしていないだろうか? 最後のOpen questionを含め考えてみよう 17/09/04 WBA若手の会 第29回勉強会
  3. 3. 3 目次 コネクショニズムと並列分散処理 (PDP) コネクショニズムとは 並列分散処理 (PDP) PDPの前提条件 データ駆動科学の勃興 統計的アプローチの黎明と発展 モデルとデータの密接な関係 我々はドレイファスの疑問に応えているのか? 汎化 (generalization) とは何か? 汎化の再考―2回復活したAIが哲学から学ぶこと 17/09/04 WBA若手の会 第29回勉強会
  4. 4. 4 目次 コネクショニズムと並列分散処理 (PDP) コネクショニズムとは 並列分散処理 (PDP) PDPの前提条件 データ駆動科学の勃興 統計的アプローチの黎明と発展 モデルとデータの密接な関係 我々はドレイファスの疑問に応えているのか? 汎化 (generalization) とは何か? 汎化の再考―2回復活したAIが哲学から学ぶこと 17/09/04 WBA若手の会 第29回勉強会
  5. 5. 5 コネクショニズム 17/09/04 WBA若手の会 第29回勉強会 Connectionist Neural Network ※個人の解釈です
  6. 6. 6 コネクショニズム ニューラルネットを用いて人間の心の働きを理解し ようとする認知科学におけるアプローチの一種 ニューラルネット本体はあくまで学習器の一種で あるのに対し、コネクショニズムではそれを人の 内的過程に当てはめることに違いがある 80~90年代にかけて、当時の人工知能研究者のみ ならず、認知科学者・哲学者からも大きな反響 コネクショニズムは各分野で洗練され、一時はその 姿を消したものの、実用的な深層学習の登場、タス クの複雑化に伴い我々の前に帰ってきた 17/09/04 WBA若手の会 第29回勉強会
  7. 7. 7 心的過程の記述 (1) 17/09/04 WBA若手の会 第29回勉強会 遊星よりの物体S Sは脚が4本ある Sは体毛を持つ Sには愛嬌がある Sは脊椎動物である Sは哺乳類である Sは嗅覚が鋭い Sは猫ではない Sは犬である Sは柴犬である
  8. 8. 8 心的過程の記述 (2) 17/09/04 WBA若手の会 第29回勉強会 遊星よりの物体S 耳が2つ 嗅覚が鋭い とんがり耳 愛嬌がある v 水が苦手 Sは柴犬 Sは猫 Sは宇宙生物 目が1つ 毛がふさふさ (1)・(2) の質的な違いはどこにあるのだろうか?
  9. 9. 9 PDP (並列分散処理) [McClelland+ 86] 多数の (暗黙の) 制約を満たしながら認識や行動を遂行 するための計算モデル 知覚、運動制御、記憶検索の過程を自然に記述可能 e.g. 物体認識、リーチング、連想記憶 明示的な規則の定式化ではなく、あたかもルールに 従って動くような結合の獲得を目標とする 17/09/04 WBA若手の会 第29回勉強会 J. L. McClellandD. Rumelhart G. E. Hinton
  10. 10. 10 例:PDPができること タイピングにおいては、正しい順番で文字をタイプ するために、前の文字を打つまで次の文字とその指 の動きを抑制しなければならない PDPにおいては、上記の運動制御を指・打鍵・言葉 間に発生する活性化・抑制の結果であるとする 17/09/04 WBA若手の会 第29回勉強会 “v” “e” “r” “y” “Very”Wordユニット Keypressユニット 応答システム
  11. 11. 11 PDPの前提条件 1. 並列処理:計算が早く、ロバスト 2. ミクロ構造:あらゆる情報処理は「ユニット」 と呼ばれる原子要素の相互作用によって表現でき る 3. 結合による記憶:知識は規則ではなく、ユニッ ト同士の結合重みによって表される 4. 分散表現:各ユニットが特定の意味を持たず、 集団として意味を持つことを許容する 5. 汎化性能の獲得:ユニットの活性が本来意図し ないマクロの構造を産出する 17/09/04 WBA若手の会 第29回勉強会
  12. 12. 12 PDPの前提条件 1. 並列処理:計算が早く、ロバスト 2. ミクロ構造:あらゆる情報処理は「ユニット」 と呼ばれる原子要素の相互作用によって表現でき る 3. 結合による記憶:知識は規則ではなく、ユニッ ト同士の結合重みによって表される 4. 分散表現:各ユニットが特定の意味を持たず、 集団として意味を持つことを許容する 5. 汎化性能の獲得:ユニットの活性が本来意図し ないマクロの構造を産出する 17/09/04 WBA若手の会 第29回勉強会
  13. 13. 13 前提1: 並列処理 直列処理:平易だが非現実的 制約が多い時に記述可能か?処理は終わるのか? 並列処理:神経科学的には現実的 17/09/04 WBA若手の会 第29回勉強会 処理A 処理B 処理C 処理D ・・・ 𝑡 処理A-1 処理B-1 𝑡 処理C-1 処理A-2 処理B-2 処理C-2 処理A-3 処理D-3 複数処理が並列実行 され、互いの処理の 影響を受ける あるノードが死んで も動く (ロバスト)
  14. 14. 14 前提2: ミクロ構造 認知科学における重大な疑問:認知の最小単位は 何か? 意味ネットワークにおける「概念」といった 明示的な記述は処理単位として大きすぎる コネクショニズムでは、処理単位の仮定を置かず、 最小単位として「ユニット」を置く 高次の概念はユニットの 組合せより生起・創発する 17/09/04 WBA若手の会 第29回勉強会
  15. 15. 15 PDPの前提条件 1. 並列処理:計算が早く、ロバスト 2. ミクロ構造:あらゆる情報処理は「ユニット」 と呼ばれる原子要素の相互作用によって表現でき る 3. 分散表現:各ユニットが特定の意味を持たず、 集団として意味を持つことを許容する 4. 結合による記憶:知識は規則ではなく、ユニッ ト同士の結合重みによって表される 5. 汎化性能の獲得:ユニットの活性が本来意図し ないマクロの構造を産出する 17/09/04 WBA若手の会 第29回勉強会
  16. 16. 16 例:リンゴの想起と知覚 17/09/04 WBA若手の会 第29回勉強会 “りんご” ユニット +1.5 +3.0 -2.5 結合重み (記憶) http://www.civillink.net/fsozai/eye.html https://ringo-samurai.com/articles/105
  17. 17. 17 前提3: 結合による記憶と学習 従来の認知計算モデルと異なり、結合重みが知識を 表す コンピュータのように刺激そのものを記憶に保持す るのではなく、刺激を受けた結果起こる反応 (運動、 知覚、etc.) を正しく引き出す重みを学習する 例:フィードフォワードNN (バイアスなし) 𝑓 𝒙 = 𝑎2 𝑾 𝟐 𝑎1 𝑾 𝟏 𝒙 𝐸 𝒙, 𝑦 = 1 2 𝑓 𝒙 − 𝑦 2 𝑾𝒊 ← 𝑾𝒊 − 𝛼 𝜕𝐸 𝜕𝑾𝒊 (𝑖 = 1, 2) 17/09/04 WBA若手の会 第29回勉強会 活性 𝒇(𝒙): 計算時に出現 重み 𝑾𝒊: 学習により更新 誤差関数 ネットワーク 更新則
  18. 18. 18 例:リンゴの想起と知覚 17/09/04 WBA若手の会 第29回勉強会 “りんご” ユニット +1.5 +3.0 -2.5 結合重み (記憶) “赤”ユニット “青”ユニット “丸”ユニット http://www.civillink.net/fsozai/eye.html https://ringo-samurai.com/articles/105 視覚入力網膜 分散表現
  19. 19. 19 前提4:分散表現 ノードは必ずしもある概念に対応している必要は なく、それは集団として意味を持つ 深層学習においても、隠れ層の中身は規定されて おらず、タスクに適した表現を獲得することを期 待する -> 表現学習 (representation learning) 17/09/04 WBA若手の会 第29回勉強会 0 0 0 0 1 0 0.01 0.3 0.02 0 0.6 0 局所表現 分散表現
  20. 20. 20 分散表現の特長 分散表現の表現力は局所表現に対して豊かで、 概念間の類似度をより適切に定義できる →詳細は第13回勉強会『言語と画像の表現学習』を参照 (https://www.slideshare.net/yukinoguchi999/ss-59238906) 17/09/04 WBA若手の会 第29回勉強会
  21. 21. 21 例:リンゴの想起と知覚 17/09/04 WBA若手の会 第29回勉強会 “りんご” ユニット +1.5 +3.0 -2.5 結合重み (記憶) “赤”ユニット “青”ユニット “丸”ユニット http://www.civillink.net/fsozai/eye.html https://ringo-samurai.com/articles/105 ? 視覚入力網膜 分散表現
  22. 22. 22 PDPの前提条件 1. 並列処理:計算が早く、ロバスト 2. ミクロ構造:あらゆる情報処理は「ユニット」 と呼ばれる原子要素の相互作用によって表現でき る 3. 結合による記憶:知識は規則ではなく、ユニッ ト同士の結合重みによって表される 4. 分散表現:各ユニットが特定の意味を持たず、 集団として意味を持つことを許容する 5. 汎化性能の獲得:ユニットの活性が本来意図し ないマクロの構造を産出する 17/09/04 WBA若手の会 第29回勉強会
  23. 23. 23 前提5: 汎化性能の獲得 PDPは局所的な結合からマクロな構造を発見できる →汎化 (generalization) 17/09/04 WBA若手の会 第29回勉強会 2組のギャング (Jet & Shark) の例: 双方向の矢印は興奮性 の結合を表す 例えば、Jetユニット を活性化させるだけで、 Jetの年齢層、結婚歴 、学歴の割合を活性の 値から取得できる 入力 活性化 活性化 活性化
  24. 24. 24 コネクショニズム:まとめ ニューラルネットを用いて人間の心の働きを理解 しようとする認知科学におけるアプローチの一種 PDPは、知的なタスクを行うニューラルネットの設 計・学習に関する基本的な考え方を示しており、 現在のニューラルネットにも引き継がれている 17/09/04 WBA若手の会 第29回勉強会 記号主義 コネクショニズム 処理形態 直列処理 並列処理 最小構造 概念 (マクロ構造) ユニット (ミクロ構造) 表現形式 局所表現 分散表現 記憶形式 規則による記述 結合重み 汎化性能の獲得 考慮せず あり 注:上表は比較のためのものであり、記号主義を否定する意図は持たない
  25. 25. 25 目次 コネクショニズムと並列分散処理 (PDP) コネクショニズムとは 並列分散処理 (PDP) PDPの前提条件 データ駆動科学の勃興 統計的アプローチの黎明と発展 モデルとデータの密接な関係 我々はドレイファスの疑問に応えているのか? 汎化 (generalization) とは何か? 汎化の再考―2回復活したAIが哲学から学ぶこと 17/09/04 WBA若手の会 第29回勉強会
  26. 26. 26 大規模データベースの登場 17/09/04 WBA若手の会 第29回勉強会 http://www.vision.caltech.edu/Image_Datasets/Caltech101/ 2004 Caltech101 [Fei-Fei+ 04] 101 classes, 104 samples
  27. 27. 27 17/09/04 WBA若手の会 第29回勉強会 www.image-net.org/2009 ImageNet [Deng+ 09] 5,000> classes, 3.2×107 samples
  28. 28. 28 17/09/04 WBA若手の会 第29回勉強会 www.image-net.org/ 2017 JFT-300M [Sun+ 17] 19,000 classes, 3.0×109 samples
  29. 29. 29 データ駆動科学の勃興 自然言語処理 統計的機械翻訳 [Brown+ 93] Word2vec [Mikolov+ 13] ニューラルネット統計的機械翻訳 [Sutskever+ 14] 画像認識 統計的顔検出 [Sung & Poggio 98] Bag-of-Visual-Words (BoVW) [Csurka+ 04] 深層学習を用いた大規模画像認識 [Krichevsky+ 12] 音声認識 HMM音声認識 [Levinson+ 83] End-to-end音声認識 [Graves & Jaitly 14] 17/09/04 WBA若手の会 第29回勉強会 80年代~90年代に提案、計算機及びモデルの進歩に伴い実用化
  30. 30. 30 モデルとデータの密接な関係 規則そのものが知識源であった伝統的AIとは異な り、コネクショニズムではモデル (結合) とデータ の両方を同時に考える必要がある データの仮定なきニューラルネットは数理的には 意味を持つが、実用的なモデルとしては不適当※ 実世界データには次のような性質が一般的に認め られる (と思われている) [Lin+ 16] 低次相関 (高々4次元) 、相互作用の局所性、対 称性、マルコフ性 17/09/04 WBA若手の会 第29回勉強会 ※:NNの「万能性」として言及されるUniversal Approximate Theorem [Cybenko 89]は訓練データの分布の近似に関する定理であり、汎化誤差 の最小化とは無関係
  31. 31. 31 (深層学習に限らない) データ駆動科学アプローチにおいて は、データの量の増加に対して性能が対数的に増加する現 象が観察されている →性能を決めるのはモデルだけではない (当たり前?) 良質・大規模のデータは学習器を凌駕する 17/09/04 WBA若手の会 第29回勉強会 例1: 語義曖昧性解消 [Banko & Brill 01] 例2: 大規模画像認識ベース の物体検知[Sun+ 17] 3億枚の画像を 50枚のK80を使って 2カ月学習 (7.3年分)
  32. 32. 32 80年代と10年代のコネクショニズム 80年代:”できるはず” (観念的には) 様々な知的能力を説明できる 局所最適化に基づくアルゴリズムが登場 適切な制約を加えれば汎化する”はず” 10年代:”できてきた” 大規模データベースが登場 (e.g. ImageNet) 丸暗記でない、パターンからパターンへの相互変 換が現実的に実現 適切なデータと制約を与えたら汎化”した” 17/09/04 WBA若手の会 第29回勉強会
  33. 33. 33 現代的コネクショニズム 現代的なニューラルネットの目標は、異なるモダリ ティ間の相互変換を実現することであり、その内部に 高次構造を見出すことである 17/09/04 WBA若手の会 第29回勉強会 Aytar, Y., Vondrick, C., & Torralba, A. (2017). See, Hear, and Read: Deep Aligned Representations. arXiv preprint arXiv:1706.00932. Finn, C., Goodfellow, I., & Levine, S. (2016). Unsupervised learning for physical interaction through video prediction. In Advances in Neural Information Processing Systems (pp. 64-72). 画像 音声 言語 分類 状況 音素・形態素 感情価・覚醒度 時系列データ過去・将来 方策位置 高次構造
  34. 34. 34 目次 コネクショニズムと並列分散処理 (PDP) コネクショニズムとは 並列分散処理 (PDP) PDPの前提条件 データ駆動科学の勃興 統計的アプローチの黎明と発展 モデルとデータの密接な関係 我々はドレイファスの疑問に応えているのか? 汎化 (generalization) とは何か? 汎化の再考―2回復活したAIが哲学から学ぶこと 17/09/04 WBA若手の会 第29回勉強会
  35. 35. 35 ドレイファスは何を主張したか 17/09/04 WBA若手の会 第29回勉強会 「古き良きAI」に対する主張 完全に形式化されていない全体論的な知識は「世 界の完全な記述」を求める価値観では説明・処理 できない 状況・身体・意図が不可欠の役割を果たす →身体の役割は第15回『実ロボットの運動生成』を参照 (https://www.slideshare.net/YurikaDoi/doi-63126093) →全体論的に処理するNNは大丈夫そう
  36. 36. 36 ドレイファスは何を主張したか 17/09/04 WBA若手の会 第29回勉強会 「古き良きAI」に対する主張 完全に形式化されていない全体論的な知識は「世 界の完全な記述」を求める価値観では説明・処理 できない 状況・身体・意図が不可欠の役割を果たす →身体の役割は第15回『実ロボットの運動生成』を参照 (https://www.slideshare.net/YurikaDoi/doi-63126093) コネクショニズムに対する懐疑 常識をはじめとした一般的な能力を組み込む際、 汎化を適切に定義・判定できるのか? 我々は設計者の考える汎化の範囲内でしかニュー ラルネットの汎化性能を評価できないのでは? ←今日はこちらに注目 →全体論的に処理するNNは大丈夫そう
  37. 37. 37 制約はどこから来るのか? コネクショニズムは一般性を持たせるため、結合の制 約に関する条件は規定していないが、実際的に大事な のはモデルに対する制約のかけ方である →適切なデータと制約があればNNは汎化する”はず” 17/09/04 WBA若手の会 第29回勉強会 ボルツマンマシン: 大規模かつ実用的な最適化は未だ困難 制限ボルツマンマシン: 結合に制約を持たせることで実用的に 同じ層の素子同士の結合を持たない
  38. 38. 38 モデル構造に関する制約 17/09/04 WBA若手の会 第29回勉強会 Early/Late Fusion [Karpathy+ 14] 他 Stacked Autoencoder [Vincent+ 11] 他 http://ruder.io/multi-task/ Multi-task Learning [Collobert+ 08] 他 Transfer Learning [Yosinski+ 14] https://elix-tech.github.io/ja/2016/07/17/autoencoder.html
  39. 39. 39 画像認識における制約の複雑化 17/09/04 WBA若手の会 第29回勉強会 Context Prediciton [Doersch+ 15] 区切られた画像の位置関係を予測 Shuffle & Learn [Misra+ 16] 映像の自然な順序を判定 Watching objects move[Pathak+ 17] 動き情報を用いた特徴学習 Adversarial feature [Donahue+ 16] 画像→潜在空間への変換をBiGANで学習
  40. 40. 40 汎化 (generalization) とは何か? 心理学における汎化: 過去の経験のうち、現在の状況に類似しているものを 利用すること パターン認識・機械学習における汎化: (正解を持つ) 訓練データを用いて学習したシステム が、(同じ分布から生成された) 未学習のテストデータ に対しても正しい正解を返すこと 予測誤差 𝐸 𝑋,𝑌 ~𝐷[𝑙 𝑓 𝑋 , 𝑦 ]が小さくなること PDPでは後者の意味での指標は明言されていない 同時期の[LeCun, 86] では “The generalization is the ability to produce a correct response for a non learned input pattern.” と表現 (過渡期?) 17/09/04 WBA若手の会 第29回勉強会
  41. 41. 41 汎化の評価と実現 心理学的指標 般化勾配 (条件付けの過程において) 数理的指標 (モデルの複雑度による評価) VC次元 [Vapnik 98] ラデマッハ複雑度 [Bartlett 02] 汎化を起こすには データ量を増やす 正則化 (モデルの自由度を制限) Weight decay (L1/L2 regularization) Dropout/Dropconnect ブースティング (多数の学習器の組み合わせ) 17/09/04 WBA若手の会 第29回勉強会
  42. 42. 42 小噺:Detecting tanks 80年代よりまことしやかに伝わる小噺がある: 「昔々、米軍がカモフラージュされた戦車をニューラ ルネットで自動検知しようとした。研究者は木の中で カモフラージュされた戦車とただの森の画像をそれぞ れ100枚用意し、各50枚の訓練データで学習した。学 習したNNは他方の50枚のテストデータも正しく識別 した。成功だ!しかし、研究者はペンタゴンにその結 果を報告したのち、彼らのNNが全く正しく識別しな いという苦情を受けた。」 →なぜだろう? 17/09/04 WBA若手の会 第29回勉強会
  43. 43. 43 事の顛末 「調査の結果、研究者の撮影した戦車は全て曇りの日 に撮影されており、ただの森の画像は全て晴れの日に 撮影されていたことが判明した。NNは戦車と森を見分 けたのではなく、晴れの日と曇りの日を正しく見分け ることを学習したのだ。」 教訓:NNは必ずしも設計者の期待通り汎化しない 設計者の汎化とNNの汎化が一致する保証はない 数理的な汎化の定義は十分に適切なのか? 17/09/04 WBA若手の会 第29回勉強会
  44. 44. 44 数理的な汎化の定義は適切か? そんなことはない “Understanding deep learning requires rethinking generalization” [Zhang+ 17] DNNはサンプル数<パラメータ数でも十分に学習 ラベルをランダム化したDNNの学習実験より、従 来型の汎化の定義 (モデルの複雑度) ではDNNの汎 化性能を説明できないことを実証 各種正則化も汎化性能の決め手ではない 追検証の論文はあるが [Krueger+ 17][Hoffer+ 17] [Wu+ 17] [Kuzborskij & Lampert 17]、様々な仮説が入り乱れて いる状況 -> どれもデータに注目していない印象… 17/09/04 WBA若手の会 第29回勉強会
  45. 45. 45 汎化の再考: 2回復活したAIが哲学から学ぶこと コネクショニズムは「汎化」の判断を人間に委ねた 統計的アプローチが汎化誤差最小化の枠組みで成功し、 実用的なNNが出現した今こそ、データ駆動の枠組み におけるの汎化の再考が求められている 画像分類は大成功を収めたが、この先我々が期待するタ スクにも同じ成功は待っていてくれるだろうか? 「語りえぬもの」の画像・映像生成 ノンバーバルコミュニケーションと情動 未知の事物・状況に対する自然な応答 道徳的判断 私たちは一元的な汎化の定義に頼りすぎなのではないか? 17/09/04 WBA若手の会 第29回勉強会
  46. 46. 46 汎化の再考: 2回復活したAIが哲学から学ぶこと 以上の現状を踏まえて我々ができることは何か? 1. 精緻化:人間が見て望ましい汎化のクラスを定義し、 それを引き出すモデルを追求 ->記号主義の再来? 2. 実用重視:汎化の定義が明確な問題のみを取り扱う -> その汎化は本当に明確か? 3. 不干渉:人間の判断の割合をなるべく小さくする (教師 ありから強化学習、教師なし学習へ) 4. 生物を再現:汎化を考えず、生物の構造や原始的な働 きを粛々と模倣 -> 全脳エミュレーション? 5. 再考不要:このような問題など存在しない?詭弁? 17/09/04 WBA若手の会 第29回勉強会
  47. 47. 47 17/09/04 WBA若手の会 第29回勉強会
  48. 48. 48 まとめ 現代的コネクショニズムは良質大量のデータの助 けを得て、実用的なパターンtoパターンの相互変換 を実現している しかしながら、ドレイファスが懐疑として示した 汎化の定義と判定の正当性の不在は、私たちがNN に知的な機能を持たせるにあたって暗い影を落と している 既存の汎化の定義に弱点があることを認め、モデ ルとデータにどのような関係性を期待するのかを 事例ごとに真摯に考えることが、将来のAIを推し 進める出発点となるのではないか 17/09/04 WBA若手の会 第29回勉強会
  49. 49. 49 Open question NNの入力と出力はどこからやってくるのか?ユニットに適切 な表現形式は存在するのか? (例えば、文字をユニットの単位 として認めるのは適切か?) 我々の記述しえない能力をNNは持つことができるのだろう か? センサとアクチュエータにあたるユニットだけ定義すれば、 人間の内的過程にあたるものが本当に中間層に出現するのだ ろうか?その根拠をどう持たせるべきか? 汎化のクラスは有限か?汎化の記述と規則の記述は同一の無 限退行に陥らないだろうか? 物理的性質の異なるコンピュータで、人間の脳および身体に 制約された機構を絞り込むことは可能なのか?針穴にラクダ を通すような作業なのではないか? 17/09/04 WBA若手の会 第29回勉強会
  50. 50. 50 補足:「○○は必要」論について ドレイファスのAI批判の多くは確かに的を得ていた が、当時のAI研究者が打ち立てた「知能は計算で記 述できる」というパラダイム自体は、人工知能のみ ならず認知科学、計算論的神経科学などの諸理論の 発展を促したという点で極めて重要である 計算による実証が可能な現代においては、「○○が 必要」(身体、文脈、環境との相互作用、脳構造、 ベイズ、etc.) という言及はもはや実質的な意味を 持たず、○○を含む系が計算によって運用可能であ るかどうかに焦点が置かれるべきである 参考:[安西 88] 17/09/04 WBA若手の会 第29回勉強会
  51. 51. 51 参考文献 [辻井 12] 辻井潤一, 『合理主義と経験主義のはざまで―内的な処理の計算モデル―』, 人工知能学会誌, Vol. 27, No. 3, 2012 [Dreyfus & Dreyfus 87] H. L. Dreyfus and S. E. Dreyfus, 『純粋人工知能批判』, アスキー出版局, 1987,椋田直 子訳 [黒崎 90] 黒崎政男, 『ミネルヴァのふくろうは世紀末を飛ぶ テクノロジーと哲学の現在』, 弘文堂, 1990 [Brown+ 93] Brown, P. F., Pietra, V. J. D., Pietra, S. A. D., & Mercer, R. L. (1993). The mathematics of statistical machine translation: Parameter estimation. Computational linguistics, 19(2), 263-311. [Sung & Poggio 98] Sung, K. K., & Poggio, T. (1998). Example-based learning for view-based human face detection. IEEE Transactions on pattern analysis and machine intelligence, 20(1), 39-51. [Fei-Fei 04] L. Fei-Fei, R. Fergus and P. Perona. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories. IEEE. CVPR 2004, Workshop on Generative-Model Based Vision. 2004 [Deng+ 09] Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009, June). Imagenet: A large- scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on (pp. 248-255). IEEE. [Lin+ 16] Lin, H. W., Tegmark, M., & Rolnick, D. (2016). Why does deep and cheap learning work so well?. Journal of Statistical Physics, 1-25. [Banko & Brill 01] Banko, M., & Brill, E. (2001, July). Scaling to very very large corpora for natural language disambiguation. In Proceedings of the 39th annual meeting on association for computational linguistics (pp. 26-33). Association for Computational Linguistics. [Zhou+ 17] Zhou, B., Lapedriza, A., Khosla, A., Oliva, A., & Torralba, A. (2017). Places: A 10 million image database for scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence. [Sun+ 17] Sun, C., Shrivastava, A., Singh, S., & Gupta, A. (2017). Revisiting unreasonable effectiveness of data in deep learning era. arXiv preprint arXiv:1707.02968. 17/09/04 WBA若手の会 第29回勉強会
  52. 52. 52 参考文献 [Collobert+ 08] Collobert, R., & Weston, J. (2008, July). A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning (pp. 160-167). ACM. [Yosinski+ 14] Yosinski, J., Clune, J., Bengio, Y., & Lipson, H. (2014). How transferable are features in deep neural networks?. In Advances in neural information processing systems (pp. 3320-3328). [LeCun 86] Y. LeCun: Learning Processes in an Asymmetric Threshold Network, in Bienenstock, E. and Fogelman-Soulié, F. and Weisbuch, G. (Eds), Disordered systems and biological organization, 233-240, Springer-Verlag, Les Houches, France, 1986 [Cybenko 89] Cybenko., G. (1989) "Approximations by superpositions of sigmoidal functions", Mathematics of Control, Signals, and Systems, 2 (4), 303-314 [Vapnik 98] Vapnik, V. N., & Vapnik, V. (1998). Statistical learning theory (Vol. 1). New York: Wiley. [Bartlett 02] Bartlett, P. L., & Mendelson, S. (2002). Rademacher and Gaussian complexities: Risk bounds and structural results. Journal of Machine Learning Research, 3(Nov), 463-482. [Krueger+ 17] Krueger, D., Ballas, N., Jastrzebski, S., Arpit, D., Kanwal, M. S., Maharaj, T., ... & Courville, A. (2017). Deep Nets Don't Learn via Memorization. [Hoffer+ 17] Hoffer, E., Hubara, I., & Soudry, D. (2017). Train longer, generalize better: closing the generalization gap in large batch training of neural networks. arXiv preprint arXiv:1705.08741. [Kuzborskij & Lampert 17] Kuzborskij, I., & Lampert, C. (2017). Data-Dependent Stability of Stochastic Gradient Descent. arXiv preprint arXiv:1703.01678. [Wu+ 17] Lei Wu, Zhanxing Zhu and Weinan E. Towards Understanding Generalization of Deep Learning: Perspective of Loss Landscapes. ICML 2017 Workshop. [安西 88]安西祐一郎. (1988). 認識の情報科学への計算論的アプローチ (< 連載>「AI における論争」[第 4 回]). 人 工知能学会誌, 3(3), 248-256. [Karpathy+ 14] Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., & Fei-Fei, L. (2014). Large- scale video classification with convolutional neural networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 1725-1732). 17/09/04 WBA若手の会 第29回勉強会
  53. 53. 53 参考Webサイト 深層意味表現学習, https://www.slideshare.net/bollegala/deep-semantic-representations, (2017年8月アクセ ス) Datasets Over Algorithms, http://www.spacemachine.net/views/2016/3/datasets-over-algorithms, (2017年 9月3日アクセス) Learning from Web-scale Image Data For Visual Recognition, http://www.vision.ee.ethz.ch/webvision/files/webvision2017/slides_Chen.pdf, (2017年9月4日アクセス) 17/09/04 WBA若手の会 第29回勉強会
  54. 54. 54 Appendix ~ニューラルネットと神経生理学~ 17/09/04 WBA若手の会 第29回勉強会
  55. 55. 55 ニューラルネットの復習 フィードフォワードNN (主流) ボルツマンマシン 17/09/04 WBA若手の会 第29回勉強会 単一方向の非線形写像 𝑓 𝒙 = 𝑎2 𝑾 𝟐 𝑎1 𝑾 𝟏 𝒙 + 𝒃 𝟏 + 𝒃 𝟐 入力層 出力層 隠れ層 真に”全結合”なネットワーク 確率的に発火 𝐸 𝑥 = ෍ 𝑖,𝑗 𝑊𝑖𝑗 𝑥𝑖 𝑥𝑗 + ෍ 𝑖 𝜃𝑖 𝑥𝑖
  56. 56. 56 ニューラルネット (NN) の起源:形態 マカロピッツのモデル (McCulloch & Pitts, 1943) 神経生理学的知見を基に、生物の脳のニューロンの働き を模したシンプルな計算モデルを提案 →重み付き線形和&ヘビサイド関数 (ただし学習せず) 17/09/04 WBA若手の会 第29回勉強会 http://wwwold.ece.utep.edu/research/webfuzzy/docs/kk-thesis/kk-thesis-html/node12.html
  57. 57. 57 ニューラルネット (NN) の起源:学習 ヘブ則 (Hebb, 1949) 脳のシナプス可塑性に関する仮説 (法則) ニューロンAの発火がニューロンBの発火につな がった時、A-B間の結合が強まる LTP (長期増強) などの記憶のメカニズムの原始 的な形として後に実証される また、Hebbはcell assemblies (細胞集積体) と呼 ばれる、複数の細胞が1つの刺激に対して互いに発 火するという概念を打ち立てた →ニューラルネットは生物の脳の働きに起源を持つ 17/09/04 WBA若手の会 第29回勉強会
  58. 58. 58 1943: ニューロンの数理モデル(McCulloch & Pitts) 1949: ヘブ則 (Hebb) 1952: 微分方程式モデル (Hodgkin & Huxley) 1958: パーセプトロン (Rosenblatt) 1967: 誤差逆伝播法の原型 (甘利俊一) 1969: 小脳パーセプトロン仮説 (Marr & Albus) 1979: ネオコグニトロン (CNNの原型) (福島邦彦) 1986: 並列分散処理 (PDP) (Rumelhart & McClelland), 誤差逆伝播法の確立 (Rumelhart & Hinton) 1989: 畳み込みニューラルネット (CNN) (LeCun) → 神経科学の進歩と共に着実に進展、洗練 17/09/04 WBA若手の会 第29回勉強会 80年代にかけてのNNの進化

×