Start
Entdecken
Suche senden
Hochladen
Einloggen
Registrieren
Anzeige
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Melden
Deep Learning JP
Folgen
Deep Learning JP
6. Jan 2023
•
0 gefällt mir
1 gefällt mir
×
Sei der Erste, dem dies gefällt
Mehr anzeigen
•
1,936 Aufrufe
Aufrufe
×
Aufrufe insgesamt
0
Auf Slideshare
0
Aus Einbettungen
0
Anzahl der Einbettungen
0
Check these out next
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
全力解説!Transformer
Arithmer Inc.
1
von
29
Top clipped slide
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
6. Jan 2023
•
0 gefällt mir
1 gefällt mir
×
Sei der Erste, dem dies gefällt
Mehr anzeigen
•
1,936 Aufrufe
Aufrufe
×
Aufrufe insgesamt
0
Auf Slideshare
0
Aus Einbettungen
0
Anzahl der Einbettungen
0
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Melden
Technologie
2023/1/6 Deep Learning JP http://deeplearning.jp/seminar-2/
Deep Learning JP
Folgen
Deep Learning JP
Anzeige
Anzeige
Anzeige
Recomendados
Transformer メタサーベイ
cvpaper. challenge
25.8K Aufrufe
•
181 Folien
グラフニューラルネットワーク入門
ryosuke-kojima
46.7K Aufrufe
•
65 Folien
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
3K Aufrufe
•
24 Folien
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
13.9K Aufrufe
•
38 Folien
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
56K Aufrufe
•
43 Folien
最適輸送入門
joisino
8.2K Aufrufe
•
88 Folien
Más contenido relacionado
Presentaciones para ti
(20)
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
•
2.2K Aufrufe
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
•
2.2K Aufrufe
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
•
14.7K Aufrufe
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
•
3.6K Aufrufe
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
•
3K Aufrufe
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
•
9.7K Aufrufe
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
•
3.4K Aufrufe
全力解説!Transformer
Arithmer Inc.
•
7.3K Aufrufe
猫でも分かるVariational AutoEncoder
Sho Tatsuno
•
129.7K Aufrufe
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
•
28.2K Aufrufe
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
•
6.5K Aufrufe
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
•
3.3K Aufrufe
GAN(と強化学習との関係)
Masahiro Suzuki
•
80K Aufrufe
深層学習の数理
Taiji Suzuki
•
78.3K Aufrufe
モデル高速化百選
Yusuke Uchida
•
24K Aufrufe
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
•
3.8K Aufrufe
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
Deep Learning JP
•
1.1K Aufrufe
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
•
65K Aufrufe
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP
•
5.6K Aufrufe
Optimizer入門&最新動向
Motokawa Tetsuya
•
22K Aufrufe
Más de Deep Learning JP
(20)
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
•
656 Aufrufe
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
•
1K Aufrufe
【DL輪読会】GPT-4Technical Report
Deep Learning JP
•
800 Aufrufe
【DL輪読会】Emergent World Representations: Exploring a Sequence ModelTrained on a...
Deep Learning JP
•
184 Aufrufe
【DL輪読会】Reward Design with Language Models
Deep Learning JP
•
542 Aufrufe
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
Deep Learning JP
•
233 Aufrufe
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
Deep Learning JP
•
161 Aufrufe
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
Deep Learning JP
•
320 Aufrufe
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
Deep Learning JP
•
741 Aufrufe
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
•
1K Aufrufe
【DL輪読会】Segment Anything
Deep Learning JP
•
1.7K Aufrufe
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
Deep Learning JP
•
232 Aufrufe
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
Deep Learning JP
•
401 Aufrufe
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
Deep Learning JP
•
226 Aufrufe
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
Deep Learning JP
•
316 Aufrufe
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
Deep Learning JP
•
330 Aufrufe
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Deep Learning JP
•
445 Aufrufe
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
•
587 Aufrufe
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
Deep Learning JP
•
1.1K Aufrufe
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
Deep Learning JP
•
698 Aufrufe
Anzeige
Último
(20)
留信网认证可查【拜欧拉大学文凭证书毕业证购买】
1lkjhg
•
3 Aufrufe
SoftwareControl.pdf
ssusercd9928
•
6 Aufrufe
①【戴尔豪斯大学毕业证文凭学位证书|工艺完美复刻】
love445ds
•
2 Aufrufe
20230523_IoTLT_vol99_kitazaki_v1.pdf
Ayachika Kitazaki
•
99 Aufrufe
GitHub Copilotとともに次の開発体験へ
Kazumi IWANAGA
•
15 Aufrufe
①【威斯康星大学麦迪逊分校毕业证文凭学位证书|工艺完美复刻】
C25lokh12
•
3 Aufrufe
ネットワークパケットブローカー市場.pdf
HinaMiyazu
•
3 Aufrufe
ペンタエリスリトール市場.pdf
HinaMiyazu
•
3 Aufrufe
統計学の攻略_推測統計学の考え方.pdf
akipii Oga
•
28 Aufrufe
シン3次元表示装置 ーその1ー
Takashi Yamanoue
•
126 Aufrufe
第2回Matlantis User Conference_20230421_畠山歓先生
Matlantis
•
357 Aufrufe
突如登場したAzure Developer CLIでなにができるのか?検証してみる
Kazumi IWANAGA
•
27 Aufrufe
☀️【中央兰开夏大学毕业证成绩单留学生首选】
25mjhd12
•
4 Aufrufe
ヘッドレス化したbaserCMS5とその機能
Ryuji Egashira
•
10 Aufrufe
SoftwareControl.pdf
ssusercd9928
•
15 Aufrufe
初学者のためのプロンプトエンジニアリング実践.pptx
Akifumi Niida
•
251 Aufrufe
☀️【卡尔顿大学毕业证成绩单留学生首选】
15sad
•
2 Aufrufe
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
オラクルエンジニア通信
•
25 Aufrufe
①【麦吉尔大学毕业证文凭学位证书|工艺完美复刻】
love445ds
•
2 Aufrufe
本科/硕士《德国雷根斯堡大学毕业证成绩单》
nxj1dsa
•
3 Aufrufe
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ The Forward-Forward Algorithm: Some Preliminary Kensuke Wakasugi, Panasonic Holdings Corporation. 1
書誌情報 2 タイトル: The Forward-Forward
Algorithm: Some Preliminary 著者: Geoffrey Hinton(Google Brain) URL: https://www.cs.toronto.edu/~hinton/FFA13.pdf その他: 同論文の内容について、12月のNeurISP2022でKeynote Speech 選書理由 NeurIPSでの講演を聞き、誤差逆伝搬を使わない方法に興味を持ったため。 大学時代に、神経細胞の培養をしていた経験もあり、生体に則した仕組みにも期待。
目次 3 1. Back Propagation(BP)の問題 2.
Forward-Forward Algorithm(FFA) 3. FFを用いた実験 4. CIFAR10での実験 5. Contrastive learningとの関連性 6. 早い学習と遅い学習 7. FFとアナログ学習 8. Mortal Computation
目次 4 1. Back Propagation(BP)の問題 2.
Forward-Forward Algorithm(FFA) 3. FFを用いた実験 4. CIFAR10での実験 5. Contrastive learningとの関連性 6. 早い学習と遅い学習 7. FFとアナログ学習 8. Mortal Computation
Back Propagationの問題 5 Forward Path Backward
Path Loss Data 深層学習では誤差逆伝搬で成功しているが、脳の皮質でそれが行われている証拠はな い ? ■BPを皮質で行う場合の課題 • Lossの導関数を伝達したり、forward時の状態を 記憶しておく必要がある • 特に、後段の関数についての完全な情報を 前段に伝える必要がある これら課題を回避する方法としてFFを提案 ₋ 正/負の信号(のようなもの)で学習 ₋ 性能では、同程度か少し劣る ₋ 省電力にメリット
Forward-Forward Algorithm 6 新たにNegative Data、goodnessを導入し、FFでの学習を実現 Forward
Path Positive Data Forward Path Backward Path Loss Data Forward Path Negative Data Good ness Good ness ■BPを皮質で行う場合の課題 • Lossの導関数を伝達したり、forward時の状態を 記憶しておく必要がある • 特に、後段の関数についての完全な情報を 前段に伝える必要がある ■FFでの学習 • 前後のgoodnessの微分で学習(正負で逆方 向) • goodness:例えば、activityの二乗和 • 正負の情報は、top-down接続か、外部から伝 達 BP(再掲) FF ↑Goodness ↓Goodness
FFで多層を学習する際の工夫 7 Forward Path Positive Data Forward Path Negative Data Good ness Good ness
• ローカルな情報で学習が完結(BP不要) • BPで得られる情報の代わりとして、 正例/負例データを利用.単純には2値判別として 扱う • ある層で、二値判別ができてしまうと、後段では何も学 習しない →伝搬時に、ノルムで正規化 層毎にgoodnessで学習。伝達時に、ノルムで正規化し、多様な特徴を獲得。
目次 8 1. Back Propagation(BP)の問題 2.
Forward-Forward Algorithm(FFA) 3. FFを用いた実験 4. CIFAR10での実験 5. Contrastive learningとの関連性 6. 早い学習と遅い学習 7. FFとアナログ学習 8. Mortal Computation
FFを用いた実験 9 ■検証データ: MNIST(permutation-invariant) train 5万、val 1万、
test 1万 ■ベースライン CNN:0.6% 4FC・2000ReLU:1.4%、20epoch (1.1% with 正則化) FFにおける2つの課題点: 適切な正負データがある場合に学習できる 適切な負データはどうやって得られるか データをMNIST、NNを4FC・2000ReLUとしたときの予測性能1.4%をベースライ ンとして採用 FC4層 ReLU2000個
ハンドクラフトの負例データ 10 二つの数字をマスクで合成し、負例データとして利用 ■生成方法の意図: 文字の形状を学習させるため、正例に対し、近距離相関が高く、遠距離相関が低いデータを作成し負例とし ■生成方法 ランダム画像に対し、繰り返しブラー処理をかけ、最終的に閾値0.5で二値化画像を得る 上記生成データを適切な負例データとして、 FFが学習できるか検証
教師なし学習での性能 11 FC4層 ReLU2000個 画像 Positive Data Negative Data 予測性能 Epoch baseline 1.4%
20 FC 1.37% 100 局所受容野※ 1.16% 60 softmax goodnessを集めて、softmaxの入力とし、 教師あり学習 ※1つ目の隠れ層を入力に用いると性能悪化とのこと ※weight shareではない 教師なし学習した後、goodnessを入力として教師あり学習。同等の性能 教師あり
教師あり学習での性能 12 FC4層 ReLU2000個 画像 with label Positive Data Negative Data 予測性能 Epoch baseline
1.4% 20 FC 1.36% 60 FC(lr×2) 1.46% 40 softmax goodnessを集めて、softmaxの入力とし、 教師あり学習 ※画像端10pixelsに上書き 教師あり ■負例、テスト時のラベルの入れ方 負例: 正解以外のラベル or 平均値0.1 (後者のほうが学習が3倍早い?) テスト: 10通りForward計算し、goodnessの累積最大を予測として採用 or 平均値0.1を付与し、得られたgoodnessからsoftmax経由で 正解/不正解ラベルを入力に含めることで、学習が加速。
受容野の可視化 13 予測性能 Epoch baseline CNN 0.6% ? jitter※
0.64% 500 ※±2pixels、合計25倍のデータで学習 jitterデータで学習すると、エッジ特徴を学習
知覚におけるトップダウン効果のモデル化 14 入力を動画とみなし、時間遅れでのトップダウン伝達も考慮 FC 2 or
3層 ReLU2000個 画像 Positive Data Negative Data ■学習 1回目は一方向に計算。計8回の更新実施 前ステップ0.3、現ステップ0.7で足して計算(振動抑 制) ※事前実験で10step、偶奇交互更新も検証? ※負例の頻度は、その予測確率に比例させると学習が効 率化 ■テスト 10labelsそれぞれで、8回の更新実施。 予測性能 Epoch baseline 1.4% 20 top-down 1.31% 60
空間的文脈に基づく予測の教師としての利用 15 ■議論(section 3.5) 学習時には上位/下位レイヤーからの情報が合致することが要請 される? ※goodness最小化を目的とする場合、相殺を要請 ※上位レイヤーからの空間的文脈を学習に反映させる方法がなく、 単に整合させようとしてもうまくいかないらしい ※負例データの活用がカギ? ■個人的な考察 上位レイヤーには正規化後の情報しか伝わらないので、 正規化後の情報と、ノルムのコンセンサスを要求されており、 低次~高次情報全体での整合性を獲得できたということ? FFでは上位/下位の整合が取れる?
CIFAR-10での実験 16 局所受容野(11x11x3) 2 or 3層 ReLU 32 x 32 x 3個 画像 Positive Data Negative Data BPより少し劣るが、FFでも学習可能 ■学習 1回目は一方向に計算。計10回の更新実施 ■テスト 4-6回分のgoodnessから予測 あるいは、one
pathでのsoftmax
sequenceの学習 17 ■検証データ: イソップ童話、100文字×248文。 文字種30種:小文字26個+スペース、コンマ、セミコロン、ピリオド →30クラス分類 ■学習: 最初10文字を文脈として与え、残り90文字を生成・予測する 正例:正解データ10文字 負例:10文字目がモデルの予測値(正解を除く?) あるいは、11文字目以降のすべて予測値 ※データ数:90文字×248文字=22,320文字 文字列 Positive Data Negative Data FC3層 ReLU2000個 モデルの予測値を負例として学習
sequenceの予測性能 18 ■比較条件 青:重みをランダムで固定、softmaxだけ学習 赤:正例/負例を交互に学習 黒:正例/負例を同時に ■議論 ・ランダムより性能向上 ・正例/負例は同時に考慮しなくてもいい →オフライン学習・睡眠学習ができる シーケンスも学習可能。正例/負例は同時に学習しなくてもいい
目次 19 1. Back Propagation(BP)の問題 2.
Forward-Forward Algorithm(FFA) 3. FFを用いた実験 4. CIFAR10での実験 5. Contrastive learningとの関連性 6. 早い学習と遅い学習 7. FFとアナログ学習 8. Mortal Computation
その他のContrastive learningとの関連 20 ■ボルツマンマシン 更新則が、データについての期待値と、モデルについての期待値の差 →誤差伝搬せずとも重みの更新が可能 覚醒/睡眠に対応するとも考えられるが、 data/modelを同期させないと学習がうまくいかない ■議論 数式的にはきれいなので、うまく生かしたいところだが、できていない。 一方で、contrastive divergenceなどのように、モデルの期待値(負例)は、 必ずしもデータをモデル分布からサンプリングする必要はない。 FFでは、エネルギーの代わりにgoodnessを採用して簡素化することで、tractableに ボルツマンマシンのdata/model期待値と、正例/負例が対応。FFのほうがtractable
その他のContrastive learningとの関連 21 ■GAN 生成器:FFのNNそのものに対応 識別機:FFの各レイヤーのgoodnessを使った識別機に対応 ※GANの特殊ケースとみなせる ■議論 各レイヤーに識別機を持つので、BPが不要。 FFを生成モデルとして扱うためには、隠れ層の情報からデータを生成する必要がある。 →(この論文では示されていないが)、線形変換+softmaxでできれば、BP不要。 また、生成器と識別器が同じ表現を使うので、mode collapseも回避。 Positive Data Negative Data FFはGANの特殊ケース。識別器をgoodnessとして各レイヤーに持った形。
その他のContrastive learningとの関連 22 SimCLRと比較して、実ニューロンでの実現性はFFが有利。データ効率向上のためブ ロック化。 [1] Chen,
T., Kornblith, S., Norouzi, M., & Hinton, G. (2020, November). A simple framework for contrastive learning of visual representations. In International conference on machine learning (pp. 1597-1607). PMLR. https://arxiv.org/pdf/2002.05709.pdf 参考:[1] SimCLR ■SimCLR 異なる二つの入力の内部表現を一致させる →実ニューロンで実現させる方法は自明でない FFの方が、簡単。 弱点は、学習に多くの画像ペアが必要なこと 100万枚あっても20bitの情報しかない ※BP相当の微分方向を得ようとしても、 20次元分しか得られないということ? ■FF 異なる入力に対して、一致した場合に活性化するように学習 データ効率の悪さは、SimCLRと同じか、より悪い。 →対策として、層をブロック化して、それぞれでgoodnessの 閾値処理を行わせる。 ※1データで得られる情報が、ブロック数bitになる
stacked contrastive learningの問題 23 ■Restricted
Boltzmann /stacked autoencoders レイヤーごとに学習をする方法がある →ただし、ランダム重みでも、隠れ層で相関がでる(NN構造由来の相関?) ■どう回避するか もともとのRBMでは、異なる条件で得られた二つの統計量を比較することで、 構造由来の相関をキャンセルしていた。 FFでは、正例/負例がその役割を担っている 学習方法によってはデータに関係のない情報を学習するが、正例/負例の利用でそれ を回避
目次 24 1. Back Propagation(BP)の問題 2.
Forward-Forward Algorithm(FFA) 3. FFを用いた実験 4. CIFAR10での実験 5. Contrastive learningとの関連性 6. 早い学習と遅い学習 7. FFとアナログ学習 8. Mortal Computation 9. Future work
早い学習と遅い学習 25 goodnessによる学習は、後段への出力を変化させないため、同時並行で学習可能 ■FFでの重みの更新量 ■導出: 対数尤度を重みで微分 y_jの変化量を確認(最終的に比例変化のみ) ■議論 ・入力データが変わらない場合は、 学習による変化に対して、各層の出力値が不変 →同時並列的な学習が可能 ・ミニバッチ学習では採用できないが、 勾配に基づいて徐々に学習する方法を避けることができ 心理学で有効かも? ・前段と後段で学習が独立になるので、後段がブラックボ よく、前段で早い学習を行い、後段で遅い学習をすると 使い方も考えられる
Analog hardware・Mortal Computation 26 BPを含むベクトル演算では、省エネな計算回路実装は難しいが、FFなら可能 ■省エネな回路実装 activity
→ voltage weight → conductance BPを行う場合、回路で実現するのは難しいが、 FFなら実現可能性あり ■既存のComputation ソフトウェアとハードウェアを分離。ハードが変わっ ても挙動が同じ。 →これらの分断を放棄すれば、省エネな回路実装が可 能では? ■Mortal Computation mortal:immortal(不滅)の対義語。 回路そのものが学習結果(conductance)を保持し ており、 ■議論 ・回路ごとに学習するため、 パラメータのコピーは意味がない。 ・代わりに、蒸留のような手法で、入出力の 関係性を コピーしたらいい。一般化にもなる? ・もし何兆ものパラメータを数ワットで学習 したいなら Mortal Computationが必要 ・同時に、不明なハードウェアにおける学習 方法が必要 FFが有力候補 ・より大きなNNにスケールするかはまだわか らない
目次 27 1. Back Propagation(BP)の問題 2.
Forward-Forward Algorithm(FFA) 3. FFを用いた実験 4. CIFAR10での実験 5. Contrastive learningとの関連性 6. 早い学習と遅い学習 7. FFとアナログ学習 8. Mortal Computation 9. Future work
Future work 28 1. 教師なし学習に使えるほどの画像や動画の生成モデルを学習できるか? 2.
睡眠時学習のように、正例/負例をどれほど時間的に乖離させられるか? 3. 負例をしばらく取り除くことで、睡眠不足の影響を模倣できるか? 4. goodness関数として適切なものは何か? 正例に対して、二乗和を最小化する方法でも動作する(むしろ少し良 い) 5. 活性化関数として適切なものは何か? t分布の下での負の対数密度も面白そう 6. 空間的データの場合、異なる箇所の局所goodness関数を持つことにメリットはあるか?うまくいけば学習が高 速化する。 7. シーケンシャルデータの場合、fast weights (Ba et al., 2016a)は、単純化したtransformerを模倣できるか? 8. 二乗発火量を最大化する特徴検出機と、二乗発火量を最小化する制約違反検出器を、FFが持つことでメリット はあるか?
まとめ・感想 29 まとめ • 実際の脳のモデル化を念頭に、BPに代わる学習アルゴリズムFFを提案 •
BPと比較して、予測性能は同程度かやや劣り、学習速度は遅い • 一方、FFのようなアルゴリズムであれば、mortal computationの学習が可能 となり、 大幅に省エネな計算回路が実現しうる 感想 • 伝搬時に正規化する工夫は、いろんな観点で面白い。 各層で並列に学習できるとした場合、分散学習やプライバシー保護への応用 もあるか? • 多様な手法と、少しずつ類似点を見ることができるため、各種技術の輸出入 も起こりそう。
Anzeige