Suche senden
Hochladen
Overcoming Catastrophic Forgetting in Neural Networks読んだ
•
9 gefällt mir
•
2,646 views
Yusuke Uchida
Folgen
Summary of "Overcoming Catastrophic Forgetting in Neural Networks"
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 12
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
A3C解説
A3C解説
harmonylab
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
Empfohlen
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
A3C解説
A3C解説
harmonylab
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
最適輸送入門
最適輸送入門
joisino
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
Deep Learning JP
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
ResNetの仕組み
ResNetの仕組み
Kota Nagasato
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
Deeplearning輪読会
Deeplearning輪読会
正志 坪坂
最適輸送の解き方
最適輸送の解き方
joisino
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
Kouta Nakayama
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
Kaggleのテクニック
Kaggleのテクニック
Yasunori Ozaki
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
Hokuto Kagaya
Weitere ähnliche Inhalte
Was ist angesagt?
最適輸送入門
最適輸送入門
joisino
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
Deep Learning JP
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
ResNetの仕組み
ResNetの仕組み
Kota Nagasato
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
Deeplearning輪読会
Deeplearning輪読会
正志 坪坂
最適輸送の解き方
最適輸送の解き方
joisino
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
Kouta Nakayama
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
Kaggleのテクニック
Kaggleのテクニック
Yasunori Ozaki
Was ist angesagt?
(20)
最適輸送入門
最適輸送入門
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
backbone としての timm 入門
backbone としての timm 入門
ResNetの仕組み
ResNetの仕組み
全力解説!Transformer
全力解説!Transformer
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Deeplearning輪読会
Deeplearning輪読会
最適輸送の解き方
最適輸送の解き方
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Kaggleのテクニック
Kaggleのテクニック
Ähnlich wie Overcoming Catastrophic Forgetting in Neural Networks読んだ
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
Hokuto Kagaya
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
SaeruYamamuro
【DL輪読会】RSA: Reducing Semantic Shift from Aggressive Augmentations for Self-s...
【DL輪読会】RSA: Reducing Semantic Shift from Aggressive Augmentations for Self-s...
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東
Hokuto Kagaya
EMNLP2016読み会@黒橋研
EMNLP2016読み会@黒橋研
Motoki Sato
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Masayoshi Kondo
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoaki
tomoaki0705
Getting Started with Deep Learning using Scala
Getting Started with Deep Learning using Scala
Taisuke Oe
Ähnlich wie Overcoming Catastrophic Forgetting in Neural Networks読んだ
(10)
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
【DL輪読会】RSA: Reducing Semantic Shift from Aggressive Augmentations for Self-s...
【DL輪読会】RSA: Reducing Semantic Shift from Aggressive Augmentations for Self-s...
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東
EMNLP2016読み会@黒橋研
EMNLP2016読み会@黒橋研
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoaki
Getting Started with Deep Learning using Scala
Getting Started with Deep Learning using Scala
Mehr von Yusuke Uchida
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
Yusuke Uchida
SIGNATE 鰹節コンペ2nd Place Solution
SIGNATE 鰹節コンペ2nd Place Solution
Yusuke Uchida
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
Yusuke Uchida
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
Yusuke Uchida
画像認識と深層学習
画像認識と深層学習
Yusuke Uchida
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
Deep Fakes Detection
Deep Fakes Detection
Yusuke Uchida
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
モデル高速化百選
モデル高速化百選
Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
Humpback whale identification challenge反省会
Humpback whale identification challenge反省会
Yusuke Uchida
DeNAにおける先端AI技術活用のチャレンジ
DeNAにおける先端AI技術活用のチャレンジ
Yusuke Uchida
コンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネス
Yusuke Uchida
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Yusuke Uchida
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
Yusuke Uchida
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
Yusuke Uchida
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
Yusuke Uchida
Mehr von Yusuke Uchida
(20)
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
SIGNATE 鰹節コンペ2nd Place Solution
SIGNATE 鰹節コンペ2nd Place Solution
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
画像認識と深層学習
画像認識と深層学習
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
Deep Fakes Detection
Deep Fakes Detection
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
モデル高速化百選
モデル高速化百選
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Humpback whale identification challenge反省会
Humpback whale identification challenge反省会
DeNAにおける先端AI技術活用のチャレンジ
DeNAにおける先端AI技術活用のチャレンジ
コンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネス
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
Kürzlich hochgeladen
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
Kürzlich hochgeladen
(9)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
Overcoming Catastrophic Forgetting in Neural Networks読んだ
1.
Overcoming catastrophic forge2ng in neural networks Yusuke Uchida@DeNA
2.
なにこれ? • ニューラルネットワークが持つ⽋陥「破滅的忘却」 を回避するアルゴリズムをDeepMindが開発 http://gigazine.net/news/20170315-elastic-weight- consolidation/ • なんか凄そうだし、論⽂中に汎⽤⼈⼯知能とか書い てあるけど、やっていることはシンプル •
端的にいうと、NNのパラメータのフィッシャー情 報⾏列をパラメータの重要度として利⽤する
3.
背景 • 汎⽤⼈⼯知能は多数の異なるタスクをこなすことが 求められる • これらのタスクは明⽰的にラベル付けされていな かったり、突然⼊れ替わったり、⻑い間再び発⽣し なかったりする •
連続的に与えられるタスクを、以前に学習したワス クを忘れることなく学習するContinual Learning(継続学習)が重要となる • なぜならNNは現在のタスク(e.g. task B)に関する 情報を扱うと、以前のタスク(e.g. task A)に関す る情報を急に失ってしまう=catastrophic forgetting
4.
背景 • 現状のcatastrophic forgettingに対するアプローチは、 全てのタスクに関するデータを予め揃え、同時にす べてのテスクを学習する(各タスクのデータを細切 れに並べて学習させる)multitask
learning • もしタスクが逐次的にしか与えられない場合、デー タを⼀時的に記憶し、学習時に再⽣する(system- level consolidation; システムレベルの記憶固定)し かない • タスクが多いと⾮現実的 ※この辺の⽤語は脳神経科学系?
5.
背景 • 継続学習はtask-specific synaptic
consolidationによ り実現されていると解釈することができる(?) =以前のタスクに対する知識は、⾮可塑的になった シナプスの割合に⽐例して⻑持ちする • このsynaptic consolidationに着想を得たelastic weight consolidation (EWC) を提案する > synaptic consolidationは、前回お話ししたLTPを起因とするシナ プスの構造変化のことです。 > system consolidationは、もっとマクロなレベルの変化のことで、 脳全体の異なる脳領域間で起こるゆるやかな再編成です。 http://ameblo.jp/neuroscience2013/entry-11860086069.html
6.
EWCの導出 • EWCは、タスクAのエラーがなるべく⼩さくなるパラ メータ空間内でタスクBのパラメータを学習 =重要なパラメータは変化させない(イメージ) • L2は、元のパラメータからのL2距離をタスクBの学習時 に加える=全パラメータの重要度が同じと仮定 •
No penaltyはタスクAを無視 パラメータ空間 タスクA学習後の 最良パラメータ
7.
EWCの導出 • 今、データDが与えられとき、その事後確率を求めたいとする • 対数をとると •
Dが、タスクAのデータDAと、タスクBのデータDBから構成され、互いに 独⽴に⽣成されると仮定する • 変形すると • つまり…? 全体のデータセットに対して学習することを考える際に、 タスクAに関しては、上記の事後確率に全ての情報が含まれている どのパラメータが重要か
8.
EWCの導出 • 真の事後分布を求めることは不可能なので、 MackayのLaplace approximationに従い、 この事後確率を 平均がθA *、対⾓の精度がフィッシャー情報⾏列Fの対⾓成分 で与えられる多変量ガウス分布で近似する (対⾓じゃないと、パラメータの⼆乗個の値が必要) •
これにより、EWCの⽬的関数は下記となる θA * 精度高 フィッシャー情報量大 精度低 フィッシャー 情報量小
9.
直感的理解 • 結局やりたいことは、タスクAで学習したパラメー タθA *をなるべく維持しながらタスクBにも適⽤する ようにパラメータを修正する • なるべく維持=L2距離を⼩さくでは駄⽬ •
なぜならパラメータは多様体上にあり、適切な計量 を考慮した測地線で距離を測らないといけない (e.g. 地図上の2点を結ぶ直線が最短ルートではない) • 確率分布における計量=フィッシャー情報⾏列 • KLダイバージェンスのテイラー展開の2次の項が フィッシャー情報⾏列 • 局所的には、KLダイバージェンスの観点から、θA * から⼤きく外れないようにタスクBを学習する
10.
どうやって求めるの? • フィッシャー情報⾏列を対⾓と仮定しているので、 単に各パラメータのフィッシャー情報量 • すなわち、対数尤度関数(ロス関数)の分散 →⼀定数の学習サンプル毎に勾配を求め、それらの ⼆乗和の平均
11.
余談 • 結局フィッシャー情報⾏列のFiiが⼤きい=θiが重要 • TOWARDS
THE LIMIT OF NETWORK QUANTIZATION, ICLR’17. では、ロス関数のHessian=フィッシャー情報⾏列 を考慮したパラメータの量⼦化を⾏っている
12.
参考 • 丁寧な記事(数式はこちらから引⽤) – https://rylanschaeffer.github.io/content/research/ overcoming_catastrophic_forgetting/main.html •
これも良い – http://www.inference.vc/comment-on-overcoming- catastrophic-forgetting-in-nns-are-multiple-penalties- needed-2/ • TensorFlow実装 – https://github.com/ariseff/overcoming-catastrophic
Jetzt herunterladen