SlideShare ist ein Scribd-Unternehmen logo
1 von 22
Downloaden Sie, um offline zu lesen
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
AdaShare: LearningWhatTo Share For Efficient
Deep Multi-Task Learning
Present Square Co.,Ltd. 小林 範久
書誌情報
2
AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
(https://arxiv.org/abs/1911.12423)
タイトル:
著者: Ximeng Sun, Rameswar Panda, Rogerio Feris
( Boston University, IBM Research & MIT-IBM Watson AI Lab)
• 効率的なマルチタスク学習のための新しいアプローチを提案。
• マルチタスクネットワークにおいて、与えられたタスクに対してどの層を実行するかを選択するポリシー
を通して、共有パターンを学習する。
• 3つのベンチマークデータセットでSOTA。
概要:
アジェンダ
3
1. 概要
2. 先行研究
3. 提案手法
4. 実験結果
5. まとめ
• 一般的にマルチタスク学習は、 シングルタスク学習と比べて
訓練時間と推論時間を減少させることができ、関連タスク間
の共有表現を学習することで、汎化性能と予測精度を高め
ることが期待できる。
• 自動運転やモバイルプラットフォームのような資源が限られた
アプリケーションに対しても重要。
• しかし、どの層を共有するか否かを手動で調整したり、タスク
数が増加するとパラメータ数が比例して増加してしまう従来
の設計は、効率的ではない。
1. 概要
4
ネットワーク内のどの層をどのタスク間で共有すべきか、どの層をタスク固有にすべきかを決定することで、
高い精度を出しながら、メモリの使用量を抑えるスケーラブルで効率的なネットワークを設計したい
背景
画像出典:http://ruder.io/multi-task/
2. 先行研究
5
Hard-parameter Sharing
• タスク固有のネットワークと共有ネットワークとを組み合わせて使用。
⇒モデルのサイズが、タスクの数に対して線形に増加するため、効率的でない。
Soft-parameter Sharing
従来のマルチタスク学習
• 同じ初期層を使用し、アドホックポイントを手動で設計し、ネットワークを
タスク固有の分岐に分割する。
⇒深い層を有するDNに対して、最適な構成を手動で調整することは困難。
3. 提案手法
6
AdaShare
• 効率的なマルチタスク学習のための新しいアプローチ。
• マルチタスクネットワークにおいて、与えられたタスクに対してどの層
を実行するかを選択するポリシーを通して、共有パターンを学習
する。
• 高い精度を出しながら、メモリの使用量を抑えることができる。
(パラメータを削減できる。)
3. 提案手法
7
AdaShareの学習の概要
• 学習されたタスク固有のポリシー分布からサンプリングされた[Skip or Select] を予測することにより、複数のタスク間の重み
共有パターンを学習する。
• 各層は、2つのタスクで使用されている場合は重み共有され、1つのタスクのみで使用されている場合はタスク固有となる。
• Gumbel-Softmax Samplingを介した標準の逆伝播を使用して、ポリシーと重みパラメーターの両方を学習する。
• 訓練では、タスク固有の損失とポリシーの正規化(スパース性と共有を促進)を使用する。
3. 提案手法
8
アプローチ
:ポリシー [0, 1](Skip or Select)𝑢𝑙,𝑘
:タスク {𝑇1, 𝑇2,・・・ , 𝑇𝑘}𝑇𝑘
𝑙 :レイヤーの数
𝑊 :重み
ポリシー𝑈とネットワークの重み𝑊を共に学習させる。
• ポリシー𝑈の取りうる値は、層の数とタスクの数と共に指数関数的(2 𝐿×𝐾)に増加する。
• 重みWは誤差逆伝播で求めることができるが、ポリシーUは離散的で誤差逆伝播できない。
⇒Gumbel Softmax Samplingを採用することで、誤差逆伝播によって𝑈を最適化する。
𝑇1(𝑆𝑒𝑔)
𝑇2(𝑆𝑁)
レイヤー
1, 2, 3, ・・・ 𝑙 − 1, 𝑙
[1] [1] [0] [0] [1]
[1] [0] [1] [1] [1]
<例>
タスク
(1)
※各レイヤーの重みについて、skip or selectを選択する。
T1、T2でselect されていれば、重み共有となる。
3. 提案手法
9
Gumbel Softmax Sampling
(2)
:タスクT𝑘の 𝑙 番目 のブロックで選択される確率α𝑙,𝑘 :Gumbel DistributionG𝑙,𝑘
:Skip or Selectπ𝑙,𝑘 π𝑙,𝑘 = [1 − α𝑙,𝑘, α𝑙,𝑘]
※argmaxした時に異なるクラスが出力されるため、
疑似的にサンプリングを行うことができる。
:温度パラメータ(本論文では、𝜏 = 5を利用)τ
(3)
= 𝑠𝑜𝑓𝑡𝑚𝑎𝑥((log 𝜋 + 𝐺)/𝜏)
上記式について、離散分布のサンプリングから、Gumbel Softmax 分布を用いた微分可能サンプリングに変換。
3. 提案手法
10
𝑳 𝒔𝒑𝒂𝒓𝒔𝒊𝒕𝒚
(5)
(6)
(7)
𝑳 𝒔𝒉𝒂𝒓𝒊𝒏𝒈 重みの共有を推奨する損失。(重みが共有されていないと損失が増える。)
異なるタスクのポリシー間のL1距離の加重和。
初期層の共有を促進することを重点に置き、初期層で重みが共有されていない場合ほど、損失が大きくなる。
𝑳 𝒕𝒐𝒕𝒂𝒍
疎であることを推奨する損失。選択される確率が高くなるほど、損失が大きくなる。
(α𝑙,𝑘は、タスク𝑇𝑘の 𝑙 番目 のブロックで選択される確率。)
損失関数
(4)
:タスクT𝑘の 固有のLoss𝐿 𝑘𝑳 𝒕𝒂𝒔𝒌
3. 提案手法
11
学習
全体のネットワーク訓練を二つの段階に分けて学習。
第1段階
ネットワークの重みとポリシーを学習。
訓練データの80%を用いて、固定ポリシー分布からサンプリングされたポリシーを持つネットワークの重みを学習。
次に、訓練データの20%を用いて、ネットワーク重みを固定し、ポリシーを最適化。
第2段階
第1段階で学習した最良のポリシーを用いた上で、[Skip or Select] を学習する。
⇒このとき、決定空間のサイズが指数関数的にスケールするので、カリキュラム学習を採用。
決定空間を徐々に拡大し、訓練を安定させる。
具体的には、𝑙番目(𝑙 < 𝐿)のエポックに対しては,最後の𝑙ブロックのポリシー分布のみを学習する。そして、𝑙が増加する
につれて追加ブロックの分布パラメータを徐々に学習し、Lエポック以降ですべてのブロックの結合分布を学習する。
タスク間で各ブロックの重みを共有する形で、ネットワーク重みを学習させる。
AdaShareにおけるカリキュラム学習
※タスク数が増えた場合、新しいタスクに対してもL個の追加パラメータで済むため、スケーラブルなモデルになっている。
4. 実験結果
12
実験データ
• NYU v2データセット
• CityScapesデータセット
• Tiny-Taskonomy
以下の3種類のデータセットで検証
比較ベースライン
合計6つの異なるベースラインと比較する。
・単一タスク:タスク固有のバックボーンとタスク固有のヘッドを使用して、各タスクを個別にトレーニング
・マルチタスク:すべてのタスクがバックボーンネットワークを共有するが、最後に別々のタスク固有ヘッドを持つ
一般的なマルチタスクベースライン。(Hard Parameter Sharing)
・4つのSoft Parameter Sharing手法
・Cross‐Stitch Networks
・Sluice Networks
・NDDRCNN:タスク固有のバックボーン間に幾つかの特徴融合層を採用
・MTAN :MTLのための共有バックボーン上にタスク固有注意モジュールを導入したを最先端MTL
※公平な比較のために、すべての方法(提案アプローチを含む)で同じバックボーンとタスク固有のヘッドを使用。
バックボーンはDeeplab-ResNet、タスク固有ヘッドはASPPアーキテクチャを採用。
4. 実験結果
13
定性的評価
NYU v2 : 3タスク学習の比較(Multi-task、MTAN、AdaShare)
AdaShareは、セマンティックセグメンテーション(Seg)、表面法線予測(SN)、深度予測(Depth)で、より正確な
予測と明確な輪郭を提供。(赤いボックスは関心領域)
4. 実験結果
14
定量的評価
NYU v2データセット 2つのタスク(Semantic Segmentation、Surface Normal Prediction)
• 7つの評価指標のうち
4つで最高の精度を
達成。
• パラメータ数を約半減
させている。
4. 実験結果
15
定量的評価
CityScapesデータセット 2つのタスク(Semantic Segmentation、Depth Prediction)
7つの評価指標のうち5つで最高の精度
を達成。
1つの評価指標で2番目に優れた精度。
4. 実験結果
16
定量的評価
NYU v2 データセット 3つのタスク(Semantic Seg、Surface Normal Prediction 、Depth Prediction)
タスクが3つに増
えるとパラメータ
数は約1/3に減
10個の評価指
標で最高の精度
を達成。
4. 実験結果
17
定量的評価
タスクが5つに増えると約1/5程度のパラメータ数に削減。5つのタスクのうち3つでベースラインを上回る精度を達成。
Tiny-Taskonomy (5-Task Learning)
4. 実験結果
18
ポリシーの視覚化とタスクの相関関係
• 学習したα𝑙𝑘を4つの実験シナリオで三つのデータセット上に可視化。ブロックの濃さは、特定のタスクに対して選択
されているブロックの確率を表す。AdaShareの ポリシーUも表示。
• 例えば、NYU v2 2‐タスク学習 (a) では、Semantic SegmenationとSurface Normal Predictionの
タスクについて、6ブロックを共有する。
• (e) は、タスク相関(タスク固有データセット間のコサイン類似性)を表示する。
4. 実験結果
19
Ablation Studies (CityScapes 2-Task Learning )
Random#1 :全てのタスクでスキップされた数と同じ数をランダムにスキップさせて精度を確認
(各タスクごとにスキップされる数は制限しない)
Random#2 :各タスクでスキップされた数と同じ数をランダムにスキップさせて精度を確認
ランダムポリシーとの比較
損失関数、カリキュラム学習の評価
w/o curriculum:カリキュラム学習
w/o 𝑳 𝒔𝒑𝒂𝒓𝒔𝒊𝒕𝒚 : 𝐿 𝑠𝑝𝑎𝑟𝑠𝑖𝑡𝑦の損失
w/o 𝑳 𝒔𝒉𝒂𝒓𝒊𝒏𝒈 : 𝐿 𝑠ℎ𝑎𝑟𝑖𝑛𝑔 の損失
をそれぞれ評価
⇒各手法の有効性を確認
4. 実験結果
20
Ablation Studies(Ablation Studies in NYU v2 3-Task Learning )
5. まとめ
21
結論
• マルチタスク学習(MLT)における複数のタスクに渡る特徴共有ポリシーを決定するための、新たなアプ
ローチを提示。
• 標準の逆伝播を利用して、重み共有ポリシーとネットワークの重みを共同で学習する。
• パラメータを大幅に減らしたコンパクトなマルチタスクネットワークを学習するための2つの正則化
(𝐿 𝑠𝑝𝑎𝑟𝑠𝑖𝑡𝑦と𝐿 𝑠ℎ𝑎𝑟𝑖𝑛𝑔)を導入し、複数のタスクに渡って高い精度を実現。
• 3つのベンチマークデータセットで有効性を実証。
Appendix
参考文献
22
• [4] Yoshua Bengio, Jérôme Louradour, Ronan Collobert, and Jason Weston. Curriculum learning. In
Proceedings of the 26th annual international conference on machine learning, pages 41–48. ACM, 2009.
• [10] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson,
Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene
understanding. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages
3213–3223, 2016.
• [15] Yuan Gao, Jiayi Ma, Mingbo Zhao, Wei Liu, and Alan L Yuille. Nddr-cnn: Layerwise feature fusing in
multi-task cnns by neural discriminative dimensionality reduction. In CVPR, 2019.
• [20] Laurent Jacob, Jean-philippe Vert, and Francis R Bach. Clustered multi-task learning: A convex
formulation. In NIPS, 2009.
• [23] Zhuoliang Kang, Kristen Grauman, and Fei Sha. Learning with whom to share in multi-task feature
learning. In ICML, 2011.
• [31] Shikun Liu, Edward Johns, and Andrew J Davison. End-to-end multi-task learning with attention. In
CVPR, 2019.
• [37] Pushmeet Kohli Nathan Silberman, Derek Hoiem and Rob Fergus. Indoor segmentation and support
inference from rgbd images. In ECCV, 2012.
• [47] Trevor Standley, Amir R Zamir, Dawn Chen, Leonidas Guibas, Jitendra Malik, and Silvio Savarese.
Which tasks should be learned together in multi-task learning? arXiv preprint arXiv:1905.07553, 2019.
• [60] Amir R Zamir, Alexander Sax, William Shen, Leonidas J Guibas, Jitendra Malik, and Silvio Savarese.
Taskonomy: Disentangling task transfer learning. In CVPR, 2018.

Weitere ähnliche Inhalte

Was ist angesagt?

【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs Deep Learning JP
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Hiroto Honda
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)Tomohiro Motoda
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 西岡 賢一郎
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 

Was ist angesagt? (20)

【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 

Ähnlich wie [DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning

効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)cvpaper. challenge
 
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy GeneralizationDeep Learning JP
 
深層学習Day4レポート(小川成)
深層学習Day4レポート(小川成)深層学習Day4レポート(小川成)
深層学習Day4レポート(小川成)ssuser441cb9
 
Learning structured embeddings of knowledge bases 文献講読
Learning structured embeddings of knowledge bases 文献講読Learning structured embeddings of knowledge bases 文献講読
Learning structured embeddings of knowledge bases 文献講読poppyuri
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural NetworksDeep Learning JP
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender Systemharmonylab
 
レポート深層学習Day4
レポート深層学習Day4レポート深層学習Day4
レポート深層学習Day4ssuser9d95b3
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based ControlDeep Learning JP
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain GeneralizationDeep Learning JP
 
WWW2017 Recommender Systems ふりかえり
WWW2017 Recommender Systems ふりかえりWWW2017 Recommender Systems ふりかえり
WWW2017 Recommender Systems ふりかえりyyammt
 
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜Preferred Networks
 
20181119_ICON技術セミナー7_石坂
20181119_ICON技術セミナー7_石坂20181119_ICON技術セミナー7_石坂
20181119_ICON技術セミナー7_石坂ICT_CONNECT_21
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World ModelsDeep Learning JP
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement LearningDeep Learning JP
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative ModelingDeep Learning JP
 
ラビットチャレンジレポート 深層学習Day4
ラビットチャレンジレポート 深層学習Day4ラビットチャレンジレポート 深層学習Day4
ラビットチャレンジレポート 深層学習Day4HiroyukiTerada4
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 

Ähnlich wie [DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning (20)

効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
 
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
 
深層学習Day4レポート(小川成)
深層学習Day4レポート(小川成)深層学習Day4レポート(小川成)
深層学習Day4レポート(小川成)
 
Learning structured embeddings of knowledge bases 文献講読
Learning structured embeddings of knowledge bases 文献講読Learning structured embeddings of knowledge bases 文献講読
Learning structured embeddings of knowledge bases 文献講読
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
 
レポート深層学習Day4
レポート深層学習Day4レポート深層学習Day4
レポート深層学習Day4
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
 
WWW2017 Recommender Systems ふりかえり
WWW2017 Recommender Systems ふりかえりWWW2017 Recommender Systems ふりかえり
WWW2017 Recommender Systems ふりかえり
 
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
 
20181119_ICON技術セミナー7_石坂
20181119_ICON技術セミナー7_石坂20181119_ICON技術セミナー7_石坂
20181119_ICON技術セミナー7_石坂
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
NeurIPS2019参加報告
NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
ラビットチャレンジレポート 深層学習Day4
ラビットチャレンジレポート 深層学習Day4ラビットチャレンジレポート 深層学習Day4
ラビットチャレンジレポート 深層学習Day4
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 

Mehr von Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Kürzlich hochgeladen (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ AdaShare: LearningWhatTo Share For Efficient Deep Multi-Task Learning Present Square Co.,Ltd. 小林 範久
  • 2. 書誌情報 2 AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning (https://arxiv.org/abs/1911.12423) タイトル: 著者: Ximeng Sun, Rameswar Panda, Rogerio Feris ( Boston University, IBM Research & MIT-IBM Watson AI Lab) • 効率的なマルチタスク学習のための新しいアプローチを提案。 • マルチタスクネットワークにおいて、与えられたタスクに対してどの層を実行するかを選択するポリシー を通して、共有パターンを学習する。 • 3つのベンチマークデータセットでSOTA。 概要:
  • 3. アジェンダ 3 1. 概要 2. 先行研究 3. 提案手法 4. 実験結果 5. まとめ
  • 4. • 一般的にマルチタスク学習は、 シングルタスク学習と比べて 訓練時間と推論時間を減少させることができ、関連タスク間 の共有表現を学習することで、汎化性能と予測精度を高め ることが期待できる。 • 自動運転やモバイルプラットフォームのような資源が限られた アプリケーションに対しても重要。 • しかし、どの層を共有するか否かを手動で調整したり、タスク 数が増加するとパラメータ数が比例して増加してしまう従来 の設計は、効率的ではない。 1. 概要 4 ネットワーク内のどの層をどのタスク間で共有すべきか、どの層をタスク固有にすべきかを決定することで、 高い精度を出しながら、メモリの使用量を抑えるスケーラブルで効率的なネットワークを設計したい 背景 画像出典:http://ruder.io/multi-task/
  • 5. 2. 先行研究 5 Hard-parameter Sharing • タスク固有のネットワークと共有ネットワークとを組み合わせて使用。 ⇒モデルのサイズが、タスクの数に対して線形に増加するため、効率的でない。 Soft-parameter Sharing 従来のマルチタスク学習 • 同じ初期層を使用し、アドホックポイントを手動で設計し、ネットワークを タスク固有の分岐に分割する。 ⇒深い層を有するDNに対して、最適な構成を手動で調整することは困難。
  • 6. 3. 提案手法 6 AdaShare • 効率的なマルチタスク学習のための新しいアプローチ。 • マルチタスクネットワークにおいて、与えられたタスクに対してどの層 を実行するかを選択するポリシーを通して、共有パターンを学習 する。 • 高い精度を出しながら、メモリの使用量を抑えることができる。 (パラメータを削減できる。)
  • 7. 3. 提案手法 7 AdaShareの学習の概要 • 学習されたタスク固有のポリシー分布からサンプリングされた[Skip or Select] を予測することにより、複数のタスク間の重み 共有パターンを学習する。 • 各層は、2つのタスクで使用されている場合は重み共有され、1つのタスクのみで使用されている場合はタスク固有となる。 • Gumbel-Softmax Samplingを介した標準の逆伝播を使用して、ポリシーと重みパラメーターの両方を学習する。 • 訓練では、タスク固有の損失とポリシーの正規化(スパース性と共有を促進)を使用する。
  • 8. 3. 提案手法 8 アプローチ :ポリシー [0, 1](Skip or Select)𝑢𝑙,𝑘 :タスク {𝑇1, 𝑇2,・・・ , 𝑇𝑘}𝑇𝑘 𝑙 :レイヤーの数 𝑊 :重み ポリシー𝑈とネットワークの重み𝑊を共に学習させる。 • ポリシー𝑈の取りうる値は、層の数とタスクの数と共に指数関数的(2 𝐿×𝐾)に増加する。 • 重みWは誤差逆伝播で求めることができるが、ポリシーUは離散的で誤差逆伝播できない。 ⇒Gumbel Softmax Samplingを採用することで、誤差逆伝播によって𝑈を最適化する。 𝑇1(𝑆𝑒𝑔) 𝑇2(𝑆𝑁) レイヤー 1, 2, 3, ・・・ 𝑙 − 1, 𝑙 [1] [1] [0] [0] [1] [1] [0] [1] [1] [1] <例> タスク (1) ※各レイヤーの重みについて、skip or selectを選択する。 T1、T2でselect されていれば、重み共有となる。
  • 9. 3. 提案手法 9 Gumbel Softmax Sampling (2) :タスクT𝑘の 𝑙 番目 のブロックで選択される確率α𝑙,𝑘 :Gumbel DistributionG𝑙,𝑘 :Skip or Selectπ𝑙,𝑘 π𝑙,𝑘 = [1 − α𝑙,𝑘, α𝑙,𝑘] ※argmaxした時に異なるクラスが出力されるため、 疑似的にサンプリングを行うことができる。 :温度パラメータ(本論文では、𝜏 = 5を利用)τ (3) = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥((log 𝜋 + 𝐺)/𝜏) 上記式について、離散分布のサンプリングから、Gumbel Softmax 分布を用いた微分可能サンプリングに変換。
  • 10. 3. 提案手法 10 𝑳 𝒔𝒑𝒂𝒓𝒔𝒊𝒕𝒚 (5) (6) (7) 𝑳 𝒔𝒉𝒂𝒓𝒊𝒏𝒈 重みの共有を推奨する損失。(重みが共有されていないと損失が増える。) 異なるタスクのポリシー間のL1距離の加重和。 初期層の共有を促進することを重点に置き、初期層で重みが共有されていない場合ほど、損失が大きくなる。 𝑳 𝒕𝒐𝒕𝒂𝒍 疎であることを推奨する損失。選択される確率が高くなるほど、損失が大きくなる。 (α𝑙,𝑘は、タスク𝑇𝑘の 𝑙 番目 のブロックで選択される確率。) 損失関数 (4) :タスクT𝑘の 固有のLoss𝐿 𝑘𝑳 𝒕𝒂𝒔𝒌
  • 11. 3. 提案手法 11 学習 全体のネットワーク訓練を二つの段階に分けて学習。 第1段階 ネットワークの重みとポリシーを学習。 訓練データの80%を用いて、固定ポリシー分布からサンプリングされたポリシーを持つネットワークの重みを学習。 次に、訓練データの20%を用いて、ネットワーク重みを固定し、ポリシーを最適化。 第2段階 第1段階で学習した最良のポリシーを用いた上で、[Skip or Select] を学習する。 ⇒このとき、決定空間のサイズが指数関数的にスケールするので、カリキュラム学習を採用。 決定空間を徐々に拡大し、訓練を安定させる。 具体的には、𝑙番目(𝑙 < 𝐿)のエポックに対しては,最後の𝑙ブロックのポリシー分布のみを学習する。そして、𝑙が増加する につれて追加ブロックの分布パラメータを徐々に学習し、Lエポック以降ですべてのブロックの結合分布を学習する。 タスク間で各ブロックの重みを共有する形で、ネットワーク重みを学習させる。 AdaShareにおけるカリキュラム学習 ※タスク数が増えた場合、新しいタスクに対してもL個の追加パラメータで済むため、スケーラブルなモデルになっている。
  • 12. 4. 実験結果 12 実験データ • NYU v2データセット • CityScapesデータセット • Tiny-Taskonomy 以下の3種類のデータセットで検証 比較ベースライン 合計6つの異なるベースラインと比較する。 ・単一タスク:タスク固有のバックボーンとタスク固有のヘッドを使用して、各タスクを個別にトレーニング ・マルチタスク:すべてのタスクがバックボーンネットワークを共有するが、最後に別々のタスク固有ヘッドを持つ 一般的なマルチタスクベースライン。(Hard Parameter Sharing) ・4つのSoft Parameter Sharing手法 ・Cross‐Stitch Networks ・Sluice Networks ・NDDRCNN:タスク固有のバックボーン間に幾つかの特徴融合層を採用 ・MTAN :MTLのための共有バックボーン上にタスク固有注意モジュールを導入したを最先端MTL ※公平な比較のために、すべての方法(提案アプローチを含む)で同じバックボーンとタスク固有のヘッドを使用。 バックボーンはDeeplab-ResNet、タスク固有ヘッドはASPPアーキテクチャを採用。
  • 13. 4. 実験結果 13 定性的評価 NYU v2 : 3タスク学習の比較(Multi-task、MTAN、AdaShare) AdaShareは、セマンティックセグメンテーション(Seg)、表面法線予測(SN)、深度予測(Depth)で、より正確な 予測と明確な輪郭を提供。(赤いボックスは関心領域)
  • 14. 4. 実験結果 14 定量的評価 NYU v2データセット 2つのタスク(Semantic Segmentation、Surface Normal Prediction) • 7つの評価指標のうち 4つで最高の精度を 達成。 • パラメータ数を約半減 させている。
  • 15. 4. 実験結果 15 定量的評価 CityScapesデータセット 2つのタスク(Semantic Segmentation、Depth Prediction) 7つの評価指標のうち5つで最高の精度 を達成。 1つの評価指標で2番目に優れた精度。
  • 16. 4. 実験結果 16 定量的評価 NYU v2 データセット 3つのタスク(Semantic Seg、Surface Normal Prediction 、Depth Prediction) タスクが3つに増 えるとパラメータ 数は約1/3に減 10個の評価指 標で最高の精度 を達成。
  • 18. 4. 実験結果 18 ポリシーの視覚化とタスクの相関関係 • 学習したα𝑙𝑘を4つの実験シナリオで三つのデータセット上に可視化。ブロックの濃さは、特定のタスクに対して選択 されているブロックの確率を表す。AdaShareの ポリシーUも表示。 • 例えば、NYU v2 2‐タスク学習 (a) では、Semantic SegmenationとSurface Normal Predictionの タスクについて、6ブロックを共有する。 • (e) は、タスク相関(タスク固有データセット間のコサイン類似性)を表示する。
  • 19. 4. 実験結果 19 Ablation Studies (CityScapes 2-Task Learning ) Random#1 :全てのタスクでスキップされた数と同じ数をランダムにスキップさせて精度を確認 (各タスクごとにスキップされる数は制限しない) Random#2 :各タスクでスキップされた数と同じ数をランダムにスキップさせて精度を確認 ランダムポリシーとの比較 損失関数、カリキュラム学習の評価 w/o curriculum:カリキュラム学習 w/o 𝑳 𝒔𝒑𝒂𝒓𝒔𝒊𝒕𝒚 : 𝐿 𝑠𝑝𝑎𝑟𝑠𝑖𝑡𝑦の損失 w/o 𝑳 𝒔𝒉𝒂𝒓𝒊𝒏𝒈 : 𝐿 𝑠ℎ𝑎𝑟𝑖𝑛𝑔 の損失 をそれぞれ評価 ⇒各手法の有効性を確認
  • 20. 4. 実験結果 20 Ablation Studies(Ablation Studies in NYU v2 3-Task Learning )
  • 21. 5. まとめ 21 結論 • マルチタスク学習(MLT)における複数のタスクに渡る特徴共有ポリシーを決定するための、新たなアプ ローチを提示。 • 標準の逆伝播を利用して、重み共有ポリシーとネットワークの重みを共同で学習する。 • パラメータを大幅に減らしたコンパクトなマルチタスクネットワークを学習するための2つの正則化 (𝐿 𝑠𝑝𝑎𝑟𝑠𝑖𝑡𝑦と𝐿 𝑠ℎ𝑎𝑟𝑖𝑛𝑔)を導入し、複数のタスクに渡って高い精度を実現。 • 3つのベンチマークデータセットで有効性を実証。
  • 22. Appendix 参考文献 22 • [4] Yoshua Bengio, Jérôme Louradour, Ronan Collobert, and Jason Weston. Curriculum learning. In Proceedings of the 26th annual international conference on machine learning, pages 41–48. ACM, 2009. • [10] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3213–3223, 2016. • [15] Yuan Gao, Jiayi Ma, Mingbo Zhao, Wei Liu, and Alan L Yuille. Nddr-cnn: Layerwise feature fusing in multi-task cnns by neural discriminative dimensionality reduction. In CVPR, 2019. • [20] Laurent Jacob, Jean-philippe Vert, and Francis R Bach. Clustered multi-task learning: A convex formulation. In NIPS, 2009. • [23] Zhuoliang Kang, Kristen Grauman, and Fei Sha. Learning with whom to share in multi-task feature learning. In ICML, 2011. • [31] Shikun Liu, Edward Johns, and Andrew J Davison. End-to-end multi-task learning with attention. In CVPR, 2019. • [37] Pushmeet Kohli Nathan Silberman, Derek Hoiem and Rob Fergus. Indoor segmentation and support inference from rgbd images. In ECCV, 2012. • [47] Trevor Standley, Amir R Zamir, Dawn Chen, Leonidas Guibas, Jitendra Malik, and Silvio Savarese. Which tasks should be learned together in multi-task learning? arXiv preprint arXiv:1905.07553, 2019. • [60] Amir R Zamir, Alexander Sax, William Shen, Leonidas J Guibas, Jitendra Malik, and Silvio Savarese. Taskonomy: Disentangling task transfer learning. In CVPR, 2018.