SlideShare ist ein Scribd-Unternehmen logo
1 von 36
Downloaden Sie, um offline zu lesen
DEEP LEARNING JP
[DL Papers]
EgocentricVideoTaskTranslation (CVPR 2023 Highlight)
Yoshifumi Seki
http://deeplearning.jp/
書誌情報
● 投稿先
○ CVPR 2023 Highlight
● 投稿者
○ テキサス大、Meta
■ First AuthorのMetaでのインターン成果
● 選定理由
○ ウェラブルデバイスの会社に務めています
○ 一人称動画からの動作解析系に最近取り組ん
でいます
https://vision.cs.utexas.edu/projects/egot2/
Codeのリンクはなかった、、、
背景・目的
● 三人称の動画データセットは特定のタスクに対して注目した短いクリップの集合に
なっているが、それ以外の情報が少なくなる
● ウェアラブルカメラによる一人称の動画では装着者のさまざまなオブジェクトとの相
互作用が記録される
○ タスク間にも相互作用がありので予測の助けにもある
● 一方で特定のタスク向けの特化したモデルができてしまう危険性がある
● 個別のタスクを解くのに特化したものでなく、オブジェクト間の相互作用を利用して
さまざまなタスクに対する統合的な枠組みを作りたい
● Ego4D Workshop#2 次点におけるEgo4D ChallengeにおいてTalking to Meで1
位、NR keyframe localizationで3位
一つの動画の中にたくさんのタスクが存在する
タスクの関連性を学ぶことで汎用的なモデルを作る
実現に向けた転移学習/マルチタスク学習の課題
● マルチタスク学習のためには全てのデータに、全てのタスクのラベルが必要である
が、それは現実的ではない
● 一人称動画に付与されているラベルの粒度はタスクによって大きく異なるため、統
合モデルを作るのが難しく、特化モデルを作ることを助長している
○ モード(音声、視覚、運動)
○ ラベルの多様性(空間的・時間的・意味的)
○ 時間の粒度(短い時間で完結する行動と、長い時間を見ないといけない行動)
● 一人称視点の既存研究では、一般的な概念の学習のためshared encoderを利用
していることが多いが、これは一人称視点動画の多様性と相性が悪い可能性が高
い
○ 過去のマルチタスク学習の研究で関係が薄いタスクでのパラメータの共有は性能を劣化させること
があることが指摘されている
提案手法: Ego Task Translation (EgoT2)
● 多様な一人称動画に対する統合的な学習フレームワーク
● 複数のタスクを学習できるが、個々のタスクで異なるデータセットを学習することが
できる
● タスクが強く関連していない場合の影響を軽減する
● 2つの仕組みを持つ
○ タスク専門モデル: EgoT2-s: 特定のモデルに対して学習されたモデル
○ タスク汎用モデル: EgoT2-g: 異なるタスクへの変換を支援するためのモデル
個別のBackboneを持つ利点
● それぞれのタスクの特異性(例えば時間の扱いなど)をBackboneが吸収できる
● その上で、各タスクのbackboneを統合する形でTransferを学習するので、タスク間
の類似性が低い場合の影響も軽減ができる
● 過去の全てのパラメータを共有した転移学習と比較して、本手法で提案するtask
translatorは不要なパラメータを選択的に非活性にすることができるので、重要な
特徴だけを活用するように学習できる
● さらにその選択を分析することで、タスク間の関連についての解釈を得ることもでき
る
EgoT2-s
●
EgoT2-s
●
Stage1: Individual Task Training
Stage1: Individual Task Training
● 個別のタスクに対する学習をそれぞれのデータセットを用いて行う
● 学習方法に制限はない
● K個のタスクに対して、K個のモデルf_k (k=1…K)を得る
EgoT2-s
●
Stage2: Task Specific Translation
Stage2: Task Specific Translation
Stage2: Task Specific Translation
1: Stage1で作ったモデルを用いて動画からの特徴抽出を行う
Stage2: Task Specific Translation
2: 特徴ベクトルの射影を行う (Projection Layer)
Stage2: Task Specific Translation
3: 各タスク特化モデルからの出力 (射影したもの)を結合
Stage2: Task Specific Translation
4: Translationのための共通Encoderに結合ベクトルを入力
Stage2: Task Specific Translation
5: タスク固有のDecoderによってタスクの出力を得る
このEncoder-Decoderは抽象化されていてなんでも良い
実験の中ではEncoderは1層のTransformerを使っている
EgoT2-g
EgoT2-g
● EgoT2-sはDecoderを特定のタスクに向けて出力するため、K個のタスクに対応で
きるモデルを作ろうとすると、K個のモデルを作った上で、K回のDecoderの訓練が
必要になる
● EgoT2-gではEgoT2-sを拡張することで、1度にK個のタスクへのtranslateを行うこ
とを目指す
●
EgoT2-gでの変更点
● Stage1はEgoT2-sと同じ
● 1) デコーダーを汎用的な物に置き換える
● 2) 全てのデータセットを使って学習をする
EgoT2-g: デコーダの置き換え
● さまざまなタスクを汎用的に扱えるデコーダーのために言語モデルを用いる
● それぞれのタスクの出力をtokenizeし、デコーダーをsequence decoderに置き換
える
● タスクに応じた出力をさせるために、出力の先頭にtask promptを出力するようにす
る
● wはj=1の時0でそれ以外の時が1になる。つまりプロンプトは反映しない
● 出力された文字列からarg samplingによってタスクのラベルを復元する
EgoT2-g
EgoT2-g: 全てのデータセットを使った学習
● 共通のデコーダを持つため、対象となる全てのタスクのデータを用いてデコーダの
学習をしなければならない
● 各タスクからbatchをひとつずつサンプルし、各タスクごとの損失を計算しモデルの
更新を行う
データセットとタスク
● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー
タセット
● 5つのベンチマークがある
○ Episodic memory (EM)
○ Hand and Object (HO)
○ Audio Visual Diarization (AV)
○ Social Interaction (Social)
○ Forecasting
● 4つのベンチマークにまたがる7つのタスクを選択した
データセットとタスク
● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー
タセット
● 5つのベンチマークがある
○ Episodic memory (EM)
○ Hand and Object (HO)
○ Audio Visual Diarization (AV)
○ Social Interaction (Social)
○ Forecasting
● 4つのベンチマークにまたがる7つのタスクを選択した
AR (Action Recognition)だけ存在が確認できていない。
Forecastingカテゴリで、LTA (Long Team Anticipation )ともう一つあ
るのはShort Team Anticipationなので、それの別名?
Human-Object InteractionなタスクでのEgoT2-sの結果
Human-Human InteractionなタスクでのEgoT2-sの結果
EgoT2-sのablation study
EgoT2-gの結果
SOTAなモデルとの比較 (1/2) Ego4D Challengeの4つのカテゴリでSOTA
タスクのサイトで現在の LeadersBoardを見ることが
できる
https://eval.ai/web/challenges/challenge-page/1622/o
verview
https://eval.ai/web/challenges/challenge-page/1625/l
eaderboard/3911
SOTAなモデルとの比較 (2/2)
https://eval.ai/web/challenges/challenge-pa
ge/1598/leaderboard/3881
https://eval.ai/web/challenges/challenge-p
age/1627/leaderboard/3914
Ego4D Challengeの4つのカテゴリでSOTA
タスクのサイトで現在の LeadersBoardを見ることが
できる
EgoT2-sでの結果の解釈
AR(STA) は短時間での行動予測、
LTAは(比較的)長時間での行動予測。
上の例は大きくシーンが変わるので、
LTAが早いうちに活性化していて、 AR
は直前に活性化している。
下の例はあまり急激に変わらないの
で、ARも早いうちから活性化している
EgoT2-gでの結果解釈
出力結果に対して各種タスクプロンプ
トを設定した時の結果の比較。
まとめ・感想
● 複数のタスクのデータを活用して一人称視点タスクにおける予測を統合的に行う研
究
● Backboneを並列にしてDecoderを単一にするという工夫によって、一人称視点タ
スクにおけるデータセットの基準が曖昧であるという課題に対して向き合っている。
○ アンサンブル学習の考え方に近い物を感じる
● データセット中にあるものしか反映できないものの、Ego4Dという大きなデータセッ
トができたことの強みをよく生かしている良い研究だと感じた

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
ICML2021の連合学習の論文
ICML2021の連合学習の論文ICML2021の連合学習の論文
ICML2021の連合学習の論文
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
 

Ähnlich wie 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)

勝つための計画づくり 20110415(鈴木)
勝つための計画づくり 20110415(鈴木)勝つための計画づくり 20110415(鈴木)
勝つための計画づくり 20110415(鈴木)
Atsushi Suzuki
 

Ähnlich wie 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight) (17)

【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
 
Creating and Using Links between Data Objects
Creating and Using Links between Data ObjectsCreating and Using Links between Data Objects
Creating and Using Links between Data Objects
 
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
 
Start rl with_unity_machine_learning_agents
Start rl with_unity_machine_learning_agentsStart rl with_unity_machine_learning_agents
Start rl with_unity_machine_learning_agents
 
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
 
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
 
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
 
Xtextハンズオン(仮)
Xtextハンズオン(仮)Xtextハンズオン(仮)
Xtextハンズオン(仮)
 
SQiPシンポジウムアブストラクト作成のポイント
SQiPシンポジウムアブストラクト作成のポイントSQiPシンポジウムアブストラクト作成のポイント
SQiPシンポジウムアブストラクト作成のポイント
 
一口で何度もおいしい?DSL
一口で何度もおいしい?DSL一口で何度もおいしい?DSL
一口で何度もおいしい?DSL
 
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
 
TouchDesigenr Beginners' workshop vol.003
TouchDesigenr Beginners' workshop vol.003TouchDesigenr Beginners' workshop vol.003
TouchDesigenr Beginners' workshop vol.003
 
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
 
大規模並列実験を支えるクラウドサービスと基盤技術
大規模並列実験を支えるクラウドサービスと基盤技術大規模並列実験を支えるクラウドサービスと基盤技術
大規模並列実験を支えるクラウドサービスと基盤技術
 
勝つための計画づくり 20110415(鈴木)
勝つための計画づくり 20110415(鈴木)勝つための計画づくり 20110415(鈴木)
勝つための計画づくり 20110415(鈴木)
 

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)