Weitere ähnliche Inhalte
Ähnlich wie 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight) (17)
Mehr von Deep Learning JP (20)
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
- 1. DEEP LEARNING JP
[DL Papers]
EgocentricVideoTaskTranslation (CVPR 2023 Highlight)
Yoshifumi Seki
http://deeplearning.jp/
- 2. 書誌情報
● 投稿先
○ CVPR 2023 Highlight
● 投稿者
○ テキサス大、Meta
■ First AuthorのMetaでのインターン成果
● 選定理由
○ ウェラブルデバイスの会社に務めています
○ 一人称動画からの動作解析系に最近取り組ん
でいます
https://vision.cs.utexas.edu/projects/egot2/
Codeのリンクはなかった、、、
- 7. 提案手法: Ego Task Translation (EgoT2)
● 多様な一人称動画に対する統合的な学習フレームワーク
● 複数のタスクを学習できるが、個々のタスクで異なるデータセットを学習することが
できる
● タスクが強く関連していない場合の影響を軽減する
● 2つの仕組みを持つ
○ タスク専門モデル: EgoT2-s: 特定のモデルに対して学習されたモデル
○ タスク汎用モデル: EgoT2-g: 異なるタスクへの変換を支援するためのモデル
- 12. Stage1: Individual Task Training
● 個別のタスクに対する学習をそれぞれのデータセットを用いて行う
● 学習方法に制限はない
● K個のタスクに対して、K個のモデルf_k (k=1…K)を得る
- 19. Stage2: Task Specific Translation
5: タスク固有のDecoderによってタスクの出力を得る
このEncoder-Decoderは抽象化されていてなんでも良い
実験の中ではEncoderは1層のTransformerを使っている
- 27. データセットとタスク
● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー
タセット
● 5つのベンチマークがある
○ Episodic memory (EM)
○ Hand and Object (HO)
○ Audio Visual Diarization (AV)
○ Social Interaction (Social)
○ Forecasting
● 4つのベンチマークにまたがる7つのタスクを選択した
AR (Action Recognition)だけ存在が確認できていない。
Forecastingカテゴリで、LTA (Long Team Anticipation )ともう一つあ
るのはShort Team Anticipationなので、それの別名?
- 32. SOTAなモデルとの比較 (1/2) Ego4D Challengeの4つのカテゴリでSOTA
タスクのサイトで現在の LeadersBoardを見ることが
できる
https://eval.ai/web/challenges/challenge-page/1622/o
verview
https://eval.ai/web/challenges/challenge-page/1625/l
eaderboard/3911