Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

[DL輪読会]Efficient Video Generation on Complex Datasets

587 Aufrufe

Veröffentlicht am

2019/08/23
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

[DL輪読会]Efficient Video Generation on Complex Datasets

  1. 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ “Efficient Video Generation on Complex Datasets” Matsuo Lab, Ryo Okada
  2. 2. Outline 1. 書誌情報 2. 論文の概要 3. 背景・先行研究 4. 提案手法 5. 実験 6. まとめ 2
  3. 3. 書誌情報 • タイトル – Efficient Video Generation on Complex Datasets • 著者: – Aidan Clark, Jeff Donahue, Karen Simonyan(Deepmind) 3
  4. 4. 概要 • 概要 – DVD-GANの提案 • DVD: Digital versatile discではなく Dual Video Discriminatorの意味 – 高解像度(最大256 x 256)で、長い(最大 48フレーム/4秒くらい)の動画を生成可能 – Kinetics-600の動画予測タスクとUCF-101 の動画生成タスクでSOTA • Contribution – 高解像度(最大256 x 256)で、長い(最大 48フレーム)の動画を生成可能なDVD-GANの 提案 – UCF-101の動画生成とKinetics-600の動画 予測タスクにおけるSOTA – ビデオ生成における新しいベンチマークとし 4
  5. 5. 背景 • 動画生成と予測タスクの例 – 訓練データの分布に従って様々な動画も生成する(条件付けしない) – ある動画をもとにコンテンツトランスファーやフレームごとのセグメンテー ション、姿勢推定として利用する(強く条件付けする) – クラスで条件付けした動画生成タスク / Class conditional video synthesis • 与えられたカテゴリのビデオを生成する – 将来動画予測 / Future video prediction • 与えられた最初のフレームから続くビデオを生成する – いずれのタスクにもリアルな動画を生成したいモチベーションは共通する 5
  6. 6. 背景 • 先行研究 – 物体の質感と時間的な流れの一貫性の分解するアプローチが多い • MoCoGAN – GでRNNを使用し系列性を考慮 – 画像の品質を判定するフレームごとのDと動きを判定するビデオ全体を処理するDを用意 • オプティカルフローの活用(GとD) – その他以下のような計算量を下げる工夫を用いた研究が多い • フレームのグループごと処理 • 異なる解像度ごとのサブバッチ単位で処理 6
  7. 7. DVD-GAN 7 工夫① 事前学習やOptical Flowを利用しない代 わりに計算量の大きなネットワークを使用 工夫② それぞれのフレームの特徴をRNNにて系列で抽出し、self attentionを通り、フレームごとResNetに入力。これによりそ れぞれのフレーム内のピクセルが関連性を持って出力される。 工夫③ Separable self Attention 工夫④ Dual Discriminator
  8. 8. Separable Self Attention 8 Self Attentionによって特徴 マップ上の大域的な情報を取り出 したいが、 self attentionは必要な計算 量とメモリサイズが大きい Separable self attention を導入 3つの並列なAttention層を用 意し、 それぞれ横幅(W)、縦幅(H)、 時間(T)に絞って計算すること で計算量を削減 計算量: (𝐻𝑊𝑇)2 計算量: 最大 𝐻2 𝑊𝑇, 𝐻𝑊2 𝑇, 𝐻𝑊𝑇2
  9. 9. Dual Discriminator • 2つのDiscriminator – 空間的Discriminator: 𝐷𝑠 • K個の解像度のフレームをランダムにサンプ リングし、単一フレーム内の内容や構成を 識別する(今回はk=8を選択) • 処理データ量:K x H x W – 時間的Discriminator: 𝐷𝑡 • Dsでは識別されない、動きを生成するため の学習信号を捉えたい。 • スケーリングのため、resolutionを落と して扱いたい。空間的ダウンサンプリング としてφ(2 x 2のAverage Pooling)を 動画全体に処理し、その出力をDtへ入力す る。 • 処理データ量: T x H/2 x W/2 9
  10. 10. 実験 • 計算機環境 – TPU v3 pods – TF-Replicatorで並列処理 – 訓練時間12~96時間 • データセット – Kinetics-600 • 10秒間のYouTube HDビデオクリッ プ(元々human action recognition用) • 600のカテゴリ。 • 全部で約50万個のビデオ – UCF-101 • より小さい13,320個の動画(human actions) 10 • 実験タスク – Class conditional video synthesis • クラスで条件付けした動画生成タスク – Future video prediction • 将来動画予測 – Dにおけるパラメータ検証 – フレーム補間の検証 • 評価指標 – 一般的な評価指標のISとFID
  11. 11. 実験結果 11 • Kinetics-600における動画生成結果 • 本結果は今後の研究の指標となるベンチマークを提示 – 比較できる先行研究の結果はなく、本研究におけるContributionの1つ • 全てのビデオは入力の際リサイズされるので、フレーム数が同じであれば サイズが異なっても比較できる数字
  12. 12. 実験結果 12 • UCF-101における動画生成 タスク • SOTAを達成
  13. 13. 生成例 13
  14. 14. 生成例 14
  15. 15. 64x64_12frame 15
  16. 16. 256x256_12frame 16
  17. 17. 128x128_48frame 17
  18. 18. • 12 frames of 64 x 64 – https://drive.google.com/file/d/1YJtaQgVDnt_r35xKghelgd4V8Po-Ueaz/view • 12 frames of 256 x 256 – https://drive.google.com/file/d/1wagcMpBAnIfYSEgnOoAbEJoqmHTnrpcr/view • 48 frame of 128 x 128 – https://drive.google.com/file/d/19kXShENC-7KC-VjkIR3GixcdLVgSGSW5/view 18
  19. 19. 生成例 19 • サイズが小さい動画は質感も綺麗で、一貫性のある動画を生成でき ている。サイズが大きくなると、一貫性の物体を生成するのはより 難しくなり乱れている。一方、背景は綺麗に見える • フレームが異なっても今回kの値は固定で8にしているため、48フ レームの方が12より解像度は高くならないはずだが、48でも高い解 像度で生成できているように見える
  20. 20. Dにおけるパラメータ検証 • 𝐷 𝑇におけるφ(Average pooling)を変化 • FIDスコアはあまり変化しないが ISはダウンサンプリングが大きく なるにつれてスコアが劣化 20 • 𝐷𝑠におけるk(サンプリング個 数)を変化 • Kを大きくするといずれのスコア も改善
  21. 21. フレーム補間 • フレーム補間 – 𝑧0と𝑧1の間を潜在ベクトルより補間する – いずれの場合も比較的スムーズな動画を生成できているように見える 21
  22. 22. まとめ • まとめ – 高解像度(最大256 x 256)で、長い(最大48フレーム)の動画を生成可能な DVD-GANの提案 – UCF-101の動画生成とKinetics-600の動画予測タスクにおけるSOTA – ビデオ生成における新しいベンチマークとしてKinetic-600を確立 • 感想 – 単に高精細なものを生成する意識だけでなく、処理サイズを軽減する工夫に配 慮しなければならない領域 – 計算量の多い動画生成の分野においてself attentionをうまく活用すること によって高精細な生成に成功 – これで動画生成ができた、と言うよりこの分野の方向性を示したような意味合 いが強い 22
  23. 23. THANK YOU. 23

×