Suche senden
Hochladen
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
•
Als PPTX, PDF herunterladen
•
1 gefällt mir
•
2,161 views
Ryohei Suzuki
Folgen
presented@WISS2014 (Hamanako, Japan)
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 30
Jetzt herunterladen
Empfohlen
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
RYOTAETO1
Saito18sp03
Saito18sp03
Yuki Saito
AnnoTone (CHI 2015)
AnnoTone (CHI 2015)
Ryohei Suzuki
汝は計算機なりや?
汝は計算機なりや?
Ryohei Suzuki
色字共感覚と書記素学習
色字共感覚と書記素学習
Ryohei Suzuki
Empfohlen
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
RYOTAETO1
Saito18sp03
Saito18sp03
Yuki Saito
AnnoTone (CHI 2015)
AnnoTone (CHI 2015)
Ryohei Suzuki
汝は計算機なりや?
汝は計算機なりや?
Ryohei Suzuki
色字共感覚と書記素学習
色字共感覚と書記素学習
Ryohei Suzuki
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
My MPEG life: MPEG-2, MPEG-4, H264/AVC and H.265/HEVC
My MPEG life: MPEG-2, MPEG-4, H264/AVC and H.265/HEVC
Osaka University
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究
Takashi Kishida
Ustreamで広報力UP講座資料
Ustreamで広報力UP講座資料
Takeo Noda
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
Yahoo!デベロッパーネットワーク
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラム
Komei Sugiura
インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究
Takashi Kishida
エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略
NVIDIA Japan
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...
cvpaper. challenge
小松★企業内研修における動画教材活用例★ラボイベント<学習スタイルコーディネート>
小松★企業内研修における動画教材活用例★ラボイベント<学習スタイルコーディネート>
デジタル・ナレッジ はが弘明
大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理
Yahoo!デベロッパーネットワーク
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
guest797b90
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
Takuya Nishimoto
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
Transformer based approaches for visual representation learning
Transformer based approaches for visual representation learning
Ryohei Suzuki
Paper memo: persistent homology on biological problems
Paper memo: persistent homology on biological problems
Ryohei Suzuki
Weitere ähnliche Inhalte
Ähnlich wie AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
My MPEG life: MPEG-2, MPEG-4, H264/AVC and H.265/HEVC
My MPEG life: MPEG-2, MPEG-4, H264/AVC and H.265/HEVC
Osaka University
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究
Takashi Kishida
Ustreamで広報力UP講座資料
Ustreamで広報力UP講座資料
Takeo Noda
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
Yahoo!デベロッパーネットワーク
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラム
Komei Sugiura
インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究
Takashi Kishida
エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略
NVIDIA Japan
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...
cvpaper. challenge
小松★企業内研修における動画教材活用例★ラボイベント<学習スタイルコーディネート>
小松★企業内研修における動画教材活用例★ラボイベント<学習スタイルコーディネート>
デジタル・ナレッジ はが弘明
大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理
Yahoo!デベロッパーネットワーク
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
guest797b90
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
Takuya Nishimoto
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
Ähnlich wie AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
(20)
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
My MPEG life: MPEG-2, MPEG-4, H264/AVC and H.265/HEVC
My MPEG life: MPEG-2, MPEG-4, H264/AVC and H.265/HEVC
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究
Ustreamで広報力UP講座資料
Ustreamで広報力UP講座資料
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Kameoka2016 miru08
Kameoka2016 miru08
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラム
インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究
エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...
小松★企業内研修における動画教材活用例★ラボイベント<学習スタイルコーディネート>
小松★企業内研修における動画教材活用例★ラボイベント<学習スタイルコーディネート>
大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理
Interspeech2022 参加報告
Interspeech2022 参加報告
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
音情報処理における特徴表現
音情報処理における特徴表現
Mehr von Ryohei Suzuki
Transformer based approaches for visual representation learning
Transformer based approaches for visual representation learning
Ryohei Suzuki
Paper memo: persistent homology on biological problems
Paper memo: persistent homology on biological problems
Ryohei Suzuki
Paper memo: Optimal-Transport Analysis of Single-Cell Gene Expression Identif...
Paper memo: Optimal-Transport Analysis of Single-Cell Gene Expression Identif...
Ryohei Suzuki
Basic Concepts of Entanglement Measures
Basic Concepts of Entanglement Measures
Ryohei Suzuki
Disentangled Representation Learning of Deep Generative Models
Disentangled Representation Learning of Deep Generative Models
Ryohei Suzuki
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
Ryohei Suzuki
Report: "MolGAN: An implicit generative model for small molecular graphs"
Report: "MolGAN: An implicit generative model for small molecular graphs"
Ryohei Suzuki
等号と不等号の物理学
等号と不等号の物理学
Ryohei Suzuki
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Ryohei Suzuki
コンピュータは知恵熱を出すか?
コンピュータは知恵熱を出すか?
Ryohei Suzuki
身体の中の小宇宙:免疫研究の最前線
身体の中の小宇宙:免疫研究の最前線
Ryohei Suzuki
Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向
Ryohei Suzuki
Collaborative 3D Modeling by the Crowd
Collaborative 3D Modeling by the Crowd
Ryohei Suzuki
アナログとはなんだろう。―古くて新しい、もう一つの計算―
アナログとはなんだろう。―古くて新しい、もう一つの計算―
Ryohei Suzuki
立体音響とインタラクション
立体音響とインタラクション
Ryohei Suzuki
SIGGRAPH 2014 Preview -"Shape Collection" Session
SIGGRAPH 2014 Preview -"Shape Collection" Session
Ryohei Suzuki
Overview of User Interfaces
Overview of User Interfaces
Ryohei Suzuki
Brief Introduction to Recent Spatial Interfaces
Brief Introduction to Recent Spatial Interfaces
Ryohei Suzuki
Generalization of the Concept of Pattern Language
Generalization of the Concept of Pattern Language
Ryohei Suzuki
iii_SGMI #5 "OOP & Design Patterns"
iii_SGMI #5 "OOP & Design Patterns"
Ryohei Suzuki
Mehr von Ryohei Suzuki
(20)
Transformer based approaches for visual representation learning
Transformer based approaches for visual representation learning
Paper memo: persistent homology on biological problems
Paper memo: persistent homology on biological problems
Paper memo: Optimal-Transport Analysis of Single-Cell Gene Expression Identif...
Paper memo: Optimal-Transport Analysis of Single-Cell Gene Expression Identif...
Basic Concepts of Entanglement Measures
Basic Concepts of Entanglement Measures
Disentangled Representation Learning of Deep Generative Models
Disentangled Representation Learning of Deep Generative Models
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
Report: "MolGAN: An implicit generative model for small molecular graphs"
Report: "MolGAN: An implicit generative model for small molecular graphs"
等号と不等号の物理学
等号と不等号の物理学
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
コンピュータは知恵熱を出すか?
コンピュータは知恵熱を出すか?
身体の中の小宇宙:免疫研究の最前線
身体の中の小宇宙:免疫研究の最前線
Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向
Collaborative 3D Modeling by the Crowd
Collaborative 3D Modeling by the Crowd
アナログとはなんだろう。―古くて新しい、もう一つの計算―
アナログとはなんだろう。―古くて新しい、もう一つの計算―
立体音響とインタラクション
立体音響とインタラクション
SIGGRAPH 2014 Preview -"Shape Collection" Session
SIGGRAPH 2014 Preview -"Shape Collection" Session
Overview of User Interfaces
Overview of User Interfaces
Brief Introduction to Recent Spatial Interfaces
Brief Introduction to Recent Spatial Interfaces
Generalization of the Concept of Pattern Language
Generalization of the Concept of Pattern Language
iii_SGMI #5 "OOP & Design Patterns"
iii_SGMI #5 "OOP & Design Patterns"
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
1.
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
鈴木良平 坂本大介 五十嵐健夫 東京大学大学院情報理工学系研究科 1
2.
高性能カメラの普及映像共有文化の発達 映像制作の大衆化 さまざまな人々が、さまざまな目的で
映像コンテンツを作っている 2
3.
問題 魅力的な映像の編集は依然として難しい なぜか?
3 1. オーサリングソフトの習熟コストの高さ 2. 映像の文脈的内容を反映した編集は手間が掛かる …エフェクト追加、カット、キャプションなど 少しでも自動化できないか?
4.
本研究の目的 ■ ビデオ撮影時に映像に意味情報を注釈し
■ 注釈情報を用いて映像編集を支援する ワークフローと基礎技術の提案 (対象:実写映像) 4
5.
AnnoToneの基本アイデア ■ 注釈情報を不可聴な高周波音に変調
■ 撮影中、カメラのマイクから重畳録音 利点 • ほぼあらゆるビデオカメラで利用できる • 映像データそのものに情報を格納できる • 不要時には簡単なフィルタ処理で除去できる 5
6.
Workflow AnnoToneを用いた 映像編集のワークフロー
6
7.
1. 機材のセットアップ ■
ビデオカメラにスマートフォンを固定 ■ スマートフォン上でAnnoToneアプリを起動 スマートフォンの取り付けアプリの起動 7
8.
2. 映像の撮影 ■
撮影中、スマートフォンがユーザー入力や センサデータを取得、ビデオカメラに吹き込む ユーザー入力 センサデータ 撮影シーン 音声透かし信号 8
9.
注釈済み映像の編集 ■ 注釈付き音声から注釈情報を抽出、編集に利用
■ 編集完了後、透かし除去器により注釈シグナルを除去 9
10.
Applications AnnoToneの利用例 10
11.
撮影時映像編集 • 映像撮影中に演技の良し悪しのヒントを記録
• 成功した部分だけを自動的に抽出し、結合 収録時の様子 Good! Bad! Good! 成功失敗成功 成功成功 自動結合結果 (時間) 11
12.
位置情報を用いた映像編集 • 移動撮影中のカメラのGPS座標系列を編集に利用
地図上のスケッチによる 対応映像の切り出し 地図画像の重畳 12
13.
グラフィックの自動合成 • チェス試合撮影時に棋譜をタッチパネルで記録
• 棋譜から試合状況のグラフィックを自動合成 棋譜記録用UI グラフィックが合成された映像13
14.
AfterEffectsとの統合 • AnnoToneプラグインが注釈情報を抽出
• エフェクトやアニメーションの生成に利用可能 ⇒ 既存の映像制作ノウハウの有効活用 14
15.
Related work 関連研究
15
16.
ContextCam [Patel &
Abowd, 2004] ■ 撮影時に位置・場面等の注釈を記録し、映像管理に活用 ■ 注釈情報は映像の各フレームに画像透かしとして埋込み 既存のビデオカメラと組み合わせることは出来ない 16
17.
Cryptone [Hirabayashi &
Shimizu, 2012] ■ 高周波音を用いた、ライブ会場でのインタラクション ■ ラウドスピーカーと観客手持ちスマートフォンとの連携 本研究では編集支援のために同様の音声透かし技術を利用 17 01001 11010
18.
Methods 注釈埋め込みの手法 18
19.
高可聴域を用いた音声透かし 音声透かし(Bender
et al., 1996) • 人間には分からない形で音声信号に情報を埋め込む • 多くの手法はオフラインな埋め込み 高可聴域への情報コーディング Frequency (Hz) 22k 20k 18k 20 高可聴域 (ほぼ不可聴) 情報埋め込み可能 +信号除去が容易 19 音声データ 記録域 ヒト 可聴域
20.
DTMFベースの埋め込みプロトコル Dual-Tone
Multi-Frequency (DTMF) • 7周波数のうち2正弦波の重ねあわせで4bitを表現 USC [Hirabayashi&Shimizu, 2012] を拡張 • 可変長のパケットを表現するプロトコルを開発 • シグナルあたり10msで、400bpsのグロスレート 音声透かし信号のスペクトログラム20
21.
Evaluations 性能評価 21
22.
音声透かしの信頼性 ■ 埋め込んだ音声透かしの抽出成功率
– 様々な音響条件(静音・街中・音楽再生)で試験 – いずれの条件でも95%以上の成功率を検証 ■ 音声圧縮に対する透かしの保存率 – Ogg Vorbis, AC-3, AACでは中音質以上で損失なし – MP3では高音質でも半数以上損失(∵コーデック特性) ※ デコード速度(Java実装) – 約11倍速(2GHz Intel Core i7, 8GB RAM) 22
23.
音声透かしの不可聴性 ■ 注釈済み音源からの検知が可能か実験(6人)
• 透かしは完全に不可聴ではない(個人差・年齢依存) • 透かし除去器の適用後はほぼ完全に不可聴となった 100 80 60 40 20 0 silent public rock electronic Noticed Watermark Rate (%) Before Erasure After Erasure 23
24.
Quiz 1 Q.
どちらが透かし入り? 24 A B
25.
Quiz 2 Q.
どちらが透かし(フィルタ済み)入り? 25 A B
26.
Conclusions まとめ 26
27.
研究の目的 • 映像編集を支援するための注釈手法の開発
• 注釈付ビデオを編集するワークフローの提案 アプローチ • 注釈情報を音声透かし信号として重畳録音 • カメラに取り付けたスマートフォンからの吹込み • 編集ソフト用ライブラリやAEプラグインの開発 27
28.
利点 • 特殊な機材が不要
• ファイル形式に非依存 • 映像との同期性に優れる ⇒ 映像制作プロセスへの導入が容易 制約 • 目的ごとのアプリ開発必要性(AnnoToneはToolkit) • 透かし除去時の音質低下 28
29.
29
30.
注)スマートフォン記録に対する比較 ※スマホ撮影時には直接メタデータを書き出せる –
e.g., Adobe XMP • ビデオカメラ自体の性能差 – 画質、機能面など • 外部ファイルとの対応付けが不要 – 編集ソフトを選ばない – 切り出し処理などで時間対応が崩れない 30
Hinweis der Redaktion
Situation: ビデオ撮影やコンテンツ制作の普及
何度もプレビューする必要があったり、映像をよく
カメラにスマートフォンを固定する AnnoTone用のアプリを起動する
3. 映像を撮影する 4. 撮影中、スマートフォンを操作したり、センサーを使って注釈情報を取得する 5. スマートフォンのスピーカーから注釈情報を変調した不可聴音が発生、 ビデオカメラのマイクから映像データ中に情報が埋め込まれる
(ワークフローの全体図) 今回は全体的なワークフローおよび、基本技術を提案している スマホアプリ・編集アプリはライブラリを提供 従来のワークフローに組み込んで、すぐに使える ごちゃごちゃしていてわかりづらい ワークフローの順を追ってアニメーションにする 中央にわくをつける
ビデオを流す(またはデモ) ビデオ講義の撮影など、何度も撮り直しテイクを管理する手間を省く ----- 会議メモ (2014/11/25 15:23) ----- このデモをやりたい
アニメーション ->説明図
説明が長すぎる ひとことですませる
図が分からない ラウドスピーカーを使うことをちゃんと説明する、頭を入れる(絵を描く)
箱は横幅に意味があるように見えて不適切
100%という表現は誤解を招く 下側の%表記をやめる
A: default B: watermarked
制約 ・目的ごとにアプリケーションを作らなければならないこと 発表後にその場で聞こえるか試せるように(デモはできるように) ----- 会議メモ (2014/11/25 15:23) ----- デモ
Jetzt herunterladen