AnnoTone: 高周波音の映像収録時埋め込みによる編集支援

AnnoTone:
高周波音の映像収録時
埋め込みによる編集支援
鈴木良平
坂本大介
五十嵐健夫
東京大学大学院情報理工学系研究科
1

高性能カメラの普及映像共有文化の発達
映像制作の大衆化
さまざまな人々が、さまざまな目的で
映像コンテンツを作っている
2

問題
魅力的な映像の編集は依然として難しい
なぜか？
3
1. オーサリングソフトの習熟コストの高さ
2. 映像の文脈的内容を反映した編集は手間が掛かる
…エフェクト追加、カット、キャプションなど
少しでも自動化できないか？

本研究の目的
■ ビデオ撮影時に映像に意味情報を注釈し
■ 注釈情報を用いて映像編集を支援する
ワークフローと基礎技術の提案
（対象：実写映像）
4

AnnoToneの基本アイデア
■ 注釈情報を不可聴な高周波音に変調
■ 撮影中、カメラのマイクから重畳録音
利点
• ほぼあらゆるビデオカメラで利用できる
• 映像データそのものに情報を格納できる
• 不要時には簡単なフィルタ処理で除去できる
5

Workflow
AnnoToneを用いた
映像編集のワークフロー
6

1. 機材のセットアップ
■ ビデオカメラにスマートフォンを固定
■ スマートフォン上でAnnoToneアプリを起動
スマートフォンの取り付けアプリの起動
7

2. 映像の撮影
■ 撮影中、スマートフォンがユーザー入力や
センサデータを取得、ビデオカメラに吹き込む
ユーザー入力
センサデータ
撮影シーン
音声透かし信号
8

注釈済み映像の編集
■ 注釈付き音声から注釈情報を抽出、編集に利用
■ 編集完了後、透かし除去器により注釈シグナルを除去
9

Applications
AnnoToneの利用例
10

撮影時映像編集
• 映像撮影中に演技の良し悪しのヒントを記録
• 成功した部分だけを自動的に抽出し、結合
収録時の様子
Good! Bad! Good!
成功失敗成功
成功成功
自動結合結果
（時間）
11

位置情報を用いた映像編集
• 移動撮影中のカメラのGPS座標系列を編集に利用
地図上のスケッチによる
対応映像の切り出し
地図画像の重畳
12

グラフィックの自動合成
• チェス試合撮影時に棋譜をタッチパネルで記録
• 棋譜から試合状況のグラフィックを自動合成
棋譜記録用UI グラフィックが合成された映像13

AfterEffectsとの統合
• AnnoToneプラグインが注釈情報を抽出
• エフェクトやアニメーションの生成に利用可能
⇒ 既存の映像制作ノウハウの有効活用
14

Related work
関連研究
15

ContextCam
[Patel & Abowd, 2004]
■ 撮影時に位置・場面等の注釈を記録し、映像管理に活用
■ 注釈情報は映像の各フレームに画像透かしとして埋込み
既存のビデオカメラと組み合わせることは出来ない
16

Cryptone
[Hirabayashi & Shimizu, 2012]
■ 高周波音を用いた、ライブ会場でのインタラクション
■ ラウドスピーカーと観客手持ちスマートフォンとの連携
本研究では編集支援のために同様の音声透かし技術を利用
17
01001
11010

Methods
注釈埋め込みの手法
18

高可聴域を用いた音声透かし
 音声透かし(Bender et al., 1996)
• 人間には分からない形で音声信号に情報を埋め込む
• 多くの手法はオフラインな埋め込み
 高可聴域への情報コーディング
Frequency (Hz)
22k
20k
18k
20
高可聴域
（ほぼ不可聴）
情報埋め込み可能
＋信号除去が容易
19
音声データ
記録域
ヒト
可聴域

DTMFベースの埋め込みプロトコル
 Dual-Tone Multi-Frequency (DTMF)
• 7周波数のうち2正弦波の重ねあわせで4bitを表現
 USC [Hirabayashi&Shimizu, 2012] を拡張
• 可変長のパケットを表現するプロトコルを開発
• シグナルあたり10msで、400bpsのグロスレート
音声透かし信号のスペクトログラム20

音声透かしの信頼性
■ 埋め込んだ音声透かしの抽出成功率
– 様々な音響条件（静音・街中・音楽再生）で試験
– いずれの条件でも95%以上の成功率を検証
■ 音声圧縮に対する透かしの保存率
– Ogg Vorbis, AC-3, AACでは中音質以上で損失なし
– MP3では高音質でも半数以上損失（∵コーデック特性）
※ デコード速度（Java実装）
– 約11倍速（2GHz Intel Core i7, 8GB RAM）
22

音声透かしの不可聴性
■ 注釈済み音源からの検知が可能か実験（6人）
• 透かしは完全に不可聴ではない（個人差・年齢依存）
• 透かし除去器の適用後はほぼ完全に不可聴となった
100
80
60
40
20
0
silent public rock electronic
Noticed Watermark Rate (%)
Before Erasure
After Erasure
23

Quiz 1
Q. どちらが透かし入り？
24
A B

Quiz 2
Q. どちらが透かし（フィルタ済み）入り？
25
A B

研究の目的
• 映像編集を支援するための注釈手法の開発
• 注釈付ビデオを編集するワークフローの提案
アプローチ
• 注釈情報を音声透かし信号として重畳録音
• カメラに取り付けたスマートフォンからの吹込み
• 編集ソフト用ライブラリやAEプラグインの開発
27

利点
• 特殊な機材が不要
• ファイル形式に非依存
• 映像との同期性に優れる
⇒ 映像制作プロセスへの導入が容易
制約
• 目的ごとのアプリ開発必要性（AnnoToneはToolkit）
• 透かし除去時の音質低下
28

注）スマートフォン記録に対する比較
※スマホ撮影時には直接メタデータを書き出せる
– e.g., Adobe XMP
• ビデオカメラ自体の性能差
– 画質、機能面など
• 外部ファイルとの対応付けが不要
– 編集ソフトを選ばない
– 切り出し処理などで時間対応が崩れない
30

AnnoTone: 高周波音の映像収録時埋め込みによる編集支援

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie AnnoTone: 高周波音の映像収録時埋め込みによる編集支援

Ähnlich wie AnnoTone: 高周波音の映像収録時埋め込みによる編集支援 (20)

Mehr von Ryohei Suzuki

Mehr von Ryohei Suzuki (20)