[DICOMO’15]複数カメラで撮影したスポーツ映像ストリームの実時間自動編纂システムの提案

複数カメラで撮影したスポーツ映像ストリームの
実時間自動編纂システムの提案
1
藤澤和輝†，平部裕子†，諏訪博彦†，荒川豊†，安本慶一†
†奈良先端科学技術大学院大学
DICOMO2015

研究概要
2
野球の1試合の3イニング分の映像を機械学習により自動識別
DICOMO2015
将来、人工知能（AI）が一般の観戦者が撮影した複数のカメラの映像を
リアルタイムで自動で切替えてスポーツ中継してくれる時代が来る！
カメラマンの独自性が反映されない決まったルールに基づき
撮影されたカメラワーク間の切替え
→ 加重平均Ｆ値 75.14％の精度
AI（提案システム）TV

目次
3
1. 研究背景と目的
2. 関連研究
3. 提案手法
4. 評価実験
5. まとめ
DICOMO2015

研究背景
• 様々な価値観を持つ視聴者の現在のスポーツ中継に対する不満
• 映っている対象、ズームレベルやアングル等
• IoT時代の本格化
• リアルタイム分散処理フレームワーク
（c.f Jubatus , Apache Spark , Storm）
• CGM(Consumer Generated Media)
• 無料ライブ中継アプリの登場
• ミーアキャット、ペリスコープ
4DICOMO2015
実世界のあらゆる場所で湧出する複数のスポーツ映像
ストリームのリアルタイムキュレーションの最適化
キュレーションとは
インターネット上のあらゆる情
報を、編纂者独自の価値判断
でまとめて整理すること

従来のスポーツライブ中継
5DICOMO2015
. . .
視聴者
放
送
. . .
. . .
. . .
スイッチャー
時刻t
. . .
TV局のカメラマン
の撮影場所
テレビ局
ch1
実況席
解説席

研究目的
6
次世代ライブ中継
. . .
観客席
観客席
キュレータAのチャンネル
キュレータBのチャンネル
視聴者
配
信
個人化
＋
高臨場感
検索サイト
A
時刻t
様々な場所で生まれた映像やつぶやき・
音声をリアルタイムに収集・選択・編纂
B
時刻t
. . .
キュレータ（人間や人工知能）
. . .
. . .
...
. . .
DICOMO2015
実況席
解説席
上空

目次
7
2. 関連研究
3. 提案手法
4. 評価実験
5. まとめ
DICOMO2015

関連研究（1/2）
• キュレーションアプリ[1]
• ユーザーの興味のありそうなコンテンツを絞り込んで提供
• ニュースや記事といった静的なコンテンツが対象
• ニコニコ生放送で複数カメラ切替えシステム [2]
• 複数のユーザーが同一のコンテンツをコマンド入力により操作
• スムーズに切替えられないし、ユーザーの手間がかかる
• ビデオジョッキーシステム [3]
• リアルタイムメディアを対象
8DICOMO2015
[1] スマートニュース,Gunosy
[2]米澤他：Enhancing communication and dramatic impact of online live performance with cooperative audience control，UBICOMP2012
[3] VDMX5
リアルタイムメディアに対してはない
映像の数が膨大になると目で追いつけない
キュレータにみんなの要望を満たすように画面を切替えてもらうべき

関連研究（2/2）
9
藤澤他：キュレータの価値観に基づく複数映像情報流の実時間編纂支援システム，
第22回マルチメディア通信と分散処理ワークショップ(DPSWS)，2014-12
キュレータAの
チャンネル
多様なチャンネル
...
キュレータBの
チャンネル
…
キュレータ
（誰でもなれる編纂者）
俯瞰度の高
い映像を配
信したい
. . .
. . .
メタ情報
• キュレータの価値観に基いて映像をリアルタイ
ムでスコア付けし上位のみを絞り込み
• 配信する映像とツイートを手動で
切り替え
機能
視聴者
メタ情報
メタ情報
DICOMO2015
「価値（ストーリー）を入力」＋「手動で編纂」と手間が二重
価値を入れるだけでリアルタイムメディアを編纂するシステムが求められる
今回はキュレータが「テレビ局が放送するような映像に仕上げたい」
と考えている想定
価値

目次
10
2. 関連研究
3. 提案手法
4. 評価実験
5. まとめ
DICOMO2015

対象とするスポーツ映像
• どのスポーツ映像を対象にすべきか？
• 題材には高校野球を選択
• 自動化を行いやすい
• 野球はボールが動いている状態と動いていない状態のオンオフが
はっきりしている
• 野球はランナーの走るコースが決まっている
• サッカーはボールや選手の動きがランダムな為、自動化は難しい
• 手動の編纂作業は手間がかかる
• テニスやバレーだと、想定されるカメラワークが少なく、そもそも
手間がかからない
11DICOMO2015

高校野球を対象とした場合の解決すべき課題
1. 教師データを何にするのか？
1. どのような機械学習モデルを構築するのか？
2. 訓練データはどうするのか？
12DICOMO2015
TV局が放送した映像
Random Forestを用いた識別モデルを構築
← 判定速度が高くリアルタイム処理に向く

訓練データ
13DICOMO2015
t Aのメタ情報 Bのメタ情報・・・ Gのメタ情報試合進行情報 ID
0s D
3s A
一般の複数の観戦者が撮影した
各映像ストリーム中の各区間データに
対する画像特徴群
TVで放送される
映像に最も近い映像
（正解データ）
各時刻における
試合の状況を表
す情報群
・・・
ピッチャーキャッチャーバッター審判ボール監
督
ラン
ナー
野手ベンチ観客席俯瞰度
1 0 0 1 1 0 0 0 0 1 中
イニング数打順アウトカウントランナー出塁状況ピッチャーの状況
1回表 1 0 0 なし投球フェーズ

目次
14
2. 関連研究
3. 提案手法
4. 評価実験
5. まとめ
DICOMO2015

サンプルデータの収集
15DICOMO2015
• 阪神甲子園球場で高校野球の試合映像を
撮影
• 次スライドで説明
• メタ情報
• 今回はyahooクラウドソーシングを用いて付与
• 試合進行情報
• 今回は手動で付与
ピッチャー・キャッチャー・バッター・審判・ボール・
監督・ランナー・野手・ベンチ・観客席・売り子・俯瞰度
イニング数・打順・アウトカウント・勝っているチーム・出塁状況・ピッチャーの状況

阪神甲子園球場での撮影環境
16
地点撮影席
A 中央特別自由席[一塁寄り]
B 中央特別自由席[三塁寄り]
C 一塁特別自由席
D 一塁アルプス席
E 三塁アルプス席
F 外野席
G 外野席[バックスクリーン横]
地点撮影方針
A ピッチャーを主に撮影
B ピッチャーを主に撮影
C 一塁ランナーを撮影[いなければバッターを撮影]
D 自由に撮影
E 自由に撮影
F 売り子を撮影[いなければ自由に撮影]
G ピッチャーの背面を常に撮影
DICOMO2015
撮影者は特別野球に
精通していない男女計7名
（20代男性5名、20代女性2名）

実証実験による性能評価
• サンプルデータ
• 各区間のデータ毎にメタ情報と試合進行情報を付与
• 機械学習アルゴリズム
• Random Forest
• 評価メトリクス
• 識別結果における正解データの割合.適合率(Precision)
• 対象データの全体数における正解データの割合.再現率(Recall)
• F値（適合率と再現率の調和平均）
• 評価方法
• 交差検証法
• 実際のテレビ局でスイッチャーを経験された方へのインタビュー
17
試合数 1試合
カメラの数 7台
イニング数 3イニング
1区間のデータの長さ 3秒
DICOMO2015

交差検証法による評価結果
（インタビュー前）
18
%
地点
DICOMO2015
0
10
20
30
40
50
60
70
80
90
100
A B C D E G 該当なし加重平均
Ｆ値
92.10%
Ｆ値
69.80%
Ｆ値 0%
加重平均F値：64.5%
予測
正
解
A B C D E G 該
当な
し
A 16 6 7 0 0 3 22
B 5 10 3 2 1 5 21
C 5 4 37 0 2 2 23
D 3 2 0 0 0 2 15
E 0 1 2 0 2 0 6
G 1 0 1 1 0 176 4
該
当な
し
16 6 11 0 1 11 157
TV局が設置した場所
と同じ場所から撮影し
たカメラ

実際のテレビ局でスイッチャーを経験された方への
インタビュー
19DICOMO2015
ベースカメラワーク
コンテキストカメラワーク
カメラマンの独自のコンテキストが反映されるカメラワーク
スポーツ中継のカメラワークには大きく分けて2種類のカメラワークが存在
固定カメラワーク
ディレクタのその日の趣向に左右されることがなく、カメラマンの独自性が反映
されない決められたルールに則ったカメラワーク
カメラマンが撮影する上で、決してルールから外れることのないカメラワーク

（インタビュー後）
20
%
地点
DICOMO2015
0
10
20
30
40
50
60
70
80
90
100
A B C D E G 該当なし加重平均
地
点
撮影方針
A ピッチャーを主に撮影
B ピッチャーを主に撮影
C バッターや一塁ランナーを撮影
D 自由に撮影
E 自由に撮影
（固定カメラワーク）
（固定カメラワークではな
い）
A地点とB地点を一つの
カメラワークとして統合
A地点とB地点が比較的
低い
ベースカメラ
ワーク全体
（AorB,C,G）の
Ｆ値 75.14%
ベースカメラ
ワーク全体
（A,B,C,G）の
Ｆ値 72.53%
% 固定カメラ
ワークGの
Ｆ値92.10%

0
10
20
30
40
50
60
70
80
90
100
A or B C D E G 該当なし加重平均
（インタビュー後）
21
%
地点
DICOMO2015
地
点
撮影方針
A
or
B
ピッチャーを主に撮影
C バッターや一塁ランナーを撮影
D 自由に撮影
E 自由に撮影
（固定カメラワーク）
（固定カメラワークではな
い）
A地点とB地点を一つの
カメラワークとして統合
ベースカメラ
ワーク全体
（AorB,C,G）の
Ｆ値 75.14%
ベースカメラ
ワーク全体
（AorB,C,G）の
Ｆ値 75.14%
固定カメラ
ワークGの
Ｆ値92.10%

目次
22
2. 関連研究
3. 提案手法
4. 評価実験
5. まとめ
DICOMO2015

まとめ
• 一般のスポーツの観戦者が撮影した複数映像ストリーム
を用いて、TV局が放送したような映像を生成するシステ
ムを提案・評価
• 機械学習によるカメラの切替えタイミングの最適化
23
今後の計画
• サンプル数の増大による精度の向上
• 高校野球の他の試合やプロ野球, メジャーリーグの試合への適用
• コンサートでのライブ中継等の他分野への適用
DICOMO2015
ベースカメラワーク間の切替え → 加重平均Ｆ値 75.14％
固定カメラワークの切替え → 加重平均Ｆ値 92.10％

[DICOMO’15]複数カメラで撮影したスポーツ映像ストリームの実時間自動編纂システムの提案

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Ubi NAIST

Mehr von Ubi NAIST (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

[DICOMO’15]複数カメラで撮影したスポーツ映像ストリームの実時間自動編纂システムの提案

Hinweis der Redaktion