2. Оглавление
Введение
Где используются методы сопоставления
видео?
Основные подходы к описанию видео
Алгоритмы сопоставления
Заключение, планы
2
CS MSU Graphics & Media Lab (Video Group)
3. Где используются методы
сопоставления видео?
Поиск дубликатов в базе фильмов
Генерация сценариев для быстрого
просмотра
Поиск фрагментов в базе
3
CS MSU Graphics & Media Lab (Video Group)
4. Оглавление
Введение
Алгоритмы сопоставления
Алгоритм GMLabVideoGroup
Сопоставление строк
Иерархический метод
Поиск оптимального сопоставления в графе
Заключение, планы
5
CS MSU Graphics & Media Lab (Video Group)
5. Алгоритм GMLabVideoGroup
Основные этапы:
1. Описание видео:
a. Разбиение видео на сцены
b. Построение дерева сцен
2. Сравнение фильмов
6
CS MSU Graphics & Media Lab (Video Group)
6. Алгоритм GMLabVideoGroup
Разбиение на сцены
1. Каждый кадр описываемой последовательности
разбивается на блоки 32x32 пиксела
2. Для каждого блока строится гистограмма
распределения яркости
Н ( x, y, t ) {hk ( x, y), k 1, m},
где ( x, y) координата блока в кадре,
m 64 колличество уровней яркости в гистограмме.
7
CS MSU Graphics & Media Lab (Video Group)
7. Алгоритм GMLabVideoGroup
Разбиение на сцены
3. Вычисляется мера разности соседних кадров
dH ( x, y, t 1) {hk ( x, y, t 1) hk ( x, y, t ), k 1, m},
Diff (t 1) S (G(dH (t 1))), где G() низкочастотный фильтр, S ( H )
m
x, y
hk . k 1
H (t ) : H (t 1) : dH (t 1) : G(dH (t 1)) :
CS MSU Graphics & Media Lab (Video Group)
8. Алгоритм GMLabVideoGroup
Разбиение на сцены
4. Для более устойчивой работы в условиях стабильно
высоких разностей кадров массив обрабатывается
высокочастотным фильтром:
F {1,1,1,1,8,1,1,1,1}.
5. Определение смен сцены:
Если F ( Diff (ti )) Th, тогда ti положение смены сцены.
Th некоторый порог.
При построении дерева учитываются только разности,
9
удовлетворяющие этому условию.
CS MSU Graphics & Media Lab (Video Group)
9. Алгоритм GMLabVideoGroup
Построение дерева сцен
9000000
8000000
7000000
difference
6000000
1. Находится максимальное
5000000
4000000
3000000
2000000
значение в массиве
1000000
0
-1000000
0 20 40 60 80 100
frames
разностей
2. Строится вершина дерева pos = 38
diff = 1,12
3. Для правой и левой частей
массива применяется п.1
CS MSU Graphics & Media Lab (Video Group)
10. Алгоритм GMLabVideoGroup
Сравнение фильмов
Основные этапы:
1. Позиционирование короткого фильма более длинном
2. Построение оценки разности
3. Выбор наилучшего сопоставления
4. Построение дерева наилучшего кандидата
5. Обратный поиск
6. Усреднение оценок прямого и обратного поиска 11
CS MSU Graphics & Media Lab (Video Group)
11. Сравнение фильмов
Позиционирование
1. Позиционирование короткого фильма более длинном
D1 D
a) Выбирается доминирующая смена
сцены D2 D3
b) Составляется вектор сцен кандидатов
(обход в ширину) D4 D5 D6 D7
Если D Di Th, то сцена помечается как кандидат
c) Для каждой сцены кандидата координаты смен сцен
сопоставляются и выполняется п.2 12
CS MSU Graphics & Media Lab (Video Group)
12. Сравнение фильмов
Оценка разности D
D’ D’’
2. Построение оценки разности
a) Находится смещение дочерней по
отношению к доминирующей смены
сцены(D’) в длинном фильме
b) Производится поиск близких по
координате и силе смен сцены, начиная
D1 D’
с корня
c) Выбирается лучший кандидат по
следующей мере: D2 D3
Diff ( D' , Di ) ( D' Di ) 2 (t 'ti ) 2 ,
где t ' предположительное положение D’. D4 D5 D6 D7
ti положение
коэффициент, выравнивающий влияние
положения и силы вершины кандидата
13
CS MSU Graphics & Media Lab (Video Group)
13. Сравнение фильмов
Оценка разности D
D’ D’’
d) Та же самая процедура повторяется для
всех вершин короткого фильма, глубина
которых <5
e) Если не найдено близких вершин
полагаем, что искомая вершина лежит на
границе Found
nothing
SD_difference
Pos_threshold
f) Если найдено <3 вершин, то полагаем,
что поиск неуспешен
SD_threshold
g) Вычисляем разность: D’
t’
Diff ( D, D1 ) Diff ( D'k , Dik ).
Position
k
14
CS MSU Graphics & Media Lab (Video Group)
14. Сравнение фильмов
Обратный поиск
3. Выбор наилучшего сопоставления
4. Построение дерева наилучшего кандидата
a) «Разбор» дерева длинного фильма
b) Получения массива смен сцены
c) Построение поддерева
5. Обратный поиск
6. Усреднение оценок прямого и обратного поиска
Оценка разности окончательно:
Diff (Vi ,V j ) (min ( Diff ( D, Dk )) min (CrossDiff ( D1 , D's ))) / 2.
k s 15
CS MSU Graphics & Media Lab (Video Group)
15. Алгоритм GMLabVideoGroup
Характеристики алгоритма
Время построения индекса: O(l ), l длина фильма.
Скорость поиска: O(m log( m)), m max( p, q),
p, q колличества сцен в сравниваемых
фрагментах
Ограничения:
Корректно работает только с достаточно
большими видео, не справляется с
перемонтированным видео
16
CS MSU Graphics & Media Lab (Video Group)
16. Алгоритм GMLabVideoGroup
Результаты
Алгоритм тестировался на базе из ~900 фильмов, разбитых на 5 групп.
Размер групп фильмов и их описаний
Размер группы Размер индекса Размер после
Номер группы
(Mb) (Mb) сжатия (Mb)
1 7170 4,6 0,86
2 870 1,0 0,18
3 2690 0,9 0,18
4 3050 2,5 0,43
5 480 0,74 0,05
Объединенная
13900 9,74 1,7
группа
17
CS MSU Graphics & Media Lab (Video Group)
20. Алгоритм GMLabVideoGroup
Результаты
United Group
1
0.9
0.8
0.7
Precision
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.2 0.4 0.6 0.8 1
Recall
21
CS MSU Graphics & Media Lab (Video Group)
21. Оглавление
Введение
Алгоритмы сопоставления
Алгоритм GMLabVideoGroup
Сопоставление строк
Иерархический метод
Поиск оптимального сопоставления в графе
Заключение, планы
22
CS MSU Graphics & Media Lab (Video Group)
22. Сопоставление строк
Основная идея:
Представить видеопоследовательность в виде строки символов и
свести задачу сопоставления видео к задаче сопоставления строк
Основная проблема:
Грамотный выбор весовой функции для сопоставления строк
"Detection of video sequences using compact signatures ", 23
T.C. Hoad and J. Zobel, ACM Transactions on Information
Systems (TOIS), 24(1):1-50, January 2006.
CS MSU Graphics & Media Lab (Video Group)
23. Сопоставление строк
Предложено четыре метода:
1. Представление фильма в виде массива длин сцен
2. Видео - массив покадровых изменений яркости
3. Сохранение длины вектора глобального движения от кадра к кадру
4. Комбинированный метод
У всех методов есть общая часть – алгоритм сопоставления строк
"Detection of video sequences using compact signatures ", 24
T.C. Hoad and J. Zobel, ACM Transactions on Information
Systems (TOIS), 24(1):1-50, January 2006.
CS MSU Graphics & Media Lab (Video Group)
24. Сопоставление строк
Стратегия поиска
sip k
Вычисление меры сходства:
string1
siq
n
Sim(Vq ,V p ) max ( Sc( s , s ik ))
q p string2
i
k
i 1
На каждом шаге алгоритма окно поиска сдвигается на 1 кадр
25
CS MSU Graphics & Media Lab (Video Group)
25. Сопоставление строк
Весовая функция
sip k
Обозначение: k ( s iq s p ),
j
string1
1. Бинарная весовая функция siq
string2
20, s s ik
q p
Sc( siq , s ipk ) i
,
5, иначе
2. Линейная весовая функция
3
Sc( siq , s ipk ) 20 ,
2
3. Categorical scoring
13, 0
8, 1,2
Sc( si , s ik )
q p
3 3,4
7, 4
26
CS MSU Graphics & Media Lab (Video Group)
26. Сопоставление строк
Весовая функция
sip k
Обозначение: k ( s iq s p ),
j
string1
4. Кубическая весовая функция siq
string2
20 ( 10)
3
Sc( siq , s ipk )
,
50
5. Mean-weighted scoring
2(2 ) n
Sc( s , s ik ) mq s qi .
q p
i ,
mq i 1
27
CS MSU Graphics & Media Lab (Video Group)
27. Сопоставление строк
Длина сцены
Алгоритм:
1. Построение для каждого кадра 48-уровневой гистограммы
распределения яркости
2. Сравнение гистограмм: dH (t 1) {hk (t 1) hk (t ), k 1, m},
m
Diff (t 1) S (dH (t 1)) | hk (t 1) hk (t ) |.
k 1
3. Применение адаптивного порога (не описан)
4. Получение описание фильма вектором длин сцен
"Detection of video sequences using compact signatures ", 28
T.C. Hoad and J. Zobel, ACM Transactions on Information
Systems (TOIS), 24(1):1-50, January 2006.
CS MSU Graphics & Media Lab (Video Group)
28. Сопоставление строк
Длина сцены
Недостатки:
a) «Грубое сопоставление» фрагментов
b) Применимо только достаточно «длинных» фильмов
c) Более чувствителен к ошибкам детектора сцен, чем GMLabVideoGroup
Достоинства:
a) Стабильная работа с искаженным видео
b) Короткое описание фильма (~5kb/h)
c) Быстрый поиск (O( p(q p))) 29
"Detection of video sequences using compact signatures ",
T.C. Hoad and J. Zobel, ACM Transactions on Information
Systems (TOIS), 24(1):1-50, January 2006.
CS MSU Graphics & Media Lab (Video Group)
29. Сопоставление строк
Изменения яркости (Color-shift
Signature)
Алгоритм:
Строится гистограмма
распределния яркости для
каждого кадра
Сохраняется разность
гистограмм соседних кадров
"Detection of video sequences using compact signatures ",
T.C. Hoad and J. Zobel, ACM Transactions on Information
30
CS MSU Graphics & Media Lab (Video Group) Systems (TOIS), 24(1):1-50, January 2006.
30. Сопоставление строк
Информация о движении (Centroid
Signature)
2. Информация о движении
Находятся средние координаты 5% самых светлых/темных пикселов
Сохраняется евклидова разность векторов соседних кадров
"Detection of video sequences using compact signatures ",
T.C. Hoad and J. Zobel, ACM Transactions on Information
31
CS MSU Graphics & Media Lab (Video Group) Systems (TOIS), 24(1):1-50, January 2006.
31. Сопоставление строк
Комбинированный метод
"Detection of video sequences using compact signatures ",
T.C. Hoad and J. Zobel, ACM Transactions on Information
CS MSU Graphics & Media Lab (Video Group) Systems (TOIS), 24(1):1-50, January 2006.
32. Сопоставление строк
Методы покадрового описания видео
Недостатки:
a) Чувствительность к искажениям видео
b) Длинное описание фильма
c) Медленный поиск
Достоинства:
a) Возможность поиска коротких фрагментов
b) Достоверность поиска
33
CS MSU Graphics & Media Lab (Video Group)
33. Сопоставление строк
Результаты
Тестовый набор:
База данных: 170 минут (1,9 Gb) broadcast-видео.
Работа проверялась на 18 запросах, имеющих в базе много
дубликатов
1. Тестирование весовых функций
34
CS MSU Graphics & Media Lab (Video Group)
34. Сопоставление строк
Результаты
2. Тестирование indecision-points
35
CS MSU Graphics & Media Lab (Video Group)
35. Оглавление
Введение
Алгоритмы сопоставления
Алгоритм GMLabVideoGroup
Сопоставление строк
Иерархический метод
Поиск оптимального сопоставления в графе
Заключение, планы
36
CS MSU Graphics & Media Lab (Video Group)
36. Иерархический метод
Выбор Построение
Разбиение на
Запрос сцены
ключевых глобальных
кадров характеристик
Построение
Уточненный
Результат локальных Сужение поиска
поиск
характеристик
Xiao Wu, Alexander G. Hauptmann and Chong-Wah Ngo 37
“Practical Elimination of Near-Duplicates from Web Video Search”
ACM International Conference on Multimedia, Sep. 2007
CS MSU Graphics & Media Lab (Video Group)
37. Иерархический метод
Построение глобальных характеристик
1 n
VS ( s1 , s2 ,..., sm ), si hij ,
n j 1
m
R(Vi | V j ) d (VS i ,VS j ) (x
k 1
k yk ) 2 .
Xiao Wu, Alexander G. Hauptmann and Chong-Wah Ngo
Practical Elimination of Near-Duplicates from Web Video Search 38
ACM International Conference on Multimedia, Sep. 2007
CS MSU Graphics & Media Lab (Video Group)
38. Иерархический метод
Уточненный поиск
Va – фильм-запрос, n – длина фильма в базе,
Va – фильм из базы, df – разность длин двух видео,
w – размер окна поиска.
Xiao Wu, Alexander G. Hauptmann and Chong-Wah Ngo
Practical Elimination of Near-Duplicates from Web Video Search 40
ACM International Conference on Multimedia, Sep. 2007
CS MSU Graphics & Media Lab (Video Group)
39. Иерархический метод
Тестирование
Размер базы 12970 фильмов
База построена на основе 24 YouTube-запросов
При тестировании для каждого фильма-запроса строились графики
Recall/Precision для разных значений порога сходства фильмов
Precision – процент неправильно определенных пар.
Recall – процент определенных правильно фильмов от общего
колличества похожих фильмов в группе в группе
Xiao Wu, Alexander G. Hauptmann and Chong-Wah Ngo
Practical Elimination of Near-Duplicates from Web Video Search 41
ACM International Conference on Multimedia, Sep. 2007
CS MSU Graphics & Media Lab (Video Group)
40. Иерархический метод
Выводы
Недостатки:
a) Нестабильность при работе с искаженным видео
b) Может искать только близкие по длине фрагменты
c) Медленный поиск
Достоинства:
a) В теории может искать незначительно перемонтированные
фрагменты
Xiao Wu, Alexander G. Hauptmann and Chong-Wah Ngo 42
Practical Elimination of Near-Duplicates from Web Video Search
ACM International Conference on Multimedia, Sep. 2007
CS MSU Graphics & Media Lab (Video Group)
41. Оглавление
Введение
Алгоритмы сопоставления
Алгоритм GMLabVideoGroup
Сопоставление строк
Иерархический метод
Поиск оптимального сопоставления в графе
Заключение, планы
43
CS MSU Graphics & Media Lab (Video Group)
42. Поиск оптимального
сопоставления в графе
Алгоритм:
1. Разбиение на сцены
2. Выделение ключевых кадров на основе
анализа движения
3. Для каждого ключевого кадра строится
гистограмма распределения яркости
«Clip-based Similarity Measure 44
for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04,
October 15–16, 2004, New York, New York, USA
CS MSU Graphics & Media Lab (Video Group)
43. Поиск оптимального
сопоставления в графе
4. Строится мера сходства сцен: 1 ˆ
Sim( si , s j ) { ( si , s j ) ( si , s j )}
2
(si , s j ) max Intersect (rip , rjq ),
p {1, 2,..},q {1, 2,..}
ˆ
( si , s j ) второе по величине значение этого максимума
5. Строится двудольный граф сопоставления двух фильмов
X {x1 , x2 ,.., x p }, Y { y1 , y2 ,.., yq } описания двух фильмов
G( X , Y , E ) двудольный граф, E {( xi , y j ) | Sim( xi , y j ) Th}
«Clip-based Similarity Measure
for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04,
October 15–16, 2004, New York, New York, USA
45
CS MSU Graphics & Media Lab (Video Group)
44. Поиск оптимального
сопоставления в графе
6. Выделение однозначного двудольного подграфа
1) M {}
2) Если перебраны все вершины X ,то в M содержется искомый граф
3) Пусть xi X - ещѐ не рассмотренная вершина X . Тогда
A {xi }, B {} два разных множества.
4) Пусть N ( A) Y множество вершин, в которые можно попасть из
вершин в A. Если N ( A) B, то помечаем вершину x
i
как обработанную и переходим на п.2, иначе на п.5.
5) Находим вершину y j N ( A) B.
«Clip-based Similarity Measure
for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04,
October 15–16, 2004, New York, New York, USA
46
CS MSU Graphics & Media Lab (Video Group)
45. Поиск оптимального
сопоставления в графе
6) Если ( z, y j ) M , то A A {z}, B B { y j }
и переходим на п.4, иначе на п.7
7) M M P( xi , y j ) , отмечаем xi и переходим на п.2.
X1 Y1 X1 Y1 X1 Y1
X2 Y2 X2 Y2 X2 Y2
X3 Y3 X3 X3
Y3 Y3
A={X1,X3}
B={Y2}
N(A)={Y2,Y3}
47
CS MSU Graphics & Media Lab (Video Group)
46. Алгоритм Optimal Matching
7. Построение оптимального графа
1) Инициализация меток вершин
l ( xi ) max( wij ), i 1, p;
l ( y j ) 0, j 1, q
2) Построение максимального графа
Gl ( X , Y , E ), E {( xi , y j ) | l ( xi ) l ( y j ) wij }
И однозначного графа M на основе Gl
3) Если M содержит все вершины X ,
то оптимальный граф построен, иначе на п.4
4) Выбираем xi X , xi M , A {xi }, B {}
48
«Clip-based Similarity Measure
for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04,
October 15–16, 2004, New York, New York, USA
CS MSU Graphics & Media Lab (Video Group)
47. Алгоритм Optimal Matching
5) Если NGl ( A) B, то идем на п.9, иначе на п.6
6) Находим y j NGl ( A) B.
7) Если ( z, y j ) M , то A A {z}, B B { y j }
и переходим на п.5, иначе на п.8
8) M M P( xi , y j ) и переходим на п.3.
9) Вычисляем a min xi A, y j NGl {l ( xi ) l ( y j ) wij },
l (v) a, v A
lˆ(v) l (v) a, v B, вычисляем на основе lˆ Glˆ , Elˆ .
l (v), иначе
10) l lˆ, G G . Переход на п.6.
lˆ l
«Clip-based Similarity Measure
for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04,
49
CS MSU Graphics & Media Lab (Video Group) October 15–16, 2004, New York, New York, USA
48. Построение меры сходства
фильмов
8. Построение меры сходства
1) Оценка на основе суммы весов ребер графа: SimOM ( XY )
w ij
,
p
2) Учет порядка сцен
0, i 0 or j 0
C[ p, q]
C[i, j ] C[i 1, j 1] 1, i, j 0, ( xi , y j ) M , Sim DP .
max{ C[i, j 1], C[i 1, j ]}i, j 0, ( x , y ) M p
i j
2| M |
3) Interference factor SimIF ( X , Y )
pq
.
Мера сходства:
Sim( X , Y ) Sim ( X , Y ).
i
i OM , DP , IF
i
50
«Clip-based Similarity Measure
for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04,
October 15–16, 2004, New York, New York, USA
CS MSU Graphics & Media Lab (Video Group)
49. Результаты
Размер базы: 21 час видео (19929 смен сцены)
Некоторые результаты:
«Clip-based Similarity Measure
for Hierarchical Video Retrieval», Yuxin Peng,hong-Wah Ngo, MIR’04,
October 15–16, 2004, New York, New York, USA
CS MSU Graphics & Media Lab (Video Group)
51. Выводы
Недостатки:
a) Большая вычислительная сложность (O(( p q) 4 ) O( pq) O(1))
b) Наличие искажений может помешать корректному сравнению
ключевых кадров
c) Достаточно большой размер описаний фильмов
Достоинства:
a) Возможность поиска перемонтированных фрагментов
CS MSU Graphics & Media Lab (Video Group)
52. Планы
По алгоритму:
Построение локальных характеристик вблизи смены сцены
Построить более адекватную оценку вероятности сопоставления,
учитывать:
1. Колличество сопоставленных смен сцены (достоверность)
2. Плотность смен сцены
3.Характеристики БД
Искать N самых сильных смен сцены, а не N самых первых
По программе:
Провести рефакторинг
Исправить кое-какие баги
54
CS MSU Graphics & Media Lab (Video Group)
53. Вопросы
?
55
CS MSU Graphics & Media Lab (Video Group)