2. Almacenamiento eficiente de videos (para
archivo y transporte)
Reducir con eficacia el ancho de banda
requerido para transmitir vídeo a través de
emisión terrestre, a través de televisión por
cable, a través de servicios de televisión por
satélite.
Video on demand (VoD)
1. OBJETIVO
28/04/20182
3. Conceptos Preliminares
Percepción de las señales audiovisuales
Sistema Visual Humano (HVS)
¿Qué percibe nuestra vista, figuras y
colores visibles, intensidad de luz?
¿Cómo interpreta nuestro cerebro los
estímulos visuales?
4. Sistema Visual Humano (HVS)
• La luz, el espectro visible.
• Fenómeno de la Visión
• El ojo humano
• Mezcla aditiva espacial. Agudeza Visual
• Mezcla aditiva temporal. Memoria Visual
Conceptos Preliminares
5. Sistema Visual Humano – Respuesta del Ojo
• “Sensación de luz”:
– Valoraciones empíricas/perceptuales
• Función de la frecuencia de la luz
• Función de la cantidad de luz
– Dos tipos de receptores en el ojo (bastones y conos)
– Visión Fotópica – Conos (luz suficiente, en TV)
– Visión Escotópica – Bastones (poca luz)
Bastones
Conos
8. Fuentes primarias o emisivas (aditivas)
[illuminating]
• Emisores de luz (e.g., sol, bombilla,
monitos TV)
• El color percibido depende de la
frecuencia de la
luz emitida
• Siguen ley aditiva
• R+G+B = White (Blanco)
Suma de “luces” generadas
9. Fuentes secundarias o reflectivas
(substractivas) [reflecting]
• Reflejan una luz incidente (e.g., pintura, tejido
teñido, papel impreso)
• El color percibido depende de la frecuencia de la
luz reflejada
• Frecuencias emitidas – frecuencias absorbidas
• Siguen ley substractiva
• R+G+B = Black (Negro)
Resta de “luces” absorbidas = Suma de “luces” reflejadas
10. La descripción RGB (del inglés Red, Green, Blue;
"rojo, verde, azul") de un color hace referencia a la
composición del color en términos de la intensidad
de los colores primarios con que se forma: el rojo,
el verde y el azul.
Es un modelo de color basado en la síntesis
aditiva, con el que es posible representar un color
mediante la mezcla por adición de los tres colores
luz primarios.
11. Una imagen se digitaliza con en conversor A/D; asi
un A/D de 1 bit, sólo podría asignar dos valores: 0
ó 1, presencia de luz o ausencia de ella.
Con un A/D de 8 bits generamos valores de 8
cifras, por lo que combinando ceros y unos
podemos obtener un total de 256 resultados que
equivalen a la cantidad de grises que el ojo
humano podra distinguir.
12. Se expresa con 0 y 1.
03 bits nos dan 08 niveles.
04 bits nos dan 16 niveles.
Un pixel monocromatico requiere 08 bits.
13. Con imagenes en color, los
dispositivos digitales vienen
equipados con conversores
de, por lo menos, 24 bits, esto
es, 8 bits para cada canal.
Con esta combinación de 24
números entre unos y ceros,
el resultado es de algo más de
16 millones de posibilidades
(colores) que nuestra visión
sera capaz de reconocer.
14. El rojo se obtiene con (255,0,0), el verde con
(0,255,0) y el azul con (0,0,255),
15. La crominancia es el componente de la señal
de vídeo que contiene las informaciones del color.
Por otra parte, la luminancia es el componente de
la señal de vídeo que contiene las informaciones
de la luz o brillo.
16. La reducción de información (compresión) se
basa en eliminar información redundante o
irrelevante aprovechando técnicas de
codificación:
Intra-frame (redundancia espacial) e
Inter-frame (redundancia temporal) en
imágenes.
2.CONCEPTOS PREVIOS
28/04/201816
17. ¿Qué es el Video?
El video es la representación de la
visión.
El video es la captura de una
secuencia de imágenes de tal forma
que al ser proyectadas bajo ciertas
condiciones al sistema visual de un
ser humano, se produzca la
sensación de movimiento.
El video se basa en las
características de nuestro sistema
visual.
3. EL VIDEO
18. ¿Qué es el Video?
La Persistencia de la Visión
Es un principio establecido por el físico Joseph
Plateau que consiste en una "imperfección" del ojo
que provoca que la imagen se grabe en la retina
durante una fracción de segundo después de que
fue vista.
Por ejemplo cuando alguien nos toma una foto,
segundos después seguimos viendo el puntito
blanco del flash.
Cuando la luz es intensa el proceso es mayor, por
eso las salas de cine están a oscuras, la retina se
adapta a la oscuridad y la luminosidad de la pantalla
hace que la persistencia aumente.
3. EL VIDEO
19. ¿Qué es el Video?
La persistencia de la visión es una propiedad por la cual una imagen es
retenida en nuestra retina por un intervalo pequeño de tiempo antes de que
otra imagen sea tomada.
Nuestro sistema visual puede captar 24 imágenes diferentes / segundo.
Si proyectamos algo a más de 24 imágenes por segundo nuestro cerebro
captará eso como una secuencia de movimiento continuo.
Mientras mayor sea la cantidad de imágenes mayor será la sensación de
movimiento.
A más de 24 imágenes por segundo no logramos distinguir las imágenes
individuales y percibimos un movimiento continuo.
3. EL VIDEO
20. Con imagenes en color, los
dispositivos digitales vienen
equipados con conversores
de, por lo menos, 24 bits, esto
es, 8 bits para cada canal.
Con esta combinación de 24
números entre unos y ceros,
el resultado es de algo más de
16 millones de posibilidades
(colores) que nuestra visión
sera capaz de reconocer.
33. 4. DCT (Discrete Cosine Transform)
28/04/201833
•Muestra el espectro de frecuencia
contenido en una imagen fija. Una
imagen fija es independiente del
tiempo.
•La DCT muestra el espectro
espacial de frecuencias.
• Pixel : es una muestra de una señal con un valor de amplitud
y contenido de frecuencia implícita (referido al cambio de valor)
en un tiempo finito y breve.
•Los valores de señal de cada pixel se ordenan en una MATRIZ
34. 28/04/2018
34
•Por convención se aplica la DCT a bloques de 8 x 8
píxeles, sucesivamente. Origina COEFICIENTES en otra
matriz de 8 x 8 (componentes de frecuencia de cada pixel).
•Una matriz conduce a un proceso de cálculos de
operación muy grande. La DCT permiten la aplicación por
separado a sub matrices.
•La alta compresión lograda por la DCT es del tipo Lossy
(con pérdidas) y consiste en una nueva operación sobre
la matriz para reducir a cero los coeficientes próximos a
cero.
•Los coeficientes de la matriz transformada son los datos
que representan la imagen. La transmisión de estos
datos se hace uno a uno en una secuencia.
36. Explota la redundancia espacial que existe en una
imagen mediante un análisis frecuencial de la misma.
Se efectúa con la información que contiene la imagen
actual que se esta procesando y no en relación con
cualquier otra imagen de la secuencia de vídeo.
Procesos involucrados
-Transformación (DCT).
-Promediado: tablas de cuantización.
-Escaneo.
-Codificación entrópica.
5. INTRA-FRAME
28/04/201836
39. 5.2 Promediado: tablas de cuantización
28/04/201839
Los coeficientes transformados de cada píxel del macrobloque, se
pueden promediar, o no, mediante tablas de cuantización (Q)
cuyos valores resultan de estudios psicovisuales. Su uso supondrá
una degradación de la calidad de la imagen ya que se perderán
los coeficientes transformados del bloque de menor valor
(energía).
40. 5.3 Escaneo
28/04/201840
• Leer los coeficientes transformados que serán transmitidos y
ordenarlos.
•Típicamente se utiliza el escaneo "Zigzag" que lee los coeficientes
siguiendo un patrón determinado en forma de zig-zag.
41. 5.4 Codificación entrópica
28/04/201841
Existirán muchos valores a 0 para transmitir, por
este motivo se utilizará codificación de longitud fija
(RLC) para transmitir el número de ceros en vez de
cada cero uno a uno.
Enviará un palabra código única en vez de una
cadena de ceros.
42. 5.5 Esquema del Intraframe
28/04/201842
En resumen vemos que el intraframe consta de los
siguientes procesos basados en DCT.
DESCOMPOSICION
EN BLOQUES
CODIFICACION DE
LOS MENSAJES
TRANSFORMADA
COSENO
CUANTIFICADOR
Imagen
Original
Imagen
Comprimida
43. 6. INTER-FRAME prediction.
28/04/201843
Explota la correlación temporal entre cuadros
consecutivos para poder codificar con el
mínimo número de bits posibles.
Para codificar, se debe predecir un frame a
partir de frames anteriores y/o futuros,
aplicando sobre éstos un movimiento dictado
por unos vectores de movimiento.
Esta técnica se utiliza en estandares como el
MPEG-2.
44. 44
Predicción Inter Frame
Se Intenta predecir la imagen siguiente a partir
de las anteriores explotando la redundancia
temporal.
Es muy probable que los bloques sean muy
parecidos en imágenes sucesivas
Se puede utilizar esquemas de predicción tan
sencillos como tomar la imagen anterior a
modo de predicción y transmitir el error
cometido
45. 28/04/201845
•Se divide en bloques, luego el codificador trata de encontrar
un bloque similar al que se codifico previamente. Este proceso
se realiza mediante el algoritmo Block matching.
•Comprime a partir de similitudes entre los fotogramas. Este
método tiene menor calidad.
6. INTER-FRAME
46. 28/04/201846
•Se la secuencia de imágenes (GOP) esta formada por 03 tipos
de cuadros.
•SECUENCIA = I B B P B B P B B P B B P B B.
Solo Compresión
Espacial.
Compresión:
Espacial y
Temporal
Compresión:
Espacial y
Temporal
B: BidireccionalP: PredictivoI: Intraframe
6. INTER-FRAME (Redundancia Temporal)
51. 51
Es un esquema mas avanzado de predicción de
imagen.
Explota el hecho de que a lo largo del tiempo los
píxeles se desplazan en la pantalla
Por lo tanto sólo transmito el macrobloque de
referencia (mediante el vector de desplazamiento) y
el error cometido
Evidentemente, siempre puedo transmitir el
macrobloque completo, en caso de no encontrar
ninguno que se le parezca
52. 52
Normalmente la
compensación de
movimiento se basa en
macrobloques 16x16,
mientras que la
redundancia espacial se
basa en bloques de 8x8.
Sin embargo la precisión
es a nivel de píxel (el
macrobloque referencia
puede estar situado en
cualquier localización)
53. 53
La carga computacional de buscar el macrobloque que mas se parezca es
muy alta
Limitamos la búsqueda a una zona determinada
“Hierarchical block matching”
54. 54
Compromiso entre Tamaño Macrobloque y Bit Rate
Vectores de Desplazamiento
Macrobloque Grande => Menos información vectores
Macrobloque Pequeño => Mayor precisión estimación
Utilizamos una combinación de dos técnicas para
reducir el ancho de banda ocupado por los vectores
Codificación diferencial a partir de vectores anteriores
VCL sobre predicción de error de codificación diferencial
55. 7. Métodos de compresión vídeo digital
28/04/201855
•Veamos algunos metodos conocidos
de compresion:
56. 7.1.1 MPEG2 (Norma ISO 13818).
28/04/201856
Formato de compresión MPEG2 aparece en 1994.
Ofrece imágenes de calidad, alcanza velocidades
en la Tx. Dx. de 3 a 15 Mbps (Con HDTV).
Codifica audio y vídeo en señales de transmisión,
que incluyen TDT, por satélite o cable.
Admite flujos de vídeo escaneado tanto progresivo
como entrelazado.
Calidad para DVD y ahora Blue Ray para grabar
películas.
Este formato ofrece la transmisión de ficheros de
vídeo digital a pantalla completa.
57. 7.1.1 MPEG2
28/04/201857
• Esquema del sistema de compresion MPEG2
Fuente de
A/V
Y Datos.
Sincronismo
Codific.
Compresion
Video
Codific.
Compresion
Audio
Codific.
Compresion
Datos
Flujo
Empaquetado
Primario (PES)
Flujo
Empaquetado
Primario (PES)
Flujo
Empaquetado
Primario (PES)
TS
H PAYLOAD
4 bytes 184 bytes
Trama tipica
de un PES
Transporte
Streaming: TS
58. 7.1.2 MPEG3
28/04/201858
El MPEG3, se desarrolló para la televisión
digital de alta calidad aunque el formato
MPEG2 también cumplía perfectamente esta
función.
Diseñado para tratar señales HDTV entre 20 a 40
Mbits/s.
MPEG-3 no debe confundirse con MPEG-1 Audio
Layer 3, que suele conocerse como MP3.
Como el MPEG3 consumía mayor ancho de
banda que el MPEG2, el mercado abandonó el
MPEG3.
59. 7.1.3 MPEG4 (Norma H.264)
28/04/201859
Toma muchas de las características de MPEG-1 y
MPEG-2, aparece en 1999.
Es un formato de muy buena calidad, ideal para
aplicaciones multimediales interactivas.
Factor de compresión mucho más elevado que
otros formatos, ideal para aplicaciones en
Internet.
Los usos principales del MPEG-4 son los flujos de
medios audiovisuales, la distribución en DVD, la
transmisión bidireccional por videoconferencia y
emisión de televisión SDTV y HDTV (Con tasas de
solo 9Mbps).
60. 7.1.3 MPEG4 (Norma H.264)
28/04/201860
MPEG-4 es un standard dinamico y con los años
van mejorando sus caracteristicas.
61. 7.1.4 MPEG7
28/04/201861
Representación estándar de la información
audiovisual que permite la descripción de
contenidos.
Puede describir información audiovisual, de
manera que pueda desarrollar sistemas capaces de
indexar grandes bases de material multimedia .
MPEG7 codificará además de imagenes, datos en
lenguaje XML de metadatos, en un intento de
favorecer la interoperabilidad y la creación de
aplicaciones.
Ayudara en el avance de la nueva televisión
interactiva con introducción de buscadores de
contenidos, búsquedas de audiovisuales etc.
62. Pertenece a Microsoft y fue desarrollado para que
fuera parte integrante del framework denominado
Windows Media, utiliza el códec MPEG-4 para la
compresión de video.
Debido a esto, no es de extrañar que la mayoría de las
veces un archivo audiovisual con extensión .wmv
combine en su interior sonido cuyo formato también
pertenece a la suite, es decir Windows Media Audio.
8. Windows Media Video (WMV)
28/04/201862
63. De todas formas, es importante destacar que en realidad cuando
hablamos de WMV nos estamos refiriendo puntualmente al
video, de la mismas manera que si hablamos de WMA es
solamente sonido.
Por ello, el video WMV puede estar dentro de algún contenedor
y de esta manera unido a su respectivo audio en WMA. Por lo
general este contenedor es el llamado ASF, (Extensión *.asf)
que incluye audio y video.
28/04/201863
8. Windows Media Video (WMV)
64. Es un códec de vídeo libre que está siendo desarrollado por
la Fundación Xiph.org, como parte de su proyecto Ogg.
Basado en el códec VP3 donado por On2 Technologies,
Xiph.org lo ha refinado y extendido dándole el mismo
alcance futuro para mejoras en el codificador como el que
posee el códec de audio Vorbis.
Google en 2010 empezó a financiar parte del proyecto de
Ogg Theora.
9. Theora
28/04/201864
65. Theora es un método de compresión de vídeo con pérdidas.
El vídeo comprimido puede ser almacenado en cualquier
contenedor multimedia conveniente (ej Matroska), pero
generalmente se encuentra en el formato contenedor Ogg
que es el recomendado por Xiph.org y es frecuentemente
usado con el formato de audio Vorbis.
Theora I es un códec de transformación basado-en-bloque
y compensación de movimiento basada-en-bloque. Esto lo
coloca en la misma clase de códecs que MPEG-1, MPEG-2,
MPEG-4
28/04/201865
9. Theora
66. Características:
Compensación de movimiento basada-en-bloque
Bit rate variable de forma-libre (VBR)
Tamaño de bloque mínimo de 8x8
Codificación flexible de la entropía
Formatos de submuestreo de croma 4:2:0, 4:2:2, y 4:4:4
8 bits por píxel por color de canal
Múltiples cuadros (frames) de referencia
Cuadros intra (I-frames en MPEG), cuadros inter (P-frames en MPEG),
pero no B-frames (en MPEG4 ASP, AVC)
Tecnologías ya usadas por Vorbis
Permite transcodificación desde VP3 sin pérdidas
28/04/201866
9. Theora
67. Antes XviD es el nombre de un popular códec desarrollado
como un proyecto de software libre, después de que el
proyecto OpenDivX fuera cerrado en julio de 2001.
Xvid está basado en el estándar MPEG-4 ASP.
El formato fue creado como una alternativa libre a otros
códecs comerciales de vídeo.
Su calidad y eficiencia lo han convertido en uno de los códecs
más populares.
La reproducción de películas Xvid está soportada en los
reproductores de DVD más modernos.
10. Xvid
28/04/201867
68. Puede comprimir una película completa con una calidad cercana a
la de la fuente original para que ocupe tan solo 700 MB (en
ocasiones 1400 MB, dependiendo de la duración y otros factores).
Las películas codificadas en Xvid ofrecen vídeos de alta calidad en
archivos de tamaño reducido, además de llevar menos tiempo su
compresión que en MPEG-2 debido a un algoritmo de compresión
más avanzado.
El vídeo usualmente se combina con audio MP3, o AC3 para
tener audio y vídeo de alta calidad.
Estos factores y el hecho de que el códec se distribuya de forma
libre han contribuido al éxito de este formato
28/04/201868
10. Xvid
69. Características
Uso de B-frames, o fotogramas bidireccionales, que almacenan entre
dos fotogramas, uno anterior y otro posterior.
Quarter pixel (Q-pel), se trabaja con una precisión doble en los vectores
de movimiento de los bloques en la compensación del movimiento, es
más útil en resoluciones bajas.
Global motion compensation (GMC) o compensación global de
movimiento, que entra en juego en giros de cámara y zoom, consiste en
almacenar los vectores de movimiento de forma global (en relación a
unos pocos) y consiguiendo hacer que muchos valgan 0, reduciendo su
tamaño.
Entrelazado, ideal para imágenes entrelazadas como la televisión, ya
que mejora mucho la compresión y el resultado final en estos casos.
Cuantización adaptativa, es una innovación psicovisual de Xvid, en ella
se emplean diferentes matrices de cuantización por cada macrobloque,
comprimiendo más fuerte aquéllos que son muy claros o muy oscuros,
ya que son menos notables por el ojo que en los de tonalidad media.
28/04/201869
10. Xvid
70. Es un formato contenedor, desarrollado por la Fundación
Xiph.org y es el formato nativo para los códecs multimedia
que también desarrolla Xiph.org.
El formato es libre de patentes y abierto al igual que toda la
tecnología de Xiph.org, diseñado para dar un alto grado de
eficiencia en el “streaming" y la compresión de archivos.
Como con la mayoría de formatos contenedores, Ogg
encapsula datos no comprimidos y permite la interpolación
de los datos de audio y de vídeo dentro de un solo formato
conveniente. Otros ejemplos de formatos contenedores son
AVI y Matroska.
11. Ogg
28/04/201870
71. Incluye un número de códecs separados e independientes de
vídeo y audio, ambos desarrollados en código abierto.
Los archivos terminados en la extensión ".ogg" pueden ser de
cualquier tipo de archivo Ogg, audio o vídeo, aunque existe la
recomendación de renombrarlos con la extensión ".oga" para
audio y ".ogv" para video.
Ogg es un contenedor orientado a stream, lo que significa que
puede ser escrito y leído en un solo paso, haciéndolo adecuado
para streaming en internet.
Esta orientación a stream es la mayor diferencia en diseño sobre
otros formatos contenedores basados-en-archivo.
28/04/201871
11. Ogg
72. Es el formato estándar para almacenar vídeo
digital.
Cuando se captura video desde una cámara digital
al ordenador, se suele almacenar en este formato
con el códec DV (Digital Video).
El archivo AVI puede contener vídeo con una
calidad excelente, pero el peso del archivo es
elevado.
28/04/201872
11. AVI (AUDIO Y VIDEO INTERCALADO)
73. Es un formato contenedor propietario usado para
transmitir Video por Internet usando Adobe Flash
Player.
Entre los sitios más conocidos que utilizan el
formato FLV se encuentran YouTube, Google
Video, Yahoo! Video y MySpace.
28/04/201873
11. FLV (FLASH VIDEO)