Este documento apresenta um pré-projeto de dissertação sobre a pesquisa da melhor métrica para avaliar a qualidade de experiência (QoE) causada por falhas em redes IP, como perda de pacotes. O autor pretende investigar como diferentes métricas objetivas de qualidade de vídeo se correlacionam com avaliações subjetivas de QoE quando o vídeo sofre falhas de rede, a fim de identificar a métrica mais precisa para prever a percepção do usuário.
Search the Best Measure for QoE, by Failure Caused by IP Networks
1. PAULO CEZAR DIAS SILVEIRA
PRÉ-PROJETO DE DISSERTAÇÃO
PESQUISA DA MELHOR MÉTRICA
PARA O QoE, POR FALHAS
CAUSADAS POR REDES IP
Pré-Projeto de Dissertação apresentado como
requisito parcial para a obtenção do grau de
Mestre,
no
Programa
de
Mestrado
em
Engenharia Elétrica da Universidade Federal do
Paraná.
Orientador: Prof.- Dr. Carlos Marcelo Pedroso.
Curitiba, 2013.
2. 1. INTRODUÇÃO
A “garantia da qualidade da experiência” (QoE, Quality of Experience) , ou seja,
a qualidade do serviço como subjetivamente é percebida pelo usuário, é um importante
desafio para as operadoras de rede e prestadores de serviços em redes heterogêneas
atuais. A convergência entre redes fixas e sem fio, bem como nos sistemas sem fio que
usam diferentes tecnologias, torna possível a utilização de uma grande variedade de
aplicativos em uma variedade de terminais localizados em diferentes ambientes
geográficos. Os clientes exigem serviços de telecomunicações de alta qualidade,
independentemente da localização e de restrição no tempo. Em outras palavras, eles
querem receber qualquer serviço, a qualquer hora, em qualquer lugar e em qualquer
dispositivo. Em geral, esses quatro requisitos do usuário motivam a necessidade de
convergência do ponto de vista do usuário. Do ponto de vista da rede, a situação é mais
complexa. A percepção do usuário relativo à qualidade é influenciada por vários
elementos associados com a entrega do serviço ponto a ponto: da rede, dos
equipamentos, da codificação de dados, dos protocolos e terminais. Cada um dos
requisitos do usuário final se traduz em diversos desafios tecnológicos que em geral,
constituem grupos adicionais de requisitos relacionados com a provisão de serviços
ponto a ponto. Assim, os serviços devem ser prestados através de qualquer mídia e
tecnologia de rede, e por qualquer operadora. Dirigindo-se aos seis requisitos acima
mencionados em conjunto, garantindo os serviços de alta qualidade é um grande
desafio em termos de convergência de rede. Conjuntos de problemas relacionados com
cada um dos requisitos cruzam uns com os outros. Por exemplo, a interoperabilidade de
uma grande variedade de tecnologias de rede afeta a capacidade de atender cada um
dos requisitos. Espera-se que uma variedade de serviços, desde a baixa exigência para
a banda larga em tempo real, seja entregue ao usuário final, independente do tipo de
rede de acesso, localização do usuário ou dispositivo do usuário final. Os serviços
devem ser fornecidos em um ambiente multi-domínio e multi-operadora. Além disso, os
usuários esperam ser capazes de usar um determinado serviço de forma contínua
3. enquanto estiver em movimento, sem uma deterioração notável na qualidade do
serviço.
Alta qualidade de vídeo está se tornando uma parte integrante na forma como
as pessoas se comunicam, aprendem e se divertem. Todos esperam contar com
serviços baseados em vídeo para serem altamente confiáveis e que entreguem sempre
conteúdo de alta qualidade. No entanto, a transmissão de vídeo exige que recursos
substanciais sejam gastos pelos prestadores de serviços. Para evitar custos elevados
com excesso de provisionamento, os provedores tem que encontrar maneiras de
oferecer a máxima qualidade com o mínimo de recursos. No entanto, a relação entre o
domínio físico (por exemplo, largura de banda de rede) e o domínio de percepção do
usuário é um domínio não linear. O que é pior, a percepção humana é muito afetada
por uma série de fatores, inclusive ambientais, técnicos e até mesmo psicológicos.
Muitos fatores afetam a QoE, como a taxa de compressão, a taxa de quadros, a
resolução, a latência da rede e assim por diante. No entanto, esses fatores não são
independentes do ambiente de visualização ou do tipo de conteúdo. Por exemplo, todos
podem não perceber qualquer diferença entre uma taxa de 500 Kbps de vídeo e o
equivalente a 250 Kbps, quando assistem em uma tela pequena. Ainda mais, se o
vídeo é de um conteúdo relativamente estático. Em tais casos, o fornecimento de vídeo
de alta qualidade irá conduzir a um desperdício desnecessário de largura de banda. No
entanto, a situação pode ser revertida, se assistimos a um vídeo bastante dinâmico em
médias ou grandes telas. Para determinar a utilidade de um recurso, como a taxa de
bits, uma estimativa exata de como ela afeta a qualidade percebida é necessária. Isso
tem um alcance melhor através da realização de estudos subjetivos, em que um grupo
de participantes é convidado a avaliar diretamente a qualidade do vídeo.
O MOS
(Mean Opinion Score) é uma métrica de avaliação subjetiva da qualidade do vídeo, com
metodologia proposta pelo ITU (International Telecommunication Union) em (ITU-T,
1999) e (ITU-T, 2002).
A Figura 1 ilustra a interface de um software para avaliação pelo MOS,
mostrando o vídeo que esta sendo analisado (a). Ela mostra também a imagem da
4. interface de estudo subjetiva que leva a pessoa que esta analisando a introduzir uma
pontuação de qualidade do vídeo depois de concluída a visualização (b).
Figura 1 – Interface de software para avaliação do MOS
A Figura 2 ilustra quadros de vídeo para a avaliação subjetiva pelo MOS. Em
(a) um quadro de vídeo compactado com o formato MPEG-2. Em (b) um quadro
compactado com o formato H.264/AVC. Em (c) temos a perda de um quadro simulado
numa rede IP. Em (d) temos a perda de um quadro simulado em uma rede sem fio [85].
Figura 2 – Imagens para avaliação do MOS
5. As respostas permitem a correlação de domínio físico com o de percepção. No
entanto, isso é caro e demorado, uma vez que exige uma grande quantidade de
respostas para alcançar significância estatística. O que é pior, mesmo quando uma
grande parte da população é convidada a avaliar a qualidade de amostras de vídeo,
ainda ocorrem deficiências, incluindo preconceito e variabilidade [1,2].
O uso de aplicações multimídia e, consequentemente de streaming de dados de
vídeo através da Internet tem aumentado rapidamente. Além disso, para reduzir o
espaço de armazenamento e a transmissão de vídeo através de redes de largura de
banda limitada, a compressão do vídeo é essencial. Para comprimir dados de vídeo, o
codec H.264/AVC [3] emprega entre outras técnicas, a transformação espacial e a
predição de compensação de movimento entre quadros consecutivos para explorar a
redundância espacial e temporal, respectivamente. De acordo com a qualidade
dinâmica do conteúdo do vídeo, a taxa de fluxos de bits dos dados codificados pode ser
alterada em tempo real. Além disso, o melhor esforço natural que a Internet faz para
tornar-se um ambiente competitivo para diferentes aplicações com o objetivo de
aumentar a sua taxa de transferência; por este motivo o congestionamento e,
consequentemente a perda de pacotes e o atraso de vídeo inevitavelmente acontecem
dentro da rede. Apesar dos benefícios incontestáveis da compressão, os dados de
vídeo comprimidos são altamente vulneráveis à perda de dados. Na verdade, a
dependência de cada quadro de dados codificado para os quadros anteriores de dados,
significa que qualquer erro devido a perdas é propagado para os quadros
subsequentes.
Assim, a distorção causada pela perda de dados interfere com o
objetivo da qualidade de vídeo. Como se migrou para uma única rede (IP) para vários
serviços, temos que os parâmetros de QoS a nível de rede tradicionais não contam uma
história suficiente para a qualidade de mídia e o foco para a avaliação da qualidade
passou a ser a qualidade de experiência (QoE) que foi definida pelo ITU-T como a
aceitação geral de um aplicativo ou serviço, conforme percebida subjetivamente pelo
usuário final. Além disso, como a taxa de bits do vídeo varia em razão das diferentes
características de vídeo, tais como, a taxa de quadro, a resolução, o nível de
compressão e o tipo de conteúdo, uma situação de rede similar pode causar aos
6. usuários finais perceberem um nível diferente de qualidade para diferentes vídeos como
detalhado no paragrafo anterior. Para atender as expectativas dos clientes, os
prestadores de serviços devem conhecer o nível de qualidade que é considerado
aceitável pelos clientes. Com base nessas informações, os provedores de serviços
precisam gerenciar e controlar os recursos de forma eficiente. No entanto, a gestão e a
implementação de mais recursos não só aumenta os custos, mas também muitas vezes
não é possível (por exemplo, no ambiente móvel, a largura de banda não pode ser
maior do que um determinado nível). Portanto, a criação de aplicativos flexíveis
(inteligentes), que podem se adaptar dinamicamente com as redes existentes,
gerenciando o sistema de vídeo (por exemplo, taxa de bits – MPEGDASH [84]), sem
efeito adverso sobre os usuários finais na qualidade percebida, tornou-se uma questão
predominante. Em outras palavras, a gestão do QoE para aplicações de streaming de
vídeo é destinada a levar a mais eficiente e econômica implantação dos recursos
disponíveis, mantendo a satisfação do usuário final em um nível aceitável . Mecanismos
de controle para o QoE incluem o monitoramento das informações relativas das
condições da rede e dos usuários finais, bem como ajustar os correspondentes fatores
de influencia. Para o streaming de vídeo, a codificação de extensão de vídeo
escalonável do codec H.264 (H.264/SVC) fornece uma solução para a escalabilidade
espacial, temporal e de qualidade com uma comutação suave entre as diferentes taxas
de bits de streaming [4].
Hoje em dia, o nível de qualidade de um sinal de vídeo codificado digitalmente,
que é transmitido através de uma rede de recursos limitados depende em grande parte
da capacidade de desempenho do próprio codificador e da largura de banda disponível
da rede de transmissão. Ambos os fatores podem introduzir no sinal de vídeo uma
respectiva perda de percepção, devido ao vídeo entregue ao usuário final estar
degradado em comparação com o vídeo sem compactação.
Esta situação criou novos desafios de pesquisa para a avaliação da qualidade
de vídeo como parte da codificação e no sistema de gerenciamento de recursos da
rede, tornando a avaliação da qualidade de vídeo (VQA, video quality assessment) uma
área de pesquisa ativa durante os últimos anos. O VQA em geral, é o processo de
7. avaliar o nível de percepção de um serviço de vídeo, o qual passou por um
procedimento de codificação (ou seja, compressão), perda de dados ou outras
transformações. Particularmente o VQA concentra-se na quantificação da degradação
que é introduzida através dos sistemas de codificação, durante a transmissão do sinal
codificado mais propenso a erros ou aos canais de transmissão com recursos limitados.
Assim, um sinal de vídeo original pode ter duas fases de degradação que deve tratar o
VQA:
A degradação da qualidade devido ao processo de codificação.
A degradação da qualidade devido a erros de transmissão.
Em relação à primeira fase, a degradação é fortemente relacionada com os
parâmetros de codificação selecionados e, principalmente sobre a taxa de bits de
codificação. Atualmente a determinação da taxa de bits de codificação que satisfaz um
determinado nível de qualidade de vídeo é um problema de repetitivas codificações
subjetivas ou de avaliações da qualidade de vídeo objetivas, cada vez que ocorre o
processo de codificação [5]. A avaliação subjetiva de sinais de vídeo requer grande
quantidade de recursos humanos, estabelecendo este processo como um procedimento
impraticável em muitos casos. Da mesma forma, o uso repetitivo de métricas objetivas
[6-10] sobre sequências já codificadas, pode exigir inúmeras codificações de teste para
identificar os parâmetros de codificação apropriados para um nível de qualidade
específico, que além de demorado, é financeiramente inviável do ponto de vista dos
negócios também. No que se refere à segunda fase (ou seja, durante a transmissão do
serviço), deve ser considerado que os serviços de vídeo codificados, devido à sua
estrutura de quadros interdependentes, são altamente sensíveis a erros de transmissão
(por exemplo, perda de pacotes) e requerem alta confiabilidade na transmissão com
regras entre os dispositivos de transmissão e recepção, para manter a transmissão de
vídeo sem falhas e com fluxo sincronizado. Especialmente no -“streaming”- de vídeo,
cada transmissão de um pacote de vídeo pode ser recebida na outra extremidade
intacto, com erros ou ficar totalmente perdido. Nos dois últimos casos, o resultado de
percepção é semelhante, uma vez que o decodificador no usuário final normalmente
descarta o pacote com erros, causando artefatos visuais, não só sobre o quadro que o
8. específico pacote perdido pertence, mas também para os subsequentes quadros
decodificados que foram perdidos dentre aqueles que estavam bons.
Atualmente, a avaliação da degradação de um sinal de vídeo de qualidade,
devido a problemas de QoS da rede é realizada tanto através da aplicação de métodos
de avaliação subjetivos ou objetivos durante o processo de decodificação, ao lado do
usuário final. Do ponto de vista da rede, este procedimento não fornece um
mapeamento entre os parâmetros de QoS da rede ( por exemplo, relação de perda de
pacotes ) e respectiva degradação da qualidade de vídeo [11] , principalmente devido à
natureza estocástica do fenômeno.
2. O Estado da Arte
A investigação de uma correlação entre o QoS e o QoE tem evoluído no sentido
de resolver os desafios da avaliação da satisfação. Em função do desempenho da rede,
as pesquisas existentes nos componentes do QoS e QoE [16,17] deduziu os mais
importantes parâmetros de qualidade dos serviços de IPTV (Internet Protocol
Television). Os desafios do QoE é quantificar a satisfação do cliente e medir o que
degrada essa satisfação. Em ambientes de rede IP, as pesquisas existentes para a
medição do QoE de serviços multimídia de “streaming” de vídeo não avaliaram de
forma numérica a perda de pacotes, mas apenas a correlação com a largura de banda
dentro dos parâmetros de qualidade do QoS. No entanto, os vários parâmetros do QoS
(“jitter”, atraso, largura de banda e perda de pacotes) ocasionam consequências no
QoE dos serviços de IPTV. O streaming de vídeo em alta definição no IPTV trouxe
novas exigências em termos de taxa de bits e na qualidade de garantia de serviço. O
problema das perdas na rede permanece real e afeta principalmente a ''última milha'' do
caminho de entrega. O impacto das perdas na rede sobre a qualidade do vídeo
percebida continua a ser uma tarefa desafiadora, porque (entre outros) “nem todos os
pacotes são iguais” [12]. Em todas as aplicações mencionadas o usuário final é um
observador humano. Portanto, existe a necessidade de uma adequada métrica de
avaliação objetiva de qualidade de vídeo (VQA), cujo objetivo é avaliar a qualidade de
9. um vídeo como percebida por um observador humano na média. Há uma série de
diferentes fatores que influenciam a qualidade de vídeo percebida como de interesse
individual do observador, as expectativas de qualidade e a experiência de vídeo, bem
como o tipo e propriedades do vídeo, condições de visualização, etc. [16]. Além disso,
os sistemas de vídeo complexos consistem de muitos componentes que podem
degradar um sinal de vídeo de diferentes maneiras [17]. Em geral, os vídeos
normalmente sofrem de artefatos espaciais (que mudam aspectos espaciais da cena e
são visíveis em quadros individuais de vídeo) e artefatos temporais (que mudam o
movimento de pixels e são visíveis através de quadros de vídeo no tempo) [18]. Alguns
exemplos de artefatos espaciais são “blocking”, ”blurring”, padrões de mosaico,
“ringing”, falso “contouring”, etc., enquanto os artefatos temporais incluem a
incompatibilidade na compensação de movimento, “jitter”, “ghosting” e “smearing”, que
alteram o movimento de trajetória dos pixels no vídeo que esta sendo testado em
relação ao cenário de referência [19]. Além disso, o sistema visual humano (HVS,
Human Visual System), cujas características devem ser incluídas nas métricas de
qualidade de vídeo objetiva do processo de estruturação, é extremamente complexo e
não completamente entendido até hoje. Devido à variedade e subjetividade dos fatores
acima mencionados, a estimativa de qualidade de vídeo é um problema muito
complexo.
Geralmente, de acordo com [20,21], uma métrica de qualidade objetiva de vídeo
pode ser utilizada para:
Monitoramento da qualidade do vídeo para sistemas de controle
de qualidade.
Aferição de sistemas de processamento de vídeo e algoritmos.
Algoritmos de otimização do sistema de processamento de vídeo.
Os desempenhos das métricas de qualidade de vídeo são amplamente
avaliados e disponíveis publicamente no VQEG (Vídeo Quality Experts Group) do
banco de dados FR-TV Phase I [22]. Esta base de dados foi publicada em 2000 e
distorções nos testes de vídeo não são representativas na atual geração de
codificadores de vídeo e sistemas de comunicação. No âmbito dos projetos do VQEG
10. os mais recentes bancos de dados de vídeo produzidos podem ser usados, mas estas
bases de dados não estão disponíveis livremente para a comunidade cientifica. Em
2010, Kalpana Seshadrinathan criou uma base de dados de qualidade de vídeo (LIVE,
Laboratory for Image & Video Engineering) [80], cujos testes de vídeos contem
distorções que são resultados da atual geração de codificadores de vídeo H.264/AVC e
sistemas de comunicação (IP e transmissão sem fio). Desde então, esta base de dados
tem sido amplamente utilizada para uma comparação do desempenho de métricas de
qualidade de vídeo. O conhecido banco de dados de qualidade de vídeo do LIVE
fornece uma ampla gama de diferentes tipos de conteúdos, de distorções e resoluções.
A utilização dos vários bancos de dados existentes faz a comparação dos sistemas de
medição mais confiáveis. O objetivo é fazer uma abordagem para a comparação das
métricas com relação à complexidade, versus os critérios de precisão e a analise da
estabilidade das métricas no banco de dados determinado, bem como através de
bancos de dados diferentes.
A Figura 3 ilustra a classificação das métricas de qualidade de vídeo de
referencia completa (FR, full reference) e de referencia reduzida (RR, reduce reference)
dentro das métricas baseadas nos pontos tradicionais [86].
1) Métrica de qualidade de vídeo objetiva
O principal objetivo de uma métrica VQA é prever a qualidade do vídeo
percebida automaticamente, sem intervenção humana. Para atingir este
objetivo, as métricas de qualidade de vídeo podem usar abordagens diferentes
e, assim elas podem ser classificadas de diversas maneiras.
a) Requisitos para os dados do sinal de vídeo de referência
A métrica de qualidade do sinal de vídeo pode exigir uma quantidade diferente
de informações sobre o sinal do vídeo de referência e, portanto elas podem ser
classificadas em três categorias: métrica de referencia completa (FR), métrica
11. sem referência (NR) e métrica de referencia reduzida (RR), [7]. A métrica de FR
exige que todo o sinal do vídeo de referência esteja disponível de forma
inalterada. Ao usar a referência e o sinal de teste de vídeo, eles realizam uma
comparação quadro a quadro entre eles.
Figura 3 – Classificação dos modelos de qualidade objetiva
b) Requisitos para os dados do sinal de vídeo de referência
A métrica de qualidade do sinal de vídeo pode exigir uma quantidade diferente
de informações sobre o sinal do vídeo de referência e, portanto elas podem ser
classificadas em três categorias: métrica de referencia completa (FR), métrica
sem referência (NR) e métrica de referencia reduzida (RR), [7]. A métrica de FR
exige que todo o sinal do vídeo de referência esteja disponível de forma
inalterada. Ao usar a referência e o sinal de teste de vídeo, eles realizam uma
12. comparação quadro a quadro entre eles. Portanto, estes dois sinais de vídeos
devem ser alinhados de forma espacial e temporal (cada pixel em cada quadro
deve ser igualado com um pixel apropriado no outro clipe). Os requisitos de
disponibilidade para o sinal de vídeo e o de referência, assim como, o
alinhamento entre o sinal de referência e o sinal de teste de vídeo são as
principais desvantagens de tais métricas em termos de facilidade de utilização
prática nos sistemas em tempo real. Algumas métricas que tipicamente
pertencem à métrica de FR são a média do erro quadrático (MSE) e a taxa de
sinal-ruído de pico (PSNR), bem como os indicadores baseados no HVS
propostos em [6, 9, 24-31].
A métrica de NR analisa apenas o sinal de teste de vídeo e não precisa de
qualquer informação sobre o sinal do vídeo de referência. Assim, eles são mais
adequados para os sistemas em tempo real e podem ser usados em qualquer
lugar de um sistema de compressão e transmissão existente, onde o sinal de
vídeo de referência não está disponível. A abordagem mais frequentemente
utilizada nas métricas de NR é a estimativa de “blockiness”, que é o artefato
mais proeminente em métodos de compressão, tais como H.264, MPEG e as
suas complementações [32-36]. Além do blockiness, algumas métricas de NR
medem o grau de “blur” no vídeo degradado [37], bem como “noiseness” [38].
Alguns deles estimam os erros de quantização no domínio DCT [39] e utilizam
as informações de degradação devido à perda de pacotes para a rede de vídeo
[40]. Normalmente essas métricas usam uma característica do HVS para a
ponderação de percepção. Outros exemplos de métricas NR podem ser
encontrados em [41-44].
A métrica RR extrai uma série de características do sinal de vídeo de referência
(por exemplo, a quantidade de movimento ou detalhes espaciais) e faz uma
comparação entre o sinal do vídeo de referência e o sinal de vídeo de teste com
base apenas nas características. Eles representam um compromisso entre a
métrica de FR e NR. Ao utilizar uma métrica de RR é possível evitar algumas
13. armadilhas de métrica NR não contaminadas, enquanto por outro lado, é
possível controlar a quantidade de informação do sinal de referência.
A métrica de RR também têm os requisitos de alinhamento, mas apenas para
os recursos extraídos. Algumas métricas que pertencem à métrica de RR são
apresentadas em [45-50].
2) Análise do vídeo decodificado
A métrica de qualidade do vídeo pode analisar o sinal de vídeo decodificado de
maneiras diferentes e, portanto eles podem ser classificados em três classes
distintas: métricas de dados, métricas de imagem e métricas baseadas no
“bitstream” (fluxo de bits) e perda de pacotes.
a) As métricas de dados
As métricas de dados medem a fidelidade do sinal de vídeo, sem a modelagem
de qualquer aspecto do HVS. As métricas de dados muito populares são o MSE
e PSNR e sua representação logarítmica. Eles são muito simples de entender e
implementar e, portanto são amplamente utilizados para a avaliação da
qualidade de vídeo. Numerosas métricas são baseadas no MSE/PSNR e
algumas delas podem ser encontradas em [51,52]. No entanto, normalmente
estas métricas não podem dar uma medida de qualidade objetiva que possa
corresponder em similaridade com a qualidade percebida por um observador
humano para uma vasta gama de parâmetros de codificação e transmissão. A
principal razão para isso é o fato de que eles comparam a referência e os dados
de teste, sem considerar o que eles realmente representam. Eles não levam em
conta as características do HVS que mostram que o HVS não tem a mesma
sensibilidade a diferentes tipos de distorção e propriedades de distorção. Mais
ainda, é muito importante saber em qual parte da distorção de quadro esta
degradação aparece e o MSE/PSNR não considera isso também. Para assistir
14. um vídeo transmitido pela Internet, às métricas de dados usadas muitas vezes
são a taxa de erro de bit (BER) e a taxa de perda de pacotes (PLR). O mesmo
problema com a utilização do MSE/PSNR aparece quando usamos o BER e o
PLR, porque eles não levam em conta o conteúdo do pacote e seu impacto na
qualidade visual. De acordo com o BER e o PLR, todos os pacotes têm a
mesma importância visual e, isso não é valido para a entrega de vídeo. Assim,
essas métricas podem efetivamente medir o percentual de bits incorretos ou a
perda de pacotes, mas não a qualidade de vídeo percebida.
b) As métricas de imagem
A fim de evitar os problemas que aparecem quando usamos métricas de dados
simples, muitas métricas de qualidade de vídeo objetivas tentam prever a
qualidade do vídeo percebida tendo em conta as informações sobre o conteúdo
de vídeo e tipos de distorção. As métricas deste tipo analisam as informações
visuais contidas nos dados de vídeo e que são geralmente denominadas de
indicadores de imagem, tal como em [16]. Com base na abordagem utilizada na
estrutura de métricas, as métricas de imagem podem ser classificadas em dois
grupos: uma abordagem de modelagem da visão e uma abordagem de
engenharia [19]. Mais recentemente, em [53], Shyamprasad Chikkerur
classificou as métricas de imagem como orientada a percepção (HVS) e
métricas orientadas as características visuais e naturais. As métricas orientadas
a percepção usam uma abordagem de modelagem visual e podem ser
classificadas ainda mais dentro de uma abordagem no domínio da frequência,
uma abordagem de domínio de pixel e uma abordagem multi-escala.
Características visuais e naturais orientadas a métricas, de fato usam uma
abordagem de engenharia, que é baseada principalmente na extração e análise
de determinados recursos ou artefatos no vídeo, em vez de usar a modelagem
fundamental da visão [19]. Em [53], elas são classificadas em estatística visual
natural e características visuais naturais baseadas em métodos.
15. c) Métricas orientadas a modelagem da visão com abordagem de percepção
(HVS)
A introdução de mecanismos do HVS em uma métrica de qualidade leva a uma
melhor correlação entre a avaliação subjetiva e a objetiva da qualidade de
vídeo. No entanto, o HVS é extremamente complexo e não totalmente
compreendido até hoje, portanto as métricas de qualidade geralmente
incorporam apenas algumas características mais importantes do HVS. Assim,
uma abordagem de modelagem visual tenta alcançar uma melhor previsão da
qualidade do vídeo percebida pela modelagem de diferentes aspectos da visão
humana. Por exemplo, é bem conhecido que o olho humano é sensível ao
contraste, como a variação relativa da luminância, considerando que esta
sensibilidade é composta de modelos de qualidade através de uma função de
sensibilidade ao contraste espacial-temporal (CSF) [54]. Outro mecanismo que
também é usado muitas vezes em processos de avaliação da qualidade é a
propriedade de mascara (filtros) no conteúdo da imagem (vídeo). A visibilidade
da distorção diminui quando a distorção aparece nas regiões de textura de uma
imagem em relação às regiões suavizadas dessa imagem. Um elevado nível de
movimento do vídeo, também reduz a visibilidade de deficiências. Estes efeitos
são incorporados em métricas de qualidade de diferentes maneiras e diferentes
níveis [19, 24, 26, 28, 29, 55-58]. Além disso, o próprio autor propôs o erro
médio do quadrado de “Foveated” (FMSE) em [31] e inclui estes efeitos que
pertencem à abordagem de modelagem visual.
Muitas abordagens de avaliações da qualidade de imagem/vídeo propostas na
literatura compartilham uma filosofia baseada na sensibilidade de erro comum
[20,59], que visa quantificar a força dos erros entre uma referencia e os sinais
distorcidos de uma forma perceptivamente significativa. Alguns procedimentos
de pré-processamento são geralmente implementados na primeira etapa (como
registro, transformação do espaço de cor, adaptação de luz, de calibração para
os dispositivos de vídeo, etc.). A segunda etapa é o canal de decomposição,
16. que pode ser feito por meio de filtragem ou usando uma transformação, tais
como a transformada discreta de wavelet (DWT) ou a transformada de cosseno
discreta (DCT). Após estes procedimentos, a CSF está implementada e se
aproxima das respostas de frequência do HVS. A normalização de erro e
mascaramento (filtragem) é então implementado dentro de cada canal. Esta
abordagem permite uma simplificação da hipótese de ignorar a mascara de
canal cruzado (ou seja, a filtragem de um canal visual sobre o conteúdo de
outros canais). Finalmente, sinais de erros de diferentes canais são combinados
em um único valor de distorção/qualidade. Agrupamento espacial em cada
quadro do vídeo e agrupamento temporal, entre quadros são geralmente
necessários para se obter um único valor para uma sequência de vídeo.
Informações mais detalhadas sobre a estrutura baseada na sensibilidade de
erro pode ser encontrada em [32,33].
Em [32] Chandler e Hemami propuseram uma relação sinal-ruído visual
baseada em wavelet (VSNR) para quantificar a fidelidade visual de imagens
naturais. O VSNR é baseado próximo ao limiar e acima do limiar das
propriedades da visão humana. Mais informações sobre as conclusões relativas
desse próximo limiar e distorções acima do limiar em imagens naturais podem
ser encontrados em [60,61]. O processo de cálculo do VSNR todo pode ser
encontrado em [44]. Para uma aplicação do VQA, em [56,69,70] o VSNR é
aplicado quadro a quadro na componente de luminância do vídeo e no índice
geral do VSNR para o vídeo que é calculado como a média das pontuações do
VSNR a nível de quadro.
Seshadrinathan e Bovik desenvolveram recentemente um vídeo de avaliação
da integridade do vídeo baseado em movimento (MOVIE) [30,70]. O MOVIE é
um algoritmo VQA- FR que integra ambos os aspectos espaciais e temporais de
avaliação de distorção e usa uma localização temporal, decomposição multiescala de referência e sinais de testes de vídeo, usando uma família de filtros
Gabor espacial-temporal (três escalas, 35 filtros em cada escala). Ele consiste
de duas componentes, MOVIE espacial (SMOVIE) e MOVIE temporal
17. (TMOVIE). O índice MOVIE espacial mede as distorções espaciais no vídeo,
enquanto o índice MOVIE temporal captura as distorções temporais no vídeo
pelo calculo e uso de informações de movimento do vídeo de referência
explicitamente na medição da qualidade, e avalia a qualidade do vídeo de teste
ao longo das trajetórias de movimento de referência do vídeo. As informações
detalhadas sobre o processo de avaliação do MOVIE, Espacial MOVIE e
Temporal MOVIE podem ser encontradas em [30,70], onde é mostrado que o
MOVIE supera todos os algoritmos utilizados em VQA VQEG FR-TV Fase I [34]
em um determinado conjunto de dados. Além disso, em [68] é mostrado que o
MOVIE e o TMOVIE superam todas as métricas utilizadas neste experimento no
banco de dados de qualidade de vídeo do LIVE [35].
Em [71], Ninassi, Meur, Callet e Barba projetaram uma métrica de percepção
FR-VQA com enfoque nas evoluções temporais das distorções espaciais. Os
autores do uso da métrica propuseram a ideia de que a percepção de
distorções espaciais ao longo do tempo pode ser amplamente modificada por
suas mudanças temporais, tais como um aumento ou uma diminuição da
distorção, ou como mudanças periódicas nas distorções. Barkowsky apresentou
um quadro que adiciona a consciência da distorção temporal para típicos
algoritmos VQA [70]. No quadro proposto, a estimativa de movimento é usada
para rastrear áreas de imagem ao longo do tempo. Vetores de movimento e o
erro de predição de movimento são utilizados para a avaliação da aparência de
novas áreas de imagem e o tempo de exibição dos objetos. Além disso, as
degradações que são inseridas nos objetos em movimento que podem ser
julgadas com mais exatidão.
Mais recentemente, Zhao, Yu, Chen e Zhu desenvolveram uma nova métrica
FR de qualidade de vídeo chamado índice de qualidade de percepção (PQI)
[72], que explora várias propriedades visuais, a fim de simular a avaliação
subjetiva em vídeos com deficiência. Os autores do PQI usam o desempenho
visual em sistema “foveal” e extra “foveal” de visão e um modelo espacialtemporal apenas em diferenças notáveis (JND), a fim de detectar e quantificar
18. as distorções perceptíveis em ambos os canais espaciais e temporais. Erros
visuais são somados em cada canal e a degradação da qualidade ao longo do
tempo é então acumulada, a fim de modelar a persistência visual e o efeito
recente. Por fim, as intensidades de ruídos espaciais e temporais são
transformadas em escalas de qualidade e unidas em uma pontuação final de
qualidade de percepção. Em [72], é mostrado que o PQI supera alguns dos
modelos do estado da arte do VQA em duas bases de dados diferentes do
VQA.
d) Abordagem de Engenharia – métricas orientadas as características visuais
naturais
Extração e análise de certas características (por exemplo, elementos
estruturais, tais como contornos) ou artefatos no vídeo (como “blockiness” e
“blur” que são introduzidos por uma tecnologia de compressão particular ou um
link de transmissão) são à base de uma abordagem de engenharia (a chamada
abordagem de cima para baixo). Essas métricas medem a força desses
recursos no vídeo para estimar a qualidade geral . Isso não significa que tais
métricas ignoram o HVS, uma vez que muitas vezes consideram efeitos
psicofísicos também. No entanto, a base conceitual para o projeto é o conteúdo
da imagem e a análise de distorção, ao invés de modelagem fundamental da
visão. Recentemente, tem havido um interesse crescente na utilização da
abordagem de engenharia.
Wang, Bovik, Sheikh, Simoncelli desenvolveram um índice de semelhança
estrutural (SSIM) [76] para a avaliação da qualidade de imagem, e em [56] ele é
estendido para o FR-VQA. O SSIM utiliza a distorção estrutural como uma
estimativa da distorção visual percebida. Para a medida de distorção estrutural,
SSIM usa as medias, as variâncias e a covariância das sequências originais e
distorcidas. Os índices do SSIM não são calculados para todos os quadros,
mas apenas para os blocos R adequadamente selecionados, reduzindo assim,
19. significativamente os custos computacionais e ainda fornece bons resultados
experimentais. Mais detalhes sobre este processo podem ser encontrados em
[33].
Algumas extensões do paradigma SSIM foram desenvolvidos e propostos,
principalmente para as imagens estáticas, e mais tarde estendidos para o
vídeo. Uma delas é um índice multi-escala para o SSIM (MS-SSIM) proposto
em [33] para imagens estáticas. Isso leva em conta a dependência da imagem
ser percebida em detalhes sobre a densidade de amostragem do sinal de
imagem, a distância entre o plano de imagem para o observador e a
capacidade de percepção do sistema visual do observador. Mais informações
sobre esta abordagem e a MS-SSIM em geral, podem ser encontradas em [33].
Para uma aplicação VQA, em [73,68,69] o MS-SSIM é aplicado quadro a
quadro para a componente de luminância de vídeo e o índice geral do MS-SSIM
para o vídeo é então calculado como a média dos índices de qualidade a nível
de quadro .
Outra extensão do paradigma SSIM (destinado ao VQA), denominado índice de
velocidade do SSIM, que usa o SSIM em conjunto com modelos estatísticos de
percepção de velocidade visual e é apresentada em [74]. Para uma dada
velocidade de sequência de vídeo o SSIM considera três tipos de campos de
movimento (movimento absoluto, movimento de fundo e movimento relativo) e
usa um modelo de percepção visual humano de velocidade [75] para o cálculo
da qualidade de vídeo percebida.
Os resultados apresentados em [73] mostram que o MS-SSIM supera
significativamente o SSIM originalmente destinado para a avaliação da
qualidade da imagem, bem como o SSIM destinado ao VQA (no banco de
dados de qualidade de vídeo LIVE). Além disso, em [68,69], é mostrado que
para
o
mesmo
banco
de
dados
o
MS-SSIM
alcança
resultados
significativamente melhores do que a velocidade do SSIM para prever a
qualidade do vídeo percebida.
20. Sheikh e Bovik propuseram o índice de fidelidade de informação visual (VIF)
[69] para quantificar a qualidade de imagem estática, que é baseada em
estatísticas visuais combinadas com a modelagem HVS. Além disso, em [70], o
índice de vídeo do VIF (V-VIF) é proposto, o que estende o critério VIF para
imagens estáticas para o vídeo, usando derivadas temporais. No entanto, em
[56,62,63,65] , estes dois algoritmos não alcançaram resultados notáveis.
Em [45] Pinson e Wolf propuseram a métrica de qualidade de vídeo (VQM) para
sistemas de vídeo que abrangem uma vasta gama de índices de qualidade e
bits. O VQM pertence à RR métricas. Ela exige uma largura de banda de canal
de dados auxiliares de 9,3% da sequência de vídeo não comprimida, e as
técnicas de calibração associadas exigem um adicional de 4,7%. O cálculo do
VQM envolve a extração de componentes vinculados às características
baseadas na percepção, computando sete parâmetros de qualidade de vídeo e
combinando esses parâmetros para construir o modelo geral. Mais detalhes
sobre todo o modelo e o processo de cálculo podem ser encontrados em [45].
Desde que o VQM foi mostrado para produzir excelentes resultados quando
usado em VQEG Fase FR-TV testes II [72], foi adotado pelo American National
Standards Institute (ANSI) em julho de 2003 (ANSI T1.801.03-2003) como um
padrão nacional e internacional de recomendações do ITU-T J.144 e ITU- R
BT.1683, ambas aprovadas em 2004.
Figura 4 – Visão geral dos modelos de camada média [86]
21. 3) Métricas baseadas no bitstream e perda de pacotes
Nos últimos anos, um número crescente de serviços que incluem a entrega de
vídeo sobre redes IP foi fornecido (especificamente IPTV). Assim, tornou-se
necessário desenvolver as métricas VQA que levem em conta o impacto das
perdas na rede em qualidade de vídeo. Quando alguns dos pacotes são
perdidos durante a sua transmissão através da rede, é importante detectar a
quantidade de informação de vídeo perdida neles. Métricas baseadas no fluxo
de bits ou perda de pacotes extraem alguns parâmetros do fluxo de transporte e
do fluxo de bits com pouca ou nenhuma decodificação. Este processo resulta
em requisitos de largura de banda e de processamento mais baixas em
comparação com as métricas que usam vídeo totalmente decodificado. Um
exemplo dos pacotes ou baseados em fluxos de bits de métricas é o V-Factor
proposto em [16], enquanto que os outros exemplos podem ser encontrados em
[74-76]. Normalmente, a limitação de tais métricas é o fato de que elas são
adaptadas para codecs específicos e protocolos de rede. Especificamente, mais
informações sobre as técnicas de QoS /QoE para IPTV podem ser encontradas
em [77-78] .
3. OBJETIVOS
O objetivo geral desse trabalho destina-se a uma melhor compreensão da
percepção do usuário em relação às distorções espaciais e temporais do –“streaming”de dados de vídeo através da Internet e, como esse padrão de perda geral contribui
para a degradação da sua qualidade. O enfoque será avaliar o QoE pela normalização
de um dos parâmetros do QoS vinculado a perda de pacotes que ocorrem nas
transmissões IP de fluxos de vídeo que podem ser afetadas por este parâmetro, mesmo
se um algoritmo de reserva de recursos é utilizado. Portanto, o efeito da perda de
pacotes na qualidade percebida é o alvo principal da nossa analise.
22. 4. METODOLOGIA
Para realizar este trabalho será analisado o desempenho de um conjunto
representativo das métricas de qualidade de vídeo a serem pesquisadas, que
quantitativamente avaliarão o estado da arte dos métodos de avaliação objetiva da
qualidade de nossas categorias de classificação. Especificamente, vamos comparar
algumas das métricas descritas nos itens anteriores para avaliar a qualidade visual do
vídeo pela aplicação destas métricas em cada quadro de vídeo e, em seguida,
separadamente, a média das pontuações de quadros resultantes. Atualmente, os
bancos de dados de vídeo disponíveis publicamente inclui o banco de dados VQEG
FRTV Fase I [79] e o banco de dados de qualidade de vídeo LIVE [80]. O banco de
dados VQEG FRTV Fase I foi construído em 2000. Houve avanços significativos em
tecnologia de processamento de vídeo, desde então. O banco de dados de qualidade
de vídeo LIVE existe desde 2009, mas já foi atualizado para os -“codecs”- de ultima
geração e inclui vídeos distorcidos para a compressão do H.264, bem como vídeos
resultantes de transmissão simulada de -“streams”- de pacotes do H.264 através de
canais de comunicação propensos a erros. Consequentemente, será utilizado o banco
de dados de vídeo do LIVE mais recente.
O Software de Avaliação da Qualidade (IVQUEST) [81, 82] poderá ser utilizado
para testar e comparar o desempenho destas métricas usando o banco de dados de
vídeo do LIVE. O software IVQUEST toma como entrada 150 sequências de vídeo de
teste do banco de dados de qualidade de vídeo do LIVE, além de suas correspondentes
pontuações subjetivas do DMOS (Degradation Mean Opinion Score). Ele permite que o
usuário selecione as métricas objetivas de qualidade a serem aplicados às sequências
de vídeo de entrada selecionadas. O software pode então calcular, em um modo de
processamento por lotes, os resultados para as métricas objetivas selecionadas usando
os vídeos de entrada. O software também pode realizar a regressão linear e a análise
de correlação dos resultados obtidos das métricas objetivas, como recomendado em
[83], usando a entrada de pontuação DMOS, a fim de avaliar o desempenho das
métricas de qualidade objetivas escolhidas.
23. Figura 5 – Métricas de visualização objetiva do software IVQUEST [86]
O software IVQUEST suporta várias ferramentas de avaliação de desempenho,
incluindo o coeficiente de correlação de Pearson (CCP), o coeficiente de correlação de
ordem de Spearman (SROCC), o erro da raiz média dos quadrados (RMSE), o erro
médio absoluto (MAE) e a razão de valores discrepantes (OR). As figuras mostram
respectivamente, a tela de seleção métrica objetiva e a tela de análise de correlação do
software IVQUEST.
Figura 6 – Analise de visualização de correlação do software IVQUEST [86]
24. O impacto da perda de pacotes na qualidade de vídeo é um dos objetivos
principais desse trabalho. Uma analise do impacto da perda de pacotes durante a
transmissão de um vídeo através de um canal de transmissão com perdas sobre o
percentual dos quadros decodificados com sucesso e depois quantificar a degradação
da qualidade do lado do usuário final é uma das propostas. Devido ao fato de que os
quadros de uma sequência de vídeo MPEG são interdependentes, considerando uma
perda de pacote, a distorção visual causada por uma perda de pacote não será limitada
apenas ao quadro, ao qual o pacote perdido específico pertence. Pelo contrário, a
propagação do erro espacial ocorrera, afetando todos os quadros que são dependentes
do especifico quadro que ocorreu a perda. Assim, a fim de calcular a propagação de
erro devido a uma perda de pacote, as interdependências entre os quadros codificados
devem ser tomadas em consideração. Pelo lado do usuário final, a degradação do
PQoS induzida por uma perda de pacotes depende da estratégia de cancelamento de
erro implementado pelo decodificador . Uma estratégia típica de ocultação é o método
de zerar o movimento, em que um macrobloco perdido (ou quadro) está cancelado
(oculto) por reter os macroblocos localizados na mesma posição espacial da estrutura
dos quadros anteriores decodificados com êxito. Assim, quando ocorre a perda de
pacotes de acordo com a estrutura do decodificador, existem duas possibilidades nesse
cenário:
O decodificador tenta reconstruir os quadros de vídeo defeituosos (com
ou sem a ocultação de erro), fazendo com que os quadros mostrem os
erros espaciais (distorções do bloco e erros do bloco).
O
decodificador
descarta
completamente
um quadro
de
vídeo
corrompido e repete o quadro anterior impecável até que um novo
quadro decodificado (sem erros) esteja disponível.
O que é proposto nesse trabalho relativo ao segundo cenário, é uma estrutura
que modele a porcentagem dos quadros decodificados sem sucesso (isto é, a perda de
quadros), com base nas perdas de quadros que são causados pela perda de pacotes
25. durante o processo de streaming e, tentar prever o efeito da distribuição dessas perdas
de pacotes na qualidade do vídeo a ser entregue.
Existem varias métricas e ferramentas para analisar os parâmetros da rede
representados pela perda de pacotes, sendo o V-Factor bastante utilizado para simular
através de um modelo linear, testes objetivos para melhor compreender o impacto da
perda de pacotes na qualidade de percepção.
Normalmente, quando se trabalha em plataformas de avaliação de QoE em
tempo real os dados originais transmitidos não estão disponíveis. Isto implica que a
referência reduzida ou as técnicas de não referência devem ser utilizadas e, portanto a
precisão será limitada, especialmente quando a não referência é utilizada. Ao contrário
disso, as técnicas de referência completa garantem resultados mais precisos, mas com
a limitação de não serem utilizáveis em ambientes em tempo real.
Figura 7 – Pontuação de qualidade de vídeo [86, 87]
Outro aspecto referente à exatidão está relacionado sobre se temos acesso às
informações dependentes de aplicações. A questão crítica, neste caso, é o lugar onde
realizar a avaliação, por exemplo, na aplicação do usuário final, a camada IP no
computador do usuário final, ou no roteador de saída. Escolher o local onde realizar a
análise vai determinar como a aquisição de dados deve ser realizada. Como um
exemplo, as soluções de QoS usam classicamente a saída do roteador de rede para
realizar a análise de tráfego. Neste ponto, agrupar aplicativos de dados dependentes é
26. um desafio, especialmente em relação às demandas computacionais de inspeção
profunda de pacotes, e a ampla gama de aplicações e configurações existentes hoje
em dia. Quando a aquisição é feita localmente nas instalações do usuário final (por
exemplo, no set-top box em ambientes de IPTV ), mais aplicações de informações
dependentes estão disponíveis , como o codec utilizado , que melhoram muito a
precisão de calculo do QoE. Por fim, se o agrupamento é realizado pela aplicação no
usuário final, temos acesso a dados importantes do usuário, tais como, atrasos e
perdas percebidas pelo usuário, e status dos buffers de jitter, que ajudam a aumentar
ainda mais a precisão do QoE percebida pelo usuário.
A fim de ser capaz de demonstrar a validade da nossa estrutura e verificar a
operação adequada, será aplicada a proposta de enquadramento em uma verdadeira
escala de pacotes de rede de teste, que será capaz de aplicar condições específicas da
rede (ou seja, taxa de perda de pacotes).
5. CRONOGRAMA
A tabela abaixo apresenta o cronograma com as principais atividades do curso
de Mestrado em Engenharia Elétrica.
ATIVIDADES
3
4
5
6
CRONOGRAMA
2013
7 8 9 10 11 12 1 2 3
4
5
2014
6 7 8
Disciplinas
Pré-Projeto de
Dissertação
Fundamentação
teórica
Estado da arte
Desenvolvimento
da dissertação
Testes e análise
de resultados
Documentação
Qualificação
Correções e
ajustes
Defesa
FIGURA 1 – CRONOGRAMA DO MESTRADO EM ENGENHARIA ELÉTRICA
FONTE: O autor (2013)
2015
9 10 11 12 1 2
27. Obs.: Esse cronograma é uma estimativa das principais atividades do projeto de
Dissertação do Mestrado em Engenharia Elétrica.
REFERÊNCIAS
1 Shepard, R.N., On the status of direct psychophysical measurement, Minnesota
Studies in the Philosophy of Science, vol. 9, pp. 441–490.
2 Watson, A.B., Proposal: measurement of a JND scale for video quality, IEEE G2.1. 6 Subcommittee on Video Compression Measurements, (2000).
3 ITU-T Recommendation H.264/ISO/IEC 11496-10, Advanced Video Coding for
Generic Audiovisual Services, final version on 9 March 2010.
4 Schwarz , H., Marpe, D., Wiegand T., Overview of the scalable video coding
extension of the H.264/AVC standard, IEEE Transactions Circuits and Systems for
Video Technology 17 (9) (2007) 1103 –1120
5 Wang, Z., Sheikh H.R., Bovik, A.C., Objective video quality assessment, in: B.
Furht, O. Marqure (Eds.), The Handbook of Video Databases: Design and
Applications, CRC Press, 2003, pp. 1041–1078.
6 VQEG. Final Report from the Video Quality Experts Group on the Validation of
Objective Models of Video Quality Assessment. 2000,<http:// www.vqeg.org.>
7 Wang, Z., Bovik A.C., Lu, L., Why is image quality assessment so difficult? in:
Proceedings, IEEE International Conference on Acoustics, Speech, and Signal
Processing, 2002.
8 Engelke, U., Zepernick, H. J., Perceptual-based Quality Metrics for Image and
Video Services: A Survey, 3rd EuroNGI Conference on Next Generation Internet
Networks, Trondheim, Norway, May 2007.
9 Wang, Z., Bovik A.C., Sheikh, H.R., Simoncelli E.P., Image quality assessment:
from error visibility to structural similarity, IEEE Trans. Image Process. 13 (4)
(2004) 600–612.
10 Wang, Z., Lu L., Bovik, A.C., Video quality assessment based on structural
distortion measurement, Signal Process. Image Comm. 19 (2) (2004) 121–132.
28. 11 Ries , M., Crespi, C., Nemethova, O., Rupp, M., Content based video quality
estimation for H.264/AVC video streaming, in: Proceedings, IEEE Wireless and
Communications & Networking Conference, Hong Kong, March, 2007.
12 Greengrass, J., Evans, J., Begen A.C., Not all packets are equal, part 2: the
impact of network packet loss on video quality, IEEE Internet Computing 13
(2009) 74–82. http://dx.doi.org/10.1109/MIC.2009. 40,
http://dx.doi.org/10.1109/MIC.2009.40S.
13 ITU-R Recommendation BT.500-11, Methodology for the Subjective Assessment
of the Quality of Television Pictures, International Telecommunication Union,
Geneva, Switzerland, 2002..
14 ITU-T Recommendation P.910, Subjective Video Quality Assessment Methods
for Multimedia Applications, International Telecommunication Union, Geneva,
Switzerland, 1999.
15 ITU-T Recommendation P.911, Subjective Audiovisual Quality Assessment
Methods for Multimedia Applications, International Telecommunication Union,
Geneva, Switzerland, 1998.
16 Winkler, S. S., Mohandas, P., The evolution of video quality measurements: from
PSNR to hybrid metrics, IEEE Transactions on Broad- casting 54 (2008) 660–668.
17 Yuen, M., Wu, H.R., A survey of hybrid MC/DPCM/DCT video coding distortions,
Signal Processing 70 (1998) 247–278.
18 Seshadrinathan, K., Bovik A.C., Motion-based perceptual quality assessment of
video, in: Proceedings of the SPIE Human Vision and Electronic Imaging, vol.
7240, 2009.
19 Wu, H.R., Rao, K.R., Digital Video Image Quality and Perceptual Coding, Taylor
& Francis Group, London, 2006.
20 Wang, Z., R. Sheikh, Bovik A.C., Objective video quality assessment, in: B. Furth,
O. Marques (Eds.), The Handbook of Video Databases: Design and Applications,
CRC Press, Boca Raton, 2003, pp. 1041–1078.
21 Wang, Z., Lu, L., Bovik A.C., Video quality assessment based on structural
distortion measurement, Signal Processing: Image Communication, 19 (2004)
121–132.
22 VQEG, Final Report from the Video Quality Experts Group on the Validation of
Objective Quality Metrics for Video Quality Assessment, 2000,
http://www.its.bldrdoc.gov/vqeg/projects/frtv_phaseI, December 2011.
29. 23 Daly, S., The visible difference predictor: An algorithm for the assessment of
image fidelity, in: Proc. SPIE Human Vision, Visual Processing and Digital Display
1666 (1992) 2–15.
24 Daly, S., The visible difference predictor: an algorithm for the assessment of
image fidelity, in: A.B. Watson (Ed.), Digital Images and Human Vision, The MIT
Press, Cambridge, 1993, pp. 179–206.
25 Winkler, S., A perceptual distortion metric for digital color video, in:
Proceedings of the SPIE Human Vision and Electronic Imaging, vol. 3644, 1999,
pp. 175–184.
26 Tan, K.T., Ghanbari, M., Pearson, D.E., An objective measurement tool for MPEG
video quality, Signal Processing 70 (1998) 279–294.
27 Lambrecht, C.J., Verscheure, O., Perceptual quality measure using a spatiotemporal model of the human visual system, in: Proceedings of the SPIE Digital
Video Compression: Algorithms and Technologies, vol. 2668, 1996, pp. 450–461.
28 Watson, A.B., Hu, J., McGowan, J.F., DVQ: a digital video quality metric based
on human vision, Journal of Electronic Imaging 10 (2001) 20–29.
29 Tan, K.T., Ghanbari, M., A multi-metric objective picture quality measurement
model for MPEG video quality, IEEE Transactions on Circuits and Systems for
Video Technology 10 (2000) 1208–1213.
30 Rimac, S., Drlje S., Vranjes, M., Zagar D., Foveated mean squared error - a novel
video quality metric, Multimedia Tools and Applications 49 (2010) 425–445.
31 Chandler, D.M., Hemami S.S., VSNR: a wavelet-based visual signal- to-noiseratio for natural images, IEEE Transactions on Image Processing 16 (2007) 2284–
2297.
32 Wang, Z., Simoncelli , E.P., Bovik A.C., Multi-scale structural similar ity for image
quality assessment (invited paper), in: Proceedings of the IEEE Asilomar
Conference on Signals, Systems and Computers, USA, 2003.
33 Winkler, S., Sharma, A., McNally D., Perceptual video quality and blockiness
metrics for multimedia streaming applications (Invited paper), in: Proceedings of
the International Symposium on Wireless Personal Multimedia Communications,
Denmark, 2001, pp. 547–552.
34 Wu, H.R., Yuen, M., A generalized block-edge impairment metric for video
coding, IEEE Signal Processing Letters 4 (1997) 317–320.
30. 35 Baroncini, V., Perotti, A., Single-ended objective quality assessment of DTV, in:
Proceedings of the SPIE Multimedia Systems and Applications, vol. 3845, 1999, pp.
244–253.
36 Wang, Z., Bovik, A. C., Evans B.L., Blind measurement of blocking artifacts in
images, in: Proceedings of the International Conference on Image Processing, vol.
3, Canada, 2000, pp. 981–984.
37 Vlachos,T., Detection of blocking artifacts in compressed videos, Electronics
Letters 36 (2000) 1106–1108.
38 Guraya, F.F.E., Imran, A.S., Tong, Y., Cheikh, F.A., A non-reference perceptual
quality metric based on visual attention model for videos, in: Proceedings of the
International Conference on Information Sciences Signal Processing and their
Applications, Norway, 2010, pp. 361–364.
39 Farias, M.C.Q., Mitra, S.K., No-reference video quality metric based on artifact
measurements, in: Proceedings of the International Conference on Image
Processing, USA, 2005, pp. 141–144.
40 Yang, F., Wan, S., Xie, Q., Wu, H.R., No-reference quality assessment for
networked video via primary analysis of bit stream, IEEE Transactions on
Circuits and Systems for Video Technology 20 (2010) 1544–1554.
41 Coudoux, F.X., Gazalet , M.G., Derviaux, C., Corlay, P., Picture quality
measurement based on block visibility in discrete cosine transform coded
video sequences, Journal of Electronic Imaging 10 (2001) 498–510.
42 Gastaldo, P., Zunino, R., Rovetta, S., Objective assessment of MPEG-2 video
quality, Journal of Electronic Imaging 11 (2002) 365–374.
43 Marziliano, P., Dufaux, F., Winkler, S., Ebrahim,T., A no-reference perceptual blur
metric, in: Proceedings of the International Con ference on Image Processing 3,
USA, 2002, pp. 57-60.
44 Shanableh, T., PSNR No-reference, Identification of MPEG video using spectral
regression and reduced model polynomial networks, IEEE Signal Processing
Letters 17 (2010) 735–738
45 Pinson, M.H., Wolf, S., A new standardized method for objectively measuring
video quality, IEEE Transactions on Broadcasting 50 (2004) 312–322.
46 Horita,Y., Miyata, T., Gunawan, I.P., Murai, T., Ghanbari, M., Evaluation model
considering static-temporal quality degradation and human memory for
31. SSCQE video quality, in: Proceedings of the SPIE Visual Communications and
Image Processing, vol. 5150, 2003, pp. 1601–1611.
47 Gunawan, I.P., Ghanbari, M., Reduced-reference video quality assessment using
discriminative local harmonic strength with motion consideration, IEEE
Transactions on Circuits and Systems for Video Technology 18 (2008) 71–83.
48 Hewage, C.T.E.R., Martini, M.G., Reduced-reference quality assessment for 3D
video compression and transmission, IEEE Transactions on Consumer
Electronics 57 (2011) 1185–1193.
49 Gunawan, I.P., Ghanbari M., Efficient reduced-reference video quality meter,
IEEE Transactions on Broadcasting 54 (2008) 669–67.
50 Yang, S., Reduced reference MPEG-2 picture quality measure based on ratio of
DCT coefficients, Electronics Letters 47 (2011) 382–383.
51 Eskicioglu, A.M., Fisher, P.S., Image quality measures and their performance,
IEEE Transactions on Communications 43 (1995) 2959–2965.
52 Vranjes, M., Rimac, S., Drlje S., Zagar, D., Subjective and objective quality
evaluation of the H.264/AVC coded video, in: Proceedings of the International
Conference on Systems, Signals and Image Processing, Slovakia, 2008, pp. 287–
290.
53 Chikkerur, S., Sundaram, V., Reisslein, M., Karam L.J., Objective video quality
assessment methods: a classification, review, and performance comparison,
IEEE Transactions on Broadcasting 57 (2011) 165–182.
54 Barten, P.G.J., Contrast Sensitivity of the Human Eye and its Effect on Image
Quality, first ed. SPIE Publications, Washington, 1999.
55 Masry, M., Hemami, S.S., Sermadevi,Y., A scalable wavelet-based video
distortion metric and applications, IEEE Transactions on Circuits and Systems for
Video Technology 16 (2006) 260–274.
56 Rimac, S., Drlje, S., Zagar, D., Martinovic, G., Spatial masking and perceived
video quality in multimedia applications, in: Proceedings of the International
Conference on Systems, Signals and Image Processing, Greece, 2009, pp. 1–4.
57 Winkler, S., Digital Video Quality: Vision Models and Metrics, John Wiley & Sons,
Chichester, 2005.
58 Lubin J., Fibush D., Sarnoff JND Vision Model, T1A1.5 Working Group Document,
97-612, ANSI T1 Standards Committee, 1997.
32. 59 Wang, Z., Bovik, A.C., Lu, L., Why is image quality assessment so difficult ? in:
Proceedings of the IEEE International Conference on Acoustics, Speech & Signal
Processing 4, USA, 2002, pp. 3313–3316.
60 Chandler, D.M., Hemami, S.S., Suprathreshold image compression based on
contrast allocation and global precedence, in Proceedings of the SPIE Human
Vision and Electronic Imaging, vol. 5007, 2003, pp. 73–86.
61 Chandler, D.M., Lim, K.H.S., Hemami, S.S., Effects of spatial correlations and
global precedence on the visual fidelity of distorted images, in Proceedings of
the SPIE Human Vision and Electronic Imaging, vol. 6057, 2006.
62 Seshadrinathan, K., Soundararajan, R., Bovik , A.C., Cormack, L.K. Cormack, Study
of subjective and objective quality assessment of video, IEEE Transactions on
Image Processing 19 (2010) 1427–1441.
63 Seshadrinathan, K., Soundararajan, R., Bovik, A.C., Cormack, L.K., A Subjective
Study to Evaluate Video Quality Assessment Algorithms, in Proceedings of the
SPIE Human Vision and Electronic Imaging, vol. 7527, 2010.
64 Barkowsky, M., Bialkowski, J., Eskofier, B., Bitto, R., Kaup, A., Temporal trajectory
aware video quality measure, IEEE Journal of Selected Topics in Signal
Processing 3 (2009) 266–279.
65 Zhao, Y., Yu L., Chen, Z., Zhu, C., Video quality assessment based on measuring
perceptual noise from spatial and temporal perspectives, IEEE Transactions on
Circuits and Systems for Video Technology 21 (2011) 1890–1902.
66 Wang, Z., Bovik, A., Sheikh, H., Simoncelli, E., Image quality assessment: from
error visibility to structural similarity, IEEE Transactions on Image Processing 13
(2004) 600–612.
67 Wang, Z., Li, Q., Video quality assessment using a statistical model of human
visual speed perception, Journal of the Optical Society of America-Optics, Image
Science and Vision 24 (2007) B61-B69.
68 Stocker, A.A., Simoncelli, E.P., Noise characteristics and prior expectations in
human visual speed perception, Nature Neuroscience 9 (2006) 578–585.
69 Sheikh, H.R., Bovik, A.C., Image information and visual quality, IEEE
Transactions on Image Processing 15 (2006) 430–444.
33. 70 Sheikh, H. R., Bovik, A.C., A visual information fidelity approach to video quality
assessment (Invited paper), in: The First International Workshop on Video
Processing and Quality Metrics for Consumer Electronics, USA, 2005.
71 Ninassi, A., Meur, L.O., Callet, L. P. Le, Barba, D., Considering temporal
variations of spatial visual distortions in video quality assessment, IEEE
Journal of Selected Topics in Signal Processing 3 (2009) 253–265.
72 VQEG, Final Report from the Video Quality Experts Group on the Validation of
Objective Models of Video Quality Assessment, Phase II, 2003,
ttp://www.vqeg.orgS, January 2012.
73 Lee, S., Pattchis, M.S., Bovik, A.C., Foveated video quality assessment, IEEE
Transactions on Multimedia 4 (2002) 129–132.
74 Kanumur, S., Cosman, P.C., Reibman, A.R., Vaishampayan V.A., Modeling packetloss visibility in MPEG-2 video, IEEE Transactions on Multimedia 8 (2006) 341–
355.
75 Kanumuri, S., Subramanian S.G., Cosman, P.C., Reibman, A.R., Predicting H.264
packet loss visibility using a generalized linear model, in: Proceedings of the
International Conference on Image Processing, USA, 2006, pp. 2245–2248.
76 Verscheure, O., Frossard, P., Hamdi, M., User oriented QoS analysis in MPEG-2
delivery, Real-Time Imaging 5 (1999) 305–314.
77 Asghar, J., Hood, I., Faucheur, L. F., Preserving video quality in IPTV networks,
IEEE Transactions on Broadcasting 55 (2009) 386–395.
78 Zhang, J., Wang, Y., Rong, B., QoS/QoE techniques for IPTV transmissions, in:
Proceedings of the IEEE International Symposium on Broadband Multimedia
Systems and Broadcasting, Spain, 2009, pp. 1–6.
79 “VQEG FRTV phase 1 database,” 2000 [Online]. < ftp://ftp.crc.ca/crc/vqeg
/TestSequences/>.
80 “LIVE video quality database,” 2009 [Online]. Available: <http://live.
ece.utexas.edu /research/quality/live_video.html>.
81 Murthy, A., Karam, L., “IVQUEST- Image and video quality evaluation software,”
<http://ivulab.asu.edu/Quality/ IVQUEST>.
82 Murthy, A., Karam, L., “A MATLAB based framework for image and video quality
evaluation,” in Proc. Int. Workshop Quality Multimedia Exper. (QoMEX), Jun. 2010,
pp. 242–247.
34. 83 “Final report from the video quality experts group on the validation of objective
quality metrics for video quality assessment,” Study Group 9, 2000ITU-T, Jun.
[Online]. http://www.its.bldrdoc.gov/ vqeg/projects/frtv_phaseI.
84 Sodagar, I.,The MPEG-DASH Standard for Multimedia Streaming Over the
Internet, IEEE Multimedia, vol. 18, no. 4, Oct.-Dec. 2011, pp. 62-67.
85 Seshadrinathan, K., Soundararajan, R., Bovik, A. C. and Cormack, L. K., “LIVE
Video Quality Database.” <http://live.ece.utexas.edu/research/quality/ live
video.html> (2009).
86 Chikkerur, S., Sundaram, V., Reisslein, M., Karam, L., Objective Video Quality
Assessment Methods: Performance Comparison, IEEE (2011) 165–182.
87 IPTV real-time video quality testing. <http://www.trinstruments.cz/data/files/
vts-iptv-real-time-video-quaility-testing-462.pdf>;<http://www.althos.com/tutorial/
IPTV-Testing-tutorial-MPQM-moving-picture-quality-metrics.html>
Este plano de dissertação foi elaborado por
Paulo Cezar Dias Silveira
35. Sob orientação de
Prof.- Dr. Carlos Marcelo Pedroso
Orientador
Em Curitiba, 4 de dezembro de 2013.