2. Sumário
● O que é MP3
● História
● Princípios de funcionamento
● Codificação MP3
● Decodificação MP3
● Conteúdo de arquivos MP3
● Considerações finais
● Bibliografia
3. O que é MP3?
● MPEG Audio Layer-3
● Formato de aúdio com perdas
● Taxa de compressão variável
● Utiliza a estratégias psicoacústicas para codificação
● É um dos formatos mais difundido atualmente
4. História – 70'
● Na década de 70, um professor chamado Dieter
Seitzer, da Universidade de Nuremberg, na
Alemanha, estuda, juntamente com alunos de seu
grupo de estudos, uma forma de transmitir áudio em
alta qualidade, através de linhas telefônicas.
● Com o surgimento das fibras das fibras ópticas, a
pesquisa perdeu o sentido. Passaram, então a
pesquisar a codificação de áudio.
5. História – 70'
● Ainda em 70, o grupo consegue desenvolver o
primeiro processador capaz de comprimir áudio.
● Karlheinz Branderburg, um dos alunos de Seitzer,
que também é um dos atuais detentores da patente
do codec do MP3, começa a aplicar princípios de
psicoacústica nos codificadores de áudio.
6. História – 80'
● Em 1987 , o IIS (Institut Integrierte Schaltungen), na
Alemanha, juntamente com a Universidade de
Erlangen, começou a trabalhar numa codificação
perceptual de áudio para Digital Audio Broadcasting
(Transmissão Digital de Áudio).
● Em 1989, Karlheinz Branderburg publica sua tese de
doutorado, onde apresentava o algoritmo OCF
(Optimum Coding in the Frequency Domain).
Várias tecnologias do OCF são utilizadas no MP3,
como banco de filtros, quantificação não uniforme e
codificação de Huffman.
7. História – 90'
● Na década de 90, o algoritmo OCF sofreu alterações
e melhorias, resultando no algoritmo ASPEC
(Adaptative Spectral Perceptual Entropy Coding).
● ASPEC evoluiu para o MP3.
● Em 1995, o nome MP3 é registrado e também é
criada sua extensão.
8. Princípios de funcionamento -
Limiares
● Os limiares fisiólógicos:
● Limiar de Audição(Threshold of Hearing):
Define a intensidade mínima do som para ser
ouvido.
● Limiar de Sensação (threshold of feeling):
Define a intensidade do som a partir da qual os sons
são “sentidos”, podendo passar a causar dor e
eventualmente danos nos ouvidos. Tipicamente, o
limiar de dor (threshold of pain) é de 120 a 140 dB;
9. Princípios de funcionamento -
Mascaramento
● O efeito de mascaramento descreve o
comportamento do ouvido quando dois ou mais sons
diferentes o estimulam simultaneamente num curto
intervalo de tempo e isso consiste no apagamento
parcial ou total de algumas componentes do sinal de
áudio, devido ao fato de uma componente sobrepor
as outras componentes.
● Um som pode simplesmente, apagar
o outro ou então aumentar o seu
limiar de audição.
11. Codificação de Sub-Bandas ( Sub-
Band Coding )
● A codificação em Sub-Bandas depende do efeito de
máscara. A idéia base do SBC (Sub-Band Coding)
consiste em eliminar a informação que diz respeito
às freqüências mascaradas.
● O resultado não é o mesmo que o sinal original, mas
se a computação for bem feita, o ouvido humano
não perceberá a diferença.
13. Codificação de Sub-Bandas
● Mapeamento tempo-frequência: realizado através de
um Banco de Filtros ou FFT. Serve para decompor o
sinal de entrada em sub-bandas.
● O modelo psicoacústico analisa estas sub-bandas
como se fossem o sinal original e determina os
limiares de mascaramento.
● Cada uma das amostras das sub-bandas é
quantificada e codificada de forma a manter o ruído
de quantificação abaixo do limiar de mascaramento.
● O último bloco destina-se a agrupar todas estas
amostras quantificadas em quadros.
14. Decodificação de Sub-Bandas.
● Os quadros são interpretados, as amostras das sub-bandas
são decodificadas, e o bloco do mapeamento
tempo/frequência transforma novamente estas
amostras em sinal áudio.
16. Banco de Filtros
● É um conjunto de filtros passa-banda que separam o sinal de entrada
em várias componentes, cada uma contendo uma única sub-banda de
frequência do sinal original. Na saída, o sinal contém tantas sub-bandas
quanto o número de filtros existentes no Banco de Filtros - 32
no caso do MP3.
● Esta técnica permite isolar diferentes componentes de frequência do
sinal, sendo bastante útil para a codificação de música. Como o
aparelho auditivo humano é mais sensível a determinadas frequências
que outras, essas tem que ser exatamente preservadas na codificação,
pois pequenas diferenças são significativas. Por outro lado,
frequências menos importantes podem não ser exatas, permitindo
assim uma codificação mais eficiente.
17. MDCT – Modified Discrete Cosine
Transform
● Aplicando a transformada do cosseno discreta modificada
a cada amostra das 32 sub bandas, há novamente uma
subdivisão de cada sub banda em 18 mais finas, originando
agora 576 linhas de frequência (32*18 = 576), o que permite
uma eliminação de redundância mais eficiente.
● No entanto, antes de aplicar a MDCT, cada sub banda está
sujeita a um tipo de janela, determinada pelo Modelo
Psicoacústico, com o objetivo de reduzir artefatos causados
pelo limite de cada segmento.
● Elimina artefatos que podem causar um problema durante a
reconstrução da amostra.
18. FFT – Fast Fourier Transform
● Simultaneamente ao processamento do sinal
pelo Banco de filtros, este é também transformado
do domínio do tempo para o domínio da frequência
através da Transformada Rápida de Fourier,
originando assim uma maior resolução de frequência
e informação nas alterações espectrais ao longo do
tempo.
● É usado para filtrar dados indesejadas ou não
necessários a partir da amostra.
19. Modelo Psicoacústico
● Este bloco recebe como entrada o resultado de processamento da
FFT. Assim, como as amostras se encontram no domínio da
frequência, é possível aplicar-lhes um conjunto de algoritmos que
modelam a percepção sonora humana, determinando que partes do
sinal são, ou não, audíveis. Esta informação é útil para decidir que
tipos de janela a MDCT deve aplicar e para oferecer ao bloco de
Quantificação Não-Uniforme informação sobre como este deve
quantificar as linhas de frequência.
● O modelo Psicoacústico detecta os tons dominantes calculando para
cada banda critica um limite de "mascaramento". Estes limites são
utilizados pelo bloco de quantificação para que este mantenha o ruído
de quantificação abaixo destes limites. Componentes de frequência
abaixo destes limites podem ser "mascaradas" por ruído sem que se de
uma perda de qualidade perceptível.
20. Escalonamento e Quantificação Não-
Uniforme
● Nestes dois blocos, a quantificação, o escalonamento e a codificação
de Huffman são aplicados em dois ciclos diferentes:
● Rate Rate Control Loop:
● Este ciclo realiza a quantificação das amostras no domínio da
frequência e determina o tamanho do passo da quantificação.
● Distortion Loop:
● Este ciclo controla o ruído de quantificação causado pelo processo de
quantificação das linhas no domínio da frequência, com o Rate
Control Loop.
● O objetivo é manter o ruído de quantificação abaixo do limite de
mascaramento. (ruído permitido pelo modelo psicoacústico)
21. Codificação de Huffman
● Os valores quantificados sofrem uma codificação de
Huffman. Cada subdivisão do espectro de frequência
pode ser codificado com a utilização de diferentes
tabelas, de modo a adaptar e otimizar o processo de
codificação a diferentes estatísticas dos sinais áudio.
22. Codificação de Informação Auxiliar
● Todos os parâmetros gerados pelo codificador sao
utilizados para permitir que o decodificador
reproduza o sinal sonoro. São estes os parâmetros
incluídos na parte "Informação Auxiliar" do quadro.
23. Formatação dos Dados e Geração de
CRC
● No último bloco são formados os quadros que
constituem um arquivo MP3. Cada quadro
representa 1152 amostras PCM.
26. Conteúdo dos Arquivos MP3
● Todos os arquivos MP3 estão divididos em
fragmentos mais pequenos designados por quadros.
● Cada quadro guarda 1152 amostras de áudio tendo
uma duração fixa de 26ms quando é decodificado.
● O tamanho de cada quadro depende do bitrate com
que o sinal foi codificado e da freqüência de
amostragem.