Codifiche Audio Percettive

Le codifiche percettive
......
... e la codifica MPEG_Audio
1.. Caratteristiche del fenomeno suono
2.. Introduzione alla percezione del suono
3.. Richiami di audio digitale
... la codifica PCM
4.. Le codifiche percettive... . ...MPEG_Audio
... Caratteristiche
... Applicazioni
... Sintassi

2
1.. Caratteristiche del fenomeno
suono
Il fenomeno acustico dal punto di vista fisico
coinvolge sempre tre elementi:
.... la sorgente corpo vibrante
.... il mezzo qualsiasi mezzo elastico
.... il ricevitore l'apparato uditivo
Sorgente
Trasformazione
in altra forma
energetica
Trasmissione
Trasformazione
in variazioni
di pressione

3
INTERVALLO
DI FREQUENZA
Hz
FENOMENO
PERCEPITO
0 ... 20 Vibrazioni
20 ... 20000 Suoni
20000 ... 40000 Ultrasuoni
..... tali limiti sono solo indicativi in quanto i valori
reali dipendono da molti fattori sia fisici che
psicologici :
.. le caratteristiche genetiche dell'individuo
.. la "dotazione fisica" dell'apparato uditivo
.. l'età
.. l'affaticamento acustico
.. l'esperienza in ascolto
Il suono è un particolare tipo di segnale che può
essere rilevato dall'apparato uditivo umano ed è
caratterizzato da :
... intensità o ampiezza
... acutezza o frequenza
... timbro carattere che distingue lo stesso
suono generato da sorgenti diverse

4
INTENSITÀ
Può essere misurata in deciBel
Nel caso si usi il valore della minima intensità udibile di
IRif=10-12 W/m2
o della minima pressione rilevabile di
2x10-5N/m2
prende il nome di
dB SPL (Sound Pressure Level)
rifrif I
I
Log
p
p
LogBEL 10
2
10 =
ö
ç
ç
è
æ
=
rifrifrif I
I
Log
p
p
Log
p
p
LogDECIBEL 1010
2
10 102010 ==
ö
ç
ç
è
æ
=
140 dBSPL Aereo
130 dBSPL Soglia del dolore
110 dBSPL Moto in accelerazione
90 dBSPL Strada urbana
80 dBSPL Locale pubblico
60 dBSPL Traffico automobilistico
50 dBSPL Voce di conversazione
20 dBSPL Ticchettio orologio
10 dBSPL Fruscio foglie

5
RUMORE
Il rumore è definito [ANSI S 1.1] come la somma di
oscillazioni irregolari, intermittenti o statisticamente
casuali. Percettivamente è un suono innaturale e
disturbante.
La soglia di percezione del rumore dipende
dall'intensità, dalla frequenza e , per rumori di tipo
impulsivo anche dalla durata.
Un suono si differenzia dal rumore solo per le
sensazioni di piacere o sgradevolezza che suscita e
non ne esiste una distinzione oggettiva.

6
COMPONENTI
TONALI e NON TONALI
Le componenti tonali sono quelle componenti di un
tono complesso che più assomigliano a toni puri.
Un metodo semplificato per valutare la presenza di
componenti TONALI in una emissione sonora è di
effettuarne una analisi per bande di 1/3 di ottava:
"se il livello di pressione sonora di
una o più bande di 1/3 di ottava
dello spettro sonoro supera per più
di 5 dB quello delle due bande
adiacenti, si è in presenza di
componenti tonali."
Tutte le componenti del segnale sonoro che
dall'analisi non risultano essere TONALI vengono
dette NON TONALI e possono essere assimilate a
rumore.

7
2.. Introduzione alla percezione
del suono
.. orecchio esterno
.. padiglione auricolare
.. condotto uditivo esterno
.. membrana timpanica
.. orecchio medio
.. cavità ossea con tre ossicini : martello, incudine e staffa
.. finestra ovale
.. due muscoli di smorzamento dei movimenti dei tre ossicini
.. un canale di comunicazione con l'atmosfera per compensare le
pressioni sulle due superfici della membrana timpanica (Tromba di
Eustacchio)
.. orecchio interno
.. vestibolo
.. canali semicircolari detti labirinto
.. coclea , canale colmo di un materiale elastico

8
Orecchio Esterno Orecchio Medio Orecchio Interno
-- l'orecchio esterno funzionando da risonatore per le frequenze tra 1000
e 7000 Hz produce un incremento di circa 10-12dB della pressione
sonora
-- nell'orecchio medio la membrana timpanica mette in vibrazione
martello, incudine e staffa, che, funzionando come un sistema di leve
triplicano la forza applicata sulla finestra ovale
-- a questo punto la pressione originaria esercitata sul timpano è stata
amplificata di circa 90 volte e viene impressa sulla finestra ovale
-- dalla finestra ovale il suono (sotto forma di variazione di pressione)
giunge all'orecchio interno dove attraverso il movimento del liquido
cocleare dei canali vestibolare e timpanico la membrana base mette
in risonanza le cellule situate nell'organo di Corti.

9
-- le cellule del Corti producono dei segnali di tipo elettrochimico che
attraverso il nervo uditivo giungono al cervello secondo un processo
non ancora ben conosciuto.
In tutto il processo di percezione uditiva vengono
coinvolti numerosi fenomeni soggettivi.
La percezione di un suono può avvenire anche per via
ossea (soprattutto per quello auto prodotto).
Caratteristica FISICA Fenomeno PERCEPITO
Frequenza Pitch
Intensità Livello percepito o
Loudness
Forma spettrale,
Modulazione, Frequenza
Intensità, Fluttuazioni,
Rigidezza
Tempo Durata soggettiva

10

11
BANDE CRITICHE
Il concetto delle bande critiche è basato sulla
comprovata assunzione che il nostro sistema uditivo
analizza lo spettro di un segnale audio dividendolo
in sottobande (dette bande critiche).
Banda Critica [Aarts]: La banda di frequenze più larga in
cui l'intensità di un rumore distribuito casualmente
nella stessa banda di intensità energetica costante
(SPL) è indipendente dalla sua larghezza di
banda.
B a n d e
C ritic h e
0 5 0 0 0 1 0 0 0 0 1 5 0 0 0 2 0 0 0 0 2 5 0 0 0

12
LOUDNESS
Indica l'intensità percepita di un suono e dipende dall'intensità energetica
e dalla frequenza, in particolare le definizioni sono [Aarts]:
Loudness: Attributo di sensazione uditiva secondo cui un
suono può essere ordinato in una scala da lieve a
intenso
Livello di Loudness: livello della pressione sonora di
riferimento, scelta come un'onda sinusoidale di
frequenza 1KHz proveniente dal fronte
dell'ascoltatore e che è giudicato da una
persona con udito sano di uguale intensità al
suono di raffronto.
Il loudness può essere misurato in Phon

13
IL MASCHERAMENTO
Il mascheramento è definito come il livello di pressione sonora o dB
SPL di un tono di riferimento necessario perché questo possa essere
udito in presenza di un mascherante.
La percettibilità di un tono puro in assenza di altri segnali dipende
principalmente da :
.. intensità
.. frequenza
.. durata
.. dotazione fisica dell'individuo
.. età
.. affaticamento
.. stato fisico
.. stato psichico dell'individuo
SOGLIA STATICA

14
SOGLIA DINAMICA
.... nella frequenza

15
... nel tempo
Il mascheramento temporale si distingue in
simultaneo e NON simultaneo.
NON SIMULTANEO
Fenomeno secondo cui un tono "copre" quelli vicini nel tempo sia
passato che futuro.
SIMULTANEO
I contributi di mascheramento si sommano secondo criteri non ancora
del tutto noti.

16
... nella frequenza e tempo
PERCEZIONE DI VARIAZIONI DI
INTENSITÀ
Le variazioni in intensità vengono percepite solo se superiori
a 5 dB
(più di un raddoppio dell'energia sonora).
La sensazione di raddoppio dell'intensità soggettiva
corrisponde ad un incremento di 10 dB (corrispondente a
un'amplificazione dell'energia iniziale di 10 volte !).

17
3.. Richiami codifica di audio
digitale
L'SNR (Signal to Noise Ratio)
Il rumore di quantizzazione può essere più o meno udibile a
seconda della sua intensità rispetto a quella del segnale audio in
ogni intervallo di campionamento.
SNR Log
Segnale
Rumore
dB= 20 10
Se si usa un numero B di Bit per la quantizzazione su livelli
equiampi, l'SNR vale:
SNR B dB≅ +6 1 74.
Si noti che per quantizzare un segnale analogico caratterizzato da un
rumore intrinseco di 20 dB sarebbe del tutto inutile usare più di 4 bit
per la quantizzazione digitale.
Condizione sufficiente affinché il rumore di
quantizzazione non sia udibile è che il valore di SNR sia
superiore al valore in dB tra segnale e soglia di
mascheramento per ogni banda critica.

18
La rappresentazione numerica ottenuta campionando e quantizzando
un segnale analogico può essere codificata secondo una qualsiasi
sintassi.
Ogni rappresentazione permette però una diversa accuratezza nei
processi di quantizzazione e campionamento determinando
l'efficienza del sistema in termini di:
... larghezza di banda
... rapporto segnale rumore
... accuratezza
... sensibilità agli errori

19
Il sistema PCM
... viene universalmente accettato come una codifica efficiente per
audio ad alta qualità, offrendo buoni parametri in termini di larghezza
di banda, intervallo di dinamica e dimensioni della rappresentazione.
N Bit N Bit N Bit N Bit N Bit N Bit N Bit N Bit N Bit N Bit N Bit N Bit
Sinistr
o
Destro Sinistro Destro Sinistro Destro Sinistro Destro Sinistr
o
Destro Sinistro Destro
Capacità di canale richiesta:
Se la larghezza di banda del segnale è di 20000Hz e si vuole usare la
rappresentazione PCM con un rapporto segnale-rumore (SNR) di
almeno 90dB (16 Bit) è necessario una capacità di 768KBit/sec. per
ogni canale monofonico:
16(Bit) *48000 (frequenza di Campionamento) = 768 000 Bit/sec.
... la memorizzazione in PCM necessita di costose apparecchiature e
canali trasmissivi di complessa progettazione.
Si è dovuto ricorrere a dispositivi ottici (Compact Disc) e magnetici
(DAT: Digital Audio Tape) di alta precisione.
La distribuzione radiofonica in formato PCM rimane pressoché
irrealizzabile a bassi costi.

20
Necessità di codifiche compresse

21
4.. Le codifiche percettive .....
.....codifica MPEG_Audio
La codifica MUSICAM (alias MPEG_Audio layer II) è
stata sviluppata per il DAB.
MUSICAM è stata definita all'interno del progetto
EUREKA EU 147 da :
CCETT (Centre Commun d' Ètudes de Télédiffusion et Télécommunications -Francia-)
IRT (Institut fùr Rundfunktechnik -Germania-)
PHILIPS Consumer Electronics (-Olanda-).
il cui sviluppo è stato iniziato nel 1986 ed ha richiesto 4 anni (1987-1991) per un
totale di 360 anni-uomo.
Grazie alle sue caratteristiche è stata adottata e standardizzata da MPEG
per la diffusione su larga scala dell'audio associato alle immagini (ISO-
IEC/JCT1/SC29/WG11, 1992)

22
I concetti alla base della codifica sono:
-- La compressione avviene per gruppi di 1152 campioni per ogni
canale monofonico.
-- Il processo di codifica trova la rappresentazione dei 1152
campioni PCM con altrettante componenti divise su 32
sottobande equiampie.
-- Per ogni banda si ottengono 1152:32=36 componenti di
sottobanda.
-- La sequenza codificata memorizza i valori dei campioni e alcune
informazioni per la loro corretta interpretazione.
STRUTTURE DATI
BIT ALLOCATION
INTERO SENZA
SEGNO
[CH][SBLIMIT] Indici della tabella contenente i
livelli di quantizzazione per ogni
sottobanda
SCFSI
INTERO SENZA
SEGNO
[CH][SBLIMIT] Codifica dei fattori di scala per
eliminarne la irrilevanza
percettiva entro 6 dB
SCALEFACTOR
O
FATTORE DI SCALA
INTERO SENZA
SEGNO
[CH][3][SBLIMIT] Indice della tabella contenente i
valori quantizzati dei fattori di
scala
SAMPLE
INTERO SENZA
SEGNO
[CH][3][SCALE_BLOCK][SBLIMIT] Campioni di sottobanda
Osservazioni Sulle Strutture Dati
Dal valore dei BIT_ALLOCATION in ogni sottobanda dipende :
.. il numero di livelli di quantizzazione dei campioni di sottobanda
.. l'occupazione in bit di ogni campione nella sequenza compressa
.. i coefficienti da usare per la quantizzazione e dequantizzazione
.. la presenza delle informazioni SCFSI

23
.. la presenza degli indici di scalamento
IL FRAME
FRAME AUDIO
HEADER [CRC_ERRORI] DATI_AUDIO [DATI AUSILIARI]
La sua dimensione è fissa in quanto i campioni PCM vengono ricevuti e
devono essere forniti ad una frequenza uguale a quella di campionamento, per il
funzionamento in tempo reale.
Tradotto in formule......
1
48000
1152 24* sec.= m
cioè ogni secondo di musica viene codificato su un numero di
1
0 024
41 666667
.
,= Frame.
Ad esempio per un bitrate di 256KBit/sec. e modalità Single_Channel si hanno a
disposizione 256.000 Bit al secondo per produrre i 41,666667 Frame ovvero ogni
Frame ha dimensione di
256000
41 666667
6144 768
,
= =Bit Byte
Semplificando e generalizzando le formule precedenti si può esprimere la
dimensione di ogni Frame in una nuova unità di misura detta SLOT che equivale
a 1 Byte per i layer II,III e a 4 Byte per il layer I:
Slot
CampFreq
Bitrate
IlayerframeDimensione
ö
çç
è
æ
=
._.
12___
Slot
CampFreq
Bitrate
IIIIIlayerframeDimensione
ö
çç
è
æ
=
._.
144____

24
Le differenze principali della sintassi di codifica del layer II rispetto agli
altri livelli sono:
LAYER I
- non si usa la codifica dei fattori di scala con la struttura SCFSI
- i livelli di quantizzazione non seguono nessuna tabella di
transcodifica e quindi non si fa nessun grouping di campioni
dato che il numero di passi di quantizzazione è sempre un
multiplo di due ed è indicato direttamente da
2^(bit_alloc[CH][i])
- la BIT_ALLOCATION ha sempre dimensione di 4 bit indipendentemente
dalla sottobanda
LAYER III
- viene usata una codifica addizionale di Huffmann per i campioni di
sottobanda
- vengono utilizzate strutture dati aggiuntive che rendono la sintassi
di codifica completamente diversa da quella esposta

25
SNR : Signal to Noise Ratio
Il valore di SNR dipende esclusivamente dal numero di bit usati
per quantizzare il segnale e quindi, solo dal valore di bit
allocation.
SMR : Signal to Mask Ratio _
Differenza in dB tra il segnale ed il valore di soglia di
mascheramento.
MNR : Mask to Noise Ratio _Differenza in dB tra il valore di
maschera e rumore di quantizzazione.
MNR = SNR - SMR
Segnale
Maschera
Noise
SMR ( b_a)
MNR = SNR - SMR
SNR [quant]

26
Banda N-1 Banda N Banda N+1
dB SPL
Minimo della soglia nella banda
Massimo segnale nella banda
SMR
Banda N
Funzionedi
mascheramento
Soglia statica
Soglia statica Soglia statica A
B
C
= D
EF
Funzione di
eccitazione
G
A - funzione di mascheramento
B - minimo della funzione di mascheramento
C - minimo della soglia statica
D - massimo tra i due valori dei punti B e C
E - massimo livello del segnale
F - valore di SMR.
G - impulso di eccitazione

27
MODELLO
PERCETTIVO
Ingresso di 1152
campioni PCM
Uscita 32 valori di SMR
Nel modello psicoacustico 1 il calcolo dell' SMR procede come
di seguito:
1.. Calcolo della FFT per la rappresentazione frequenziale dei
campioni PCM
2.. Calcolo livello del segnale (in deciBel SPL) in ogni sottobanda
3.. Confronto con la soglia statica in quiete (tabulata)
4.. Identificazione delle componenti tonali (simili al seno) e non
tonali (simili a rumore)
5.. Decimazione dei toni di mascheramento per ottenerne solo i
rilevanti
6.. Calcolo soglia di mascheramento individuale per ogni
componente spettrale
7.. Calcolo soglia globale
8.. Calcolo minimo della soglia di mascheramento in ogni
sottobanda
9.. Calcolo dell'SMR in ogni sottobanda.

28

Codifiche Audio Percettive

Recommended

Recommended

More Related Content

Similar to Codifiche Audio Percettive

Similar to Codifiche Audio Percettive (14)

More from Davide Cilano

More from Davide Cilano (6)

Codifiche Audio Percettive