Bronke/ Kücük/ Campos Santos- AAC   1
AACPräsentation                                     Hochschule der MedienDuygu Kücük                                      ...
Agenda         Bronke/ Kücük/ Campos Santos- AAC   3
Advanced Audio Coding   Audiokompressionsverfahren         standardisiert         verlustbehaftet          Bronke/ Kücük/ ...
ZieleNachfolger von MP3Schwächen von MP3 minimieren, alsoKodierung verbessernKonkurrenz zu Ogg Vorbis, Windows MediaAudio,...
FeaturesSamplingrate 8 – 96 kHzMehrkanalfähig, bis zu 48 KanäleProfile, z.B.   Niedrig, für Echtzeitkodierung   Hoch, für ...
Standardisierung               …       Bronke/ Kücük/ Campos Santos- AAC   7
StandardisierungSpezifiziert in zwei Standards   Part 7 von MPEG-2      ISO/IEC 13818-7:1997   Subpart 4 in Part 3 von MPE...
AnwendungenTeil des MPEG-2 StandardsAudiokern des MPEG-4 StandardsHE-AAC in digitalem Radio, Mobile TV, …Dateiendungen    ...
Anwendungen      Bronke/ Kücük/ Campos Santos- AAC   10
Lizensierung               • Keine Lizenz/-                 Patentgebühren zu Verbreitung     zahlen Implemen-     • Lizen...
Lizensierung                          Volume                                  Per Unit feeConsumer Product          1 to 5...
Techn. Eigenschaften - EinführungAAC basiert auf „Perceptual Model“Prinzip des „Perceptual Coding“Perceptual Model nutzt M...
Techn. Eigenschaften - HörmodellTöne mit einem Schalldruckpegel unterhalb des „Maskierers“ könnennicht wahrgenommen werden...
Techn. Eigenschaften - Hörmodell            Bronke/ Kücük/ Campos Santos- AAC   15
Codierung - ZieleAllgemein• Abtastung  Umwandlung Analog zu Digital• Abtastrate  Abtastung erfolgt in einer bestimmten A...
Encoder                FilterbankAudiosignal              Verarbeitung &              Quantisierung                Bitstro...
Decoder101101110101     Bitstrom- Bitstrom       dekodierung               Verarbeitung &               Dequantisierung   ...
Vorgehen• Enkodierung   – Signalumwandlung von Zeitbereich in Frequenzbereich,     durch MDCT mit “Filter Banks”   – Der F...
Enkodierungsprozess (Übersicht)                                  Psychoacoustic                      Threshold            ...
Dekodierungsprozess (Übersicht)               Compressed Bitstream                     Demultiplex                        ...
Enkodierungsprozess (Detail)                      Pre-Input Signal       Processing                                       ...
Filter Bank (1)• Audio-Signal wird in zeitliche Blöcke (Frames) zerlegt:    – Abschnitte mit gleichmäßigem Klangbild (stat...
Filter Bank (2)• Übergangsregeln für „block/window switching“:    – Vor einem kurzen Fenster sollte (nach mehreren langen ...
Filter Bank (3)• Zwei Window-Varianten auf lange Blöcke:    – Sinus = Eignet sich für Signale mit dichter Spektraldarstell...
MDCT• Modifizierte diskrete Kosinustransformation bei Enkodierung• Überlappung aufeinander folgender Frames um 50%    – st...
Enkodierungsprozess (Detail)                      Pre-Input Signal       Processing                                       ...
Temporal Noise Shaping (1)• Problem: Was ist mit Eingangssignalen, die irgendwo zwischen  "gleichmäßig" und "impulsiv" lie...
Temporal Noise Shaping (2)            Bronke/ Kücük/ Campos Santos- AAC   29
Intensity Stereo• Ähnliche Kodierung von hochfrequenten Signalen, die in Stereo vorliegen,  ohne das ein hörbarer Untersch...
Mid/Side Stereo Coding (1)• Die Mid/Side Stereo Kodierung basiert auf der Kodierung der beiden  parallelen Kanäle eines St...
Mid/Side Stereo Coding (2)              MID                               SIDE            Bronke/ Kücük/ Campos Santos- AA...
Prediction (1)• Voraussage nur bei annähernd konstanten Abschnitten eines Audiosignals• Statt gleiche Information zu wiede...
Prediction (2)             Bronke/ Kücük/ Campos Santos- AAC   34
Enkodierungsprozess (Detail)                      Pre-Input Signal       Processing                                       ...
Scale factor• Frequenzlinien werden in Gruppen aufgeteilt -> Scale factor bands• Jede Gruppe hat einen Scale factor• Scale...
Quantisierung• Größte Datenreduktion möglich• Quantisierung auf Basis des psychoakustischen Modells• Hörbares wird in disk...
Noiseless Coding• Teil der Quantisierung• Sollte vor der Huffmann-Kodierung eingesetzt werden• In die Menge der vorliegend...
Huffman Coding• Kodierung basiert auf der Häufigkeitsverteilung• 12 vordefinierte Codebooks (Huffman-Tabellen)• Auswahl de...
Enkodierungsprozess (Detail)                      Pre-Input Signal       Processing                                       ...
Kontrollmechanismus• Zwei Kontrollschleifen zur Überprüfung der…• …Bitraten    – Rate Control Loop  kontrolliert, ob bei ...
Enkodierungsprozess (Detail)                      Pre-Input Signal       Processing                                       ...
Bitstream Coding (1)• Bitstream Coding (oder Multiplexing) organisiert die Datenübertragung• Datenströme können je nach Be...
Bitstream Coding (2)• AAC unterteilt den Datenstrom in zwei Bereiche:    – Transportbereich, der die Übertragung garantier...
AAC - FormateFormate in MPEG-2 Part 7 + MPEG-4 Part 3:• Audio Data Interchange Format (ADIF)• Audio Data Transport Stream ...
AAC - Formate (ADIF)• Audio Interchange File Format:    – Dateiformat (Containerformat) zum Speichern von LPCM (Linear Pul...
AAC - Formate (ADTS)• Audio Data Transport Stream basiert auf MPEG-TS:    – standardisiertes Kommunikationsprotokoll zur Ü...
AAC - Profile          PNS                SBR                     PS MPEG-2         MPEG-4                    MPEG-4      ...
Perceptual Noise Substitution (PNS) “noise always sounds the same”• Dient dazu den Speicherplatz effizienter zu nutzen.  ...
Perceptual Noise Substitution (PNS)3. Für diesen Bereich des Audiosignals wird ein Bit (flag) gesetzt, als   Hinweis, dass...
AAC-LC• AAC Low Complexity• Leistungsfähiger Audiocodec für gute Qualität bei niedrigen  Bitraten• Verwendung:   –   Apple...
Spectral Band Replication (SBR) Versucht die Nachteile der Audiokompression auszugleichen.    Audiodatei mit 128Kbps     ...
Spectral Band Replication (SBR)•    Das menschliche Gehör wird zu höheren Frequenzen hin immer weniger     anspruchsvoll.•...
Spectral Band Replication (SBR)2.   Replizierten Anteil mit Hilfe der     gespeicherten SBR-Daten anpassen.Effizienz wird ...
Parameteric Stereo (PS)• Bandbreitenreduzierung eines Stereosignals   – Aus einem Stereosignal wird ein Monosignal mit Zus...
Parameteric Stereo (PS)            Bronke/ Kücük/ Campos Santos- AAC   56
HE-AAC / HE-AAC v2•   High Efficiency AAC•   Kombination aus AAC-LC mit Spectral Band Replication (SBR)•   HE-AAC v2 ist u...
AAC - LD Audio-Codec für Sprache. Ermöglicht geringere Verzögerungszeiten für eine Zweiwege-  Kommunikation.  Die Verzö...
AAC - LD Hauptunterschiede zu anderen Profilen: Halbierung der Fenstergröße:    Von 1024 auf 512 Samples.    Die Zeit ...
Ein Vergleich                Bronke/ Kücük/ Campos Santos- AAC   60
Ausprägungen und Einflussgrößen                             AAC                                      MP3   Timing        E...
Verbesserungen Liefert gleichwertige Qualität schon bei 70% der Bitrate von  MP3 Mehrkanalunterstützung      MP3: (2) 5 ...
Verbesserungen• Stationäre Signale: Bildung größerer Blöcke bestehend aus  1024 Samples. (1024P)  Zum Vergleich bei MP3: 5...
Verbesserungen• Höhere Bitrate möglich (8 - 529 kBit/s)  Zum Vergleich MP3 (8 - 320kBit/s)• Kombination verschiedenster To...
AAC vs MP3                                        MP3                     AAC    Filterbank                         Hybrid...
Demos        Bronke/ Kücük/ Campos Santos- AAC   66
Demos-Übersicht• MP3 vs. AAC LC, HE, HEv2 vs. WAV• 32 kBit/s Bitrate• Hörtests• Testdateien erzeugen:    – cdEX: CD -> .wa...
Profil-Demos und Hörtests        Bronke/ Kücük/ Campos Santos- AAC   68
Kurze Wiederholung…          PNS                SBR                     PS MPEG-2         MPEG-4                    MPEG-4...
AAC Profil LC                  Dateigröße: 1,08 MB                Bronke/ Kücük/ Campos Santos- AAC   70
Hörtests PNS           Bronke/ Kücük/ Campos Santos- AAC   71
AAC Profil HE                Dateigröße: 1,10 MB            Bronke/ Kücük/ Campos Santos- AAC   72
Hörtests SBR               Bronke/ Kücük/ Campos Santos- AAC   73
AAC Profil HEv2              Dateigröße: 1,03 MB                   He: 1,10 MB            Bronke/ Kücük/ Campos Santos- AA...
Hörtests           Bronke/ Kücük/ Campos Santos- AAC   75
AAC vs MP3 vs WAV    Bronke/ Kücük/ Campos Santos- AAC   76
AAC-Hev2 vs MP3 @32 kBit/s  AAC Hev2                                                        MP3  Dateigröße: 1,03 MB      ...
AAC-Hev2 vs MP3 @32 kBit/s   AAC Hev2                                                      WAV Dateigröße: 1,03 MB        ...
AAC vs MP3• Hörtest bestätigt die höhere subjektive Qualität des AAC-Codecs  gegenüber MP3.                      5        ...
Fazit        Bronke/ Kücük/ Campos Santos- AAC   80
FazitVorteile:  Hohe Kompression, also hohe Qualität auch bei  kleinen Dateigrößen  Multikanalfähig, also Surround-fähig  ...
Fazit Nachteile    Enkoder ist kompliziert zu implementieren    Viele Profile        In cosumer Markt oft nur LC    Implem...
Vielen Dank!Kontakt:   Duygu Kücük           dk068@hdm-stuttgart.de           Filipe Santos           fc009@hdm-stuttgart....
Quellen•High-Fidelity Multichannel Audio Coding – Dal Tracy Yang, Chris Kyrlakais, CC Jay Kuo•The MPEG Handbook , MPEG-1, ...
Quellen•http://en.wikipedia.org/wiki/Comparison_of_audio_codecs•http://en.wikipedia.org/wiki/Advanced_Audio_Coding•http://...
Nächste SlideShare
Wird geladen in …5
×

Advanced Audio Coding - AAC

1.596 Aufrufe

Veröffentlicht am

our presentation at university about the AAC and related topics

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.596
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
3
Aktionen
Geteilt
0
Downloads
9
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • Begrüßen
  • Vorstellen mit background
  • Also hat soweit gut geklapptDurchsetzung immer noch schwierig gegen mp3Multikanalität sound für surround anlagen aller art ermöglichen
  • Samplingrate – Abtastrate des kontinuierlichen Signals, danach hat man zeitdiskretes SignalProfile kommen wir nachher genauer zu, welche es gibt und was sie beherrschenTagging – Also anfügen von EmtadatenKopierschutz: DRM – Digital Rights management – integrierrung von lizenz und rechtesystem
  • Von MPEG Arbeitsgruppe des ISO entwickeltUmgeangssprachlich mpeg eher als VideostandardExpertengruppe die sich vorwiegend mit Videokompression beschäftigtAber auch mit allen bereichen drum herum wie audiokompression und containerformatenUnter anderem Dolby, Sony, At&t, Frauenhofer IIS Nokia,…
  • 1997 - Mpeg 2 part 7 - gab es 3 profile low complexity LC, main und scalable samling rate SSR(was das ist kommt gleich)1999 – wurde es upgedatet mit einigen features (wie long term prediction, also vorwärts prediction mit geringerer Komplexität) und in mpeg4 standard integriert, mit vielen weiteren Profilen wie speeach audio profil, synthetic audio profile, …2000 high qualitiy profile, mobile audio internetworking profile,2003 HE Profile2006 HEv2 Profile (Filipe)2009 letztes update des standards
  • .3gp (vor allem im mobilen Bereich).mp4 (Container für mpeg4 Inhalte).m4a,m4b,m4p,m4v,m4r (nur für audio)
  • Apple, Iphone, ipadDivX Webplayer plusPioneer, in car systeme AVIC
  • MP3 hat ein kompliziertes lizenzsystem bei dem viele Firmen wie Alcatel Lucent, Thomson, das Frauenhofer Institut und weitere eine Rolle spielenDeshalb kann man oft tools nur als quellcode runterladen aber nicht compiliert, weil es sonst patentstreitigkeitengeben könnteich hab schon welche gesehen, aber es gibt immer leute die trotzdem tools bereitstellenNormalerweise knapp 1 dollar, je mehr einheiten von dem produkt verkauft werden, desto günstiger wird es, z.b. für mp3 playerverschiedene Lizensierungsmodell kommt drauf an was man mit machen will (große Tabelle im Netz)
  • Ausschnitt aus offizieller Tabelle, nur um überblick zu schaffenEs gibt auch eine liste, wer die Lizenzen hat, also großn mit dabei MS, Apple, OracleIm moment 527, falls die Liste aktuell ist
  • Perceptual model – wahrnehmendes model, also das wichtigste ist die wahrnehmung durch benutzerPerceptual coding: Ausgangssignal muss nach der En- und Dekodierung nicht eine exakte Replikation des Eingangssignals seinMaskierung - (pyschoakustischer Effekt) bei dem man beim hören von hohen tönen, tiefe töne nicht hört, diese also maskiert werden, d.h. überdeckt werden und somit nicht hörbar sind
  • Ruhehörschwelle haben wir in diversen anderen vorträgen gehört, Töne darunter können nicht gehört werdenQuantisierungsrauschen: bei abtastung von analog zu digital, muss gerundet werden, der dabei entstandene Abstand heißt QuantisierungsfehlerBei vielen Abtastwerten haben wir eine niedrigen Signal-Rausch-AbstandBei wenigen Abtastwerten ist Signal-Rausch-Abstand hochVermeiden ddes Quantisierungsrauschens urch reduktion der Bits bis rauschen nicht mehr hörbar
  • X-Achse FrequenzY-Achse Dezibel – Stärke des Schallereignisses(10db unterschied ist halb so laut oder doppelt so laut, Faustformel)Treshold = SchwelleRuhehörschwelle, darunter kann ein normaler Mensch sowieso nichts hörenEs gibt auch Hörschwelle oben, etwas variabler, ca. 16 KHzMaskierer oben ist ein Ton der eine eigene Maskierungsschwelle hat. Alle sounds darunter werden von ihm verdeckt, wenn sie sich darunter befinden
  • Nur grobe übersicht, nur hauptkomponentenFilterbank zerlegt das Eingangssignal in Zeitblöcke, s.g. Frames (long und short frames abhängig vom audiosignal)Verarbeitung sind mehrere Schritte die im folgenden genauer spezifiziert werden
  • Der ganze Prozess rückwärts
  • MDCT – modifizierteDiskrete Sinus Tansformation DCT mitweiterenEigenschaftenHierfürwerden die “Filter Banks” eingesetzt, welcheeinbestimmteAnzahl an Zeit-Samples in Frequenz-Samples umwandelnAIFF wie Wave, also zumspeichern von soundADTS zumStreamen-Audio Data Transport Stream, Frames mit einem header und audiodatenAlgorithmus, man kann damit Prüfsummen berechnen, etc.
  • Pre-Processing Je nach Bedarf: Abhängig von Bitrate und Abtastfrequenz findet ein Downsampling des Original-Signals statt, um mit der Bit-Limitierung eine bessere Qualität zu erreichen + Out-of-Range Amplitude wird bearbeitet.Transform  Umwandlung von Zeit-Domäne in Frequenz-Domäne, um spektrale Daten zu erhalten.Spectral Processing  Irrelevante und Unwichtige Informationen werden entfernt.
  • Der Enkodierungsprozess in der Detailansicht mit allen Tools und Vorgängen im Main-ProfilIn der Praxis wird entweder das AAC LC oder die in MPEG-4 Part 3 definierten Profile genutzt
  • Audiosignal wird in Blöcke (Frames) eingeteilt zeitliche Blöcke lange Blöcke 2048 Samples  32 Subbänder x 64 Frequenzspektren = 2048 Samples kurze Blöcke  256 SamplesIn jedem Subband stehen 64 Samples im Zeitbereich, die alle in einem bestimmten Frequenzbereich liegen  Einteilung in BlöckePre-Echo-Effekt = Geräusche, die vor dem eigentlichen Signal auftreten können Zeitauflösung wird durch MDCT verschlechtert  durch Blöcke und Windows wird diesem vorgebeugt
  • Übergangsregeln, um den Pre-Echo-Effekt vor der MDCT zu reduzieren
  • 2 Lange Blöcke werden unterschieden  AAC-BesonderheitSinus = Signale nah beieinander,KBD = Signale weit voneinander entferntWindows werden vor derMDCT auf die Samples gelegt  Pre-Echo-Effekt reduzierenZusatz:Analysis Filterbank (Window) = Window vor der MDCTSynthesis Filterbank (Window) = Window vor der IMDCTUm eine perfekte Rekonstruktion zu erreichen sollten Analysis und Synthesis Window gleich sein.
  • MDCT  Frequenzauflösung besser, Zeitauflösung schlechter  Pre-Echo-Effekt  Lösung: block switching (Basis: Psychoakustisches Modell)MDCTermittelt die im Frame enthaltenen Frequenzen.AAC hat eine bessere Frequenzauflösung als MP3  1024 statt 576MDCT  Überlappung aufeinander folgender Frames um 50%  von 2048 Samples müssen nur die Hälfte gespeichert werden  1024 Samples/FrameÜberlappung  vermeidet plötzliche Übergänge an den Transformationsblockgrenzen.Windowlengthlong = 1024/48 = 21,3ms; Windowlengthshort = 128/48 = 2,6msDekodierung  Inverse Modifizierte diskrete Kosinustransformation
  • Gleichmäßig Impulsiv beim digitalen Signal  RauschenDurch die Digitalisierung des analogen Signals entsteht ein Rauschen  durch periodisches Abtasten
  • Spezielle Technik zur Ausnutzung des Effekts der zeitlichen Maskierung:- feinere Kodierung des Signals in ruhigeren Abschnitten- dafür ungenauere Kodierung von lauteren Signalen  unproblematisch, da das Rauschen hier unhörbar ist
  • Tonhöhe  Tonherkunft  TonrichtungPerfekte Rekonstruktion nicht möglich, da Informationen verloren gehen.„Sound Localization“ nur in niedrigen Bereichen möglich
  • Voraussage nur bei langen Blöcken sinnvoll: lange Blöcke die gleichmäßigen Signale beinhalten während in den kurzen Blöcken die dynamischeren Abschnitte vorliegen  Voraussage unmöglichSecond-order BackwardPrediction nutzt vergangene Samples, um eine Voraussage für den aktuellen Sample durchzuführen.Prediction nur im Main-Profile, Optional und Rechenaufwändig
  • Spektrale Koeffizienten = 1024 FrequenzlinienDie Skalierungsfaktoren dienen dazu, die durch die Quantisierung eventuell erzeugten Quantisierungsgeräusche wieder auszugleichen
  • Eine lange Bitfolge kennzeichnet einen selten auftretenden Wert, häufige Werte sind durch eine kurze Bitfolge dargestellt.
  • Rate Control Loop  bearbeitet den Frame so lange, bis die Bitrate stimmt.
  • Frames werden mit anderen Frames zu einem Audio-Strom verbunden
  • Problem:zusätzlicheÜbertragungslastLösung:Zwei Schichten-Ansatz für Audio-Only-Applikationen  Multiplex-Layer = LATM = handles the multiplexing of MPEG-4 Audio payloads and audio specific configuration information Synchronization-Layer = LOAS = specifies a self-synchronizedsyntax
  • PES  Packetizedelementarystream = defines carrying of elementary streams in packets within MPEG program stream and MPEG transport stream.PES-Paket-Header Paket Start Code, Stream ID, PES-Paket-Länge, Optionale PES Header, Daten
  • Jetzt eher mehr MPEG-4. Und zwar die neuen MPEG-4-Tools
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • During the encoding stage, the SBR encoder stores some information to in order to try reconstructing properly during the decoding stage. It stores from which part of the original band-limited signal the upper frequencies should be replicated, and also the scale of those frequencies. That information is very small compared to a conventional encoding, and are stored into ancillary data of the Mp3 file. This way, an SBR-enhanced decoder will be able to use this info.At the encoder side the original input signal is analyzed, the highband’s spectral envelope and its characteristics in relation to the lowband are encoded and the resulting SBR data is multiplexed with the core codec bitstream.
  • Anstatt 2 signale nur ein Signal
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Look-ahead delay: This is used by the coder to help in compression. Look-ahead is a period of time when the coder looks at packet n+1 for patterns on which it can compress while coding packet n. With G.711, the look-ahead is 0.ƒ Um eine kürzere Verzögerung zu erreichen wurde nun folgendes verändert: Gebrauch eines Bitreservoirs: wenn ein Frame nicht alle verfügbaren Bits braucht, können diese Bits von anderen Frames, die mehr brauchen, genutzt werden. "Look Ahead"-Verzögerung für Blockwechsel: Die Entscheidung einen langen Block oder 8 kurze zu benutzen beeinflusst die Fensterform ("windowshape") für zeitabhängige Frequenztransformation, weshalb ein "Look-Ahead" gebraucht wird.
  • AAC ausschließlichMDCT mit zwei verschiedenen Blocklängen- bei "longblocks" werden 1024 Samples- bei "shortblocks" 128 Samples verarbeitetGegenüber MP3 sowohl eine höhere Frequenz- als auch ZeitauflösungDer Joint Stereo-Mode ist gegenüber MP3 flexibler, da er unabhängig für Frequenzbereiche geschaltet werden kann und nicht, wie bei MP3, fürden gesamten Frequenzbereich
  • Vorstellen mit background1.semesterErste versuche mit android
  • PPF = lossMDCT = LosslessJe mehr Auflösung, desto mehr die gefahr von artefakten wegen der schlechteren Zeitauflösung
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Ausgangsbasis..
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Bei tieferen besser. Klar, weil bei höheren schon ein geringer anteilhochfrequenz da ist. Bei ganz hohen SBR sogar schlecht weil viel hohe frequenz vorhanden ist und sbr alles nur verschlechtert.
  • Speicherplatz durch stereorekonstruktion und bessere Quali da mehr speicherplatz hierfür zur verfügung steht!
  • Speicherplatz durch stereorekonstruktion und bessere Quali da mehr speicherplatz hierfür zur verfügung steht!
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Vorstellen mit background1.semesterErste versuche mit android
  • Wie in den Zielen vereinbart, hat der AAC diese FeaturesDekodierung besonders wichtig auf langsamen endgerätenViele Einsatzmöglichkeiten, z.b. HE gute Qualität mit niedrigen BitratenHev2 Kompression von StereosignalenLD für VOIPHD für Kompressionen mit 24 statt 16 bit (höhere Qualität)
  • Hoher aufwandViele Profile ist deswegen schlecht, da viele nur LC dekodieren, wie mediaplayer etc.Implementierung kommerziel teuer
  • Advanced Audio Coding - AAC

    1. 1. Bronke/ Kücük/ Campos Santos- AAC 1
    2. 2. AACPräsentation Hochschule der MedienDuygu Kücük StuttgartFilipe Campos SantosKarol BronkeComputer Science & Media „Multimedia Codecs“Master Bronke/ Kücük/ Campos Santos- AAC 2
    3. 3. Agenda Bronke/ Kücük/ Campos Santos- AAC 3
    4. 4. Advanced Audio Coding Audiokompressionsverfahren standardisiert verlustbehaftet Bronke/ Kücük/ Campos Santos- AAC 4
    5. 5. ZieleNachfolger von MP3Schwächen von MP3 minimieren, alsoKodierung verbessernKonkurrenz zu Ogg Vorbis, Windows MediaAudio, …Bessere Qualität bei gleicher BitrateMultikanalität Bronke/ Kücük/ Campos Santos- AAC 5
    6. 6. FeaturesSamplingrate 8 – 96 kHzMehrkanalfähig, bis zu 48 KanäleProfile, z.B. Niedrig, für Echtzeitkodierung Hoch, für High-End KodierungTaggingKopierschutzverfahren möglich Bronke/ Kücük/ Campos Santos- AAC 6
    7. 7. Standardisierung … Bronke/ Kücük/ Campos Santos- AAC 7
    8. 8. StandardisierungSpezifiziert in zwei Standards Part 7 von MPEG-2 ISO/IEC 13818-7:1997 Subpart 4 in Part 3 von MPEG-4 ISO/IEC 14496-3:1999 … Aktuell ISO/IEC 14496-3:2009 Bronke/ Kücük/ Campos Santos- AAC 8
    9. 9. AnwendungenTeil des MPEG-2 StandardsAudiokern des MPEG-4 StandardsHE-AAC in digitalem Radio, Mobile TV, …Dateiendungen .3gp .aac .mp4 .m4a, .m4b, .m4p, .m4v, .m4r Bronke/ Kücük/ Campos Santos- AAC 9
    10. 10. Anwendungen Bronke/ Kücük/ Campos Santos- AAC 10
    11. 11. Lizensierung • Keine Lizenz/- Patentgebühren zu Verbreitung zahlen Implemen- • Lizenzerwerb nötig tierung Bronke/ Kücük/ Campos Santos- AAC 11
    12. 12. Lizensierung Volume Per Unit feeConsumer Product 1 to 500,000 units $0.98Consumer Product 50,000,001 or more $0.15Professional Products 1 $5.00 / $50.00(Decoder/ Encoder)Consumer PC Software 1 $0.48 / $0.98(Decoder/Encoder)Cellular Telephone 1 to 7,500,000 $3,000,000Committed Volume OptionCellular Telephone From 50,000,000 $0.06 eachCommitted Volume Option Bronke/ Kücük/ Campos Santos- AAC 12
    13. 13. Techn. Eigenschaften - EinführungAAC basiert auf „Perceptual Model“Prinzip des „Perceptual Coding“Perceptual Model nutzt MaskierungMaskierung (psychoakustischer Effekt)Durch Enkodierer wird maskierter Ton entfernt,ohne die Klangqualität zu mindern Bronke/ Kücük/ Campos Santos- AAC 13
    14. 14. Techn. Eigenschaften - HörmodellTöne mit einem Schalldruckpegel unterhalb des „Maskierers“ könnennicht wahrgenommen werden  Keine Kodierung notwendigSignale unter der Ruhehörschwelle nicht mitkodiertBei der Digitalisierung eines Audiosignals entsteht einQuantisierungsrauschen Schalldruckpegel erhöht sich jeweils um 6dB, wenn die Bitzahl der Quantisierung um 1 Bit verringert wird Anzahl der Bits kann solange verringert werden, bis das Quantisierungsrauschen knapp unter der Hörschwelle liegt und so nicht mehr hörbar ist Bronke/ Kücük/ Campos Santos- AAC 14
    15. 15. Techn. Eigenschaften - Hörmodell Bronke/ Kücük/ Campos Santos- AAC 15
    16. 16. Codierung - ZieleAllgemein• Abtastung  Umwandlung Analog zu Digital• Abtastrate  Abtastung erfolgt in einer bestimmten Anzahl pro Sekunde• Dadurch wird aus analogem Signal ein digitales Signal  SamplesAAC• Entfernt werden – Nicht wahrnehmbare Signalkomponenten – Redundanzen im kodierten Audiosignal Bronke/ Kücük/ Campos Santos- AAC 16
    17. 17. Encoder FilterbankAudiosignal Verarbeitung & Quantisierung Bitstrom- 10110111010011110101 enkodierung Bitstrom Bronke/ Kücük/ Campos Santos- AAC 17
    18. 18. Decoder101101110101 Bitstrom- Bitstrom dekodierung Verarbeitung & Dequantisierung Inverse Filterbank Audiosignal Bronke/ Kücük/ Campos Santos- AAC 18
    19. 19. Vorgehen• Enkodierung – Signalumwandlung von Zeitbereich in Frequenzbereich, durch MDCT mit “Filter Banks” – Der Frequenzbereich wird auf Basis des psychoakustischen Effekts quantisiert und enkodiert – Interne Fehlerkorrekturen – Signal speichern (AIFF) und übermitteln (ADTS) – Um beschädigten Samples vorzubeugen, wird eine moderne Implementation des Luhn mod N-Algorithmus eingesetzt Bronke/ Kücük/ Campos Santos- AAC 19
    20. 20. Enkodierungsprozess (Übersicht) Psychoacoustic Threshold Model Block type Pre- SpectralInput Signal Transform Quantization Processing Processing Multiplex Compressed Bitstream Bronke/ Kücük/ Campos Santos- AAC 20
    21. 21. Dekodierungsprozess (Übersicht) Compressed Bitstream Demultiplex Block type Inverse Inverse Inverse Post- Spectral Output SignalQuantization Transform Processing Processing Bronke/ Kücük/ Campos Santos- AAC 21
    22. 22. Enkodierungsprozess (Detail) Pre-Input Signal Processing Filter-Bank Temporal Intensity Psychoacoustic M/S Prediction Noise Shaping Stereo Model Noiseless Huffman Scale factors Quantizer Coding Coding Kontrollmechanismus für Bitrate und QuantisierungsrauschenOutput Signal Bitstream Coding Bronke/ Kücük/ Campos Santos- AAC 22
    23. 23. Filter Bank (1)• Audio-Signal wird in zeitliche Blöcke (Frames) zerlegt: – Abschnitte mit gleichmäßigem Klangbild (stationary)  lange Blöcke – Impulsive Abschnitte (transient)  kurze Blöcke – 1 langer Block (2048 Samples) = 8 kurze Blöcke (256 Samples)• Auf Blöcke werden Fenster (Windows) gelegt  Wechsel zwischen Blöcken möglich (block/window switching) – beugt dem Pre-Echo-Effekt vor, welches durch die MDCT verursacht wird Bronke/ Kücük/ Campos Santos- AAC 23
    24. 24. Filter Bank (2)• Übergangsregeln für „block/window switching“: – Vor einem kurzen Fenster sollte (nach mehreren langen Fenstern) ein langes Start-Fenster liegen. – Vor einem langen Fenster sollte (nach einem kurzen Fenster) ein langes Stop- Fenster liegen. Bronke/ Kücük/ Campos Santos- AAC 24
    25. 25. Filter Bank (3)• Zwei Window-Varianten auf lange Blöcke: – Sinus = Eignet sich für Signale mit dichter Spektraldarstellung – KBD (Kaiser-Bessel Derived) = Eignet sich für Signale mit weit entfernten Frequenzbestandteilen• Umwandlung von Zeit-Samples in Frequenz-Samples durch MDCT Bronke/ Kücük/ Campos Santos- AAC 25
    26. 26. MDCT• Modifizierte diskrete Kosinustransformation bei Enkodierung• Überlappung aufeinander folgender Frames um 50% – statt 2048 bzw. 256 Samples müssen nur 1024 bzw. 128 Samples gespeichert werden• Frequenzauflösung besser, Zeitauflösung schlechter – Problem: Pre-Echo-Effekt  Lösung: block/window switching• Umwandlung von Zeit-Samples in Frequenz-Samples – MDCT auf 1024 Samples bei langem Fenster – MDCT auf 128 Samples (8 kurze Blöcke) bei kurzem Fenster Bronke/ Kücük/ Campos Santos- AAC 26
    27. 27. Enkodierungsprozess (Detail) Pre-Input Signal Processing Filter-Bank Temporal Intensity Psychoacoustic M/S Prediction Noise Shaping Stereo Model Nioseless Huffman Scale factors Quantizer Coding Coding Kontrollmechanismus für Bitrate und QuantisierungrauschenOutput Signal Bitstream Coding Bronke/ Kücük/ Campos Santos- AAC 27
    28. 28. Temporal Noise Shaping (1)• Problem: Was ist mit Eingangssignalen, die irgendwo zwischen "gleichmäßig" und "impulsiv" liegen, wenn am Ende eines an sich ruhigen Blocks noch ein recht impulsives Signal folgt?• Antwort: Rauschen oder hörbare Artefakte• Lösung: Temporal Noise Shaping (TNS)• Informationen im ruhigeren Teil werden feingranular kodiert  Rauschen im ruhigeren Abschnitt nimmt ab• Informationen im lebendigeren Teil werden grobgranular kodiert  Rauschen im lebhafteren Teil nimmt zu• Durch das psychoakustische Modell wird das Rauschen durch die Dynamik des Signals weitestgehend maskiert  unhörbar Bronke/ Kücük/ Campos Santos- AAC 28
    29. 29. Temporal Noise Shaping (2) Bronke/ Kücük/ Campos Santos- AAC 29
    30. 30. Intensity Stereo• Ähnliche Kodierung von hochfrequenten Signalen, die in Stereo vorliegen, ohne das ein hörbarer Unterschied entsteht• Beispiel: Menschliches Gehör kann hohe Töne wahrnehmen, aber die Tonhöhe nicht differenzieren  „Sound localization“• Vorgehensweise: – Monosignal kodieren – Signal einmalig speichern und auf zwei Kanäle verteilen – Datenrate, ohne Qualitätsverlust, senken• Abschnittsweise einsetzbar Bronke/ Kücük/ Campos Santos- AAC 30
    31. 31. Mid/Side Stereo Coding (1)• Die Mid/Side Stereo Kodierung basiert auf der Kodierung der beiden parallelen Kanäle eines Stereo-Audio-Signals  niedrige Frequenzen• Zwei Varianten: – Side: Links/Rechts Aufteilung  Differenzwert der Stereokanäle – Mid: Summen/Differenz-Variante  Mittelwert der Stereokanäle• Links-Rechts-Aufteilung ist bei Unterschieden zwischen linkem und rechtem Signal vorteilhaft (Diagramme rechts)• Summen-Differenzen-Variante ist bei ähnlichem linken und rechten Kanal vorteilhaft, da kaum Differenzen übertragen werden (Diagramme links)• Verfahren mit weniger Daten wird verwendet (Festlegung eines Bits) Bronke/ Kücük/ Campos Santos- AAC 31
    32. 32. Mid/Side Stereo Coding (2) MID SIDE Bronke/ Kücük/ Campos Santos- AAC 32
    33. 33. Prediction (1)• Voraussage nur bei annähernd konstanten Abschnitten eines Audiosignals• Statt gleiche Information zu wiederholen, wird eine kleine Wiederholungsanweisung gegeben  überflüssige Daten werden entfernt• Voraussage ist nur bei sich wiederholenden, ähnlichen, gleichmäßigen und ruhigen Signalen möglich – Anwendung auf lange Blöcke  gleichmäßige Signale• Stellt AAC fest, dass die Voraussage nicht stimmt, so ist das Originalsignal zu kodieren• Prediction ist nur im Main-Profile enthalten (Rechenaufwändig) Bronke/ Kücük/ Campos Santos- AAC 33
    34. 34. Prediction (2) Bronke/ Kücük/ Campos Santos- AAC 34
    35. 35. Enkodierungsprozess (Detail) Pre-Input Signal Processing Filter-Bank Temporal Intensity Psychoacoustic M/S Prediction Noise Shaping Stereo Model Nioseless Huffman Scale factors Quantizer Coding Coding Kontrollmechanismus für Bitrate und QuantisierungrauschenOutput Signal Bitstream Coding Bronke/ Kücük/ Campos Santos- AAC 35
    36. 36. Scale factor• Frequenzlinien werden in Gruppen aufgeteilt -> Scale factor bands• Jede Gruppe hat einen Scale factor• Scale factor  reduziert die Schrittweite der Quantisierung entsprechend den Anforderungen des Scale factor bands  Je größer die Schrittweite, desto größer das Quantisierungsrauschen• Ermöglicht eine effiziente Kodierung Bronke/ Kücük/ Campos Santos- AAC 36
    37. 37. Quantisierung• Größte Datenreduktion möglich• Quantisierung auf Basis des psychoakustischen Modells• Hörbares wird in diskrete Werte umgewandelt  Huffman-Code-Tabelle  Unhörbares entfällt• Die Huffman-Kodierung ermöglicht häufig auftretende Koeffizienten mit weniger Daten darzustellen• Seltener vorkommende Koeffizienten benötigen mehr Daten  unproblematisch, das diese selten vorkommen• Das Signal muss ggf. in mehreren Iterationen komprimiert werden  Vorgegebene Bitrate einhalten  benötigt Zeit  Für verzögerungskritische Anwendungen AAC LD entwickelt Bronke/ Kücük/ Campos Santos- AAC 37
    38. 38. Noiseless Coding• Teil der Quantisierung• Sollte vor der Huffmann-Kodierung eingesetzt werden• In die Menge der vorliegenden Koeffizienten wird ein Wert von +1 oder -1 eingearbeitet• Das bisherige Signal wird zwar geringfügig geändert, ist im Allgemeinen nicht hörbar• Dadurch können bis zu vier Koeffizienten eingebunden werden: – z.B. Informationen über die Auslenkung des Signals, eine evtl. Phasenverschiebung und Frequenzvorkommen Bronke/ Kücük/ Campos Santos- AAC 38
    39. 39. Huffman Coding• Kodierung basiert auf der Häufigkeitsverteilung• 12 vordefinierte Codebooks (Huffman-Tabellen)• Auswahl der Tabelle mit dem besten Kompressionsergebnis für ein Frequenzspektrum• Optimiert: • niedrige Frequenzen  kurze Codewörter • hohe Frequenzen  lange Codewörter• Vorteil: Kein Speicherplatz für die Tabelle notwendig Bronke/ Kücük/ Campos Santos- AAC 39
    40. 40. Enkodierungsprozess (Detail) Pre-Input Signal Processing Filter-Bank Temporal Intensity Psychoacoustic M/S Prediction Noise Shaping Stereo Model Nioseless Huffman Scale factors Quantizer Coding Coding Kontrollmechanismus für Bitrate und QuantisierungrauschenOutput Signal Bitstream Coding Bronke/ Kücük/ Campos Santos- AAC 40
    41. 41. Kontrollmechanismus• Zwei Kontrollschleifen zur Überprüfung der…• …Bitraten – Rate Control Loop  kontrolliert, ob bei der Quantisierung, die vom Benutzer angegebene Bitrate eingehalten wird• …Qualität – Distortion Control Loop  kontrolliert, ob das Quantisierungsrauschen maskiert ist  unhörbar bleibt Bronke/ Kücük/ Campos Santos- AAC 41
    42. 42. Enkodierungsprozess (Detail) Pre-Input Signal Processing Filter-Bank Temporal Intensity Psychoacoustic M/S Prediction Noise Shaping Stereo Model Nioseless Huffman Scale factors Quantizer Coding Coding Kontrollmechanismus für Bitrate und QuantisierungrauschenOutput Signal Bitstream Coding Bronke/ Kücük/ Campos Santos- AAC 42
    43. 43. Bitstream Coding (1)• Bitstream Coding (oder Multiplexing) organisiert die Datenübertragung• Datenströme können je nach Bedarf aufgeteilt oder zusammengefasst werden: – Je nach Bandbreite ist es sinnvoll zunächst ein Grundgerüst der Daten zu übertragen und erst bei vorhandener Bandbreite diese mit weiteren Informationen zu füllen• Die Übertragung der Daten in einem Schritt ist nicht immer sinnvoll  Flexible Aufteilung des Datenstroms durch AAC• Beispiel: – Ein Monosignal sicher übertragen und im Anschluss weitere Kanäle  statt Pausen im Stereosignal aufgrund von Bandbreitenengpässen hinzunehmen Bronke/ Kücük/ Campos Santos- AAC 43
    44. 44. Bitstream Coding (2)• AAC unterteilt den Datenstrom in zwei Bereiche: – Transportbereich, der die Übertragung garantiert und organisiert und Bandbreiten effektiv ausnutzt – Zu übertragende Blöcke: • Audiosignale der verschiedenen Kanäle • Konfigurationsdaten (Anzahl der Kanäle, Copyright-Angaben, Sampling Rate, ...) • Verbindungselemente, die Daten für mehrere Audioelemente enthalten • Füllelemente, wenn eine bestimmte konstante Datenrate einzuhalten ist • Ende-Element Bronke/ Kücük/ Campos Santos- AAC 44
    45. 45. AAC - FormateFormate in MPEG-2 Part 7 + MPEG-4 Part 3:• Audio Data Interchange Format (ADIF)• Audio Data Transport Stream (ADTS)Weitere Formate in MPEG-4 Part 3:• Low-overhead Audio Transport Multiplex (LATM) – Multiplexing von Nutzdaten und Audio-Konfigurationsinformationen• Low Overhead Audio Stream (LOAS) – Selbst-synchronisierendes Streaming Format Bronke/ Kücük/ Campos Santos- AAC 45
    46. 46. AAC - Formate (ADIF)• Audio Interchange File Format: – Dateiformat (Containerformat) zum Speichern von LPCM (Linear Pulse Code Modulation)-Audiodaten – Inhalt: Single Header + AAC Audio Datenblock – Entwickelt von Apple (Standard-Audioformat auf dem Mac) – Im Vergleich zu MP3, Vorbis bietet LPCM keine Datenkompression. • Nachteil: Große Datenmengen beim Speichern in AIFF-Dateien • Vorteil: Audiodaten können verlustfrei und ohne zusätzlichen Rechenaufwand verarbeitet werden – Verbreitung: Tonstudios und Musikproduktion Bronke/ Kücük/ Campos Santos- AAC 46
    47. 47. AAC - Formate (ADTS)• Audio Data Transport Stream basiert auf MPEG-TS: – standardisiertes Kommunikationsprotokoll zur Übertragung von Audio – spezifiziert in MPEG-2 Part 1 – die Ausgabe von digitalem Audio wird durch Multiplexing synchronisiert – Transportströme bieten eine Fehlerkorrektur bei unzuverlässigen Medien und werden bei Broadcast-Medien wie DVB und ATSC eingesetzt – AAC-Daten  ADTS-Frame  PES-Paket  Multiplexing durch TS  Übertragung – Inhalt: Serie von Frames mit je einem Header + AAC Audio Datenblock Bronke/ Kücük/ Campos Santos- AAC 47
    48. 48. AAC - Profile PNS SBR PS MPEG-2 MPEG-4 MPEG-4 MPEG-4 AAC AAC-LC HE-AAC HE-AAC v2 1997 1999 2003 2004 MPEG-4 AAC-LD/ELD 1999 Bronke/ Kücük/ Campos Santos- AAC 48
    49. 49. Perceptual Noise Substitution (PNS) “noise always sounds the same”• Dient dazu den Speicherplatz effizienter zu nutzen. – Annahme: menschliches Gehör kann keinen wesentlichen Unterschied zwischen Geräuschen wahrnehmen. Lediglich die Lautstärke wird wahrgenommen.1. Es wird gezielt nach Rauschen im Audiosignal gesucht.2. Beim codieren wird nur die Lautstärke gespeichert. Bronke/ Kücük/ Campos Santos- AAC 49
    50. 50. Perceptual Noise Substitution (PNS)3. Für diesen Bereich des Audiosignals wird ein Bit (flag) gesetzt, als Hinweis, dass es Rauschen enthält.4. Der Decoder liest das gesetzte Bit, sowie die gespeicherte Lautstärke und erzeugt einen pseudozufälligen Wert.• Ergebnis: Kein hörbarer Unterschied, da Rauschen durch anderes Rauschen ausgetauscht werden kann.• Gesparter Platz kann von anderen Bändern belegt werden. Bronke/ Kücük/ Campos Santos- AAC 50
    51. 51. AAC-LC• AAC Low Complexity• Leistungsfähiger Audiocodec für gute Qualität bei niedrigen Bitraten• Verwendung: – Apple iPod, iTunes, QuickTime – Autoradios – Mobile Musikspieler – Mobiltelefone Bronke/ Kücük/ Campos Santos- AAC 51
    52. 52. Spectral Band Replication (SBR) Versucht die Nachteile der Audiokompression auszugleichen. Audiodatei mit 128Kbps Audiodatei mit 64Kbps Bronke/ Kücük/ Campos Santos- AAC 52
    53. 53. Spectral Band Replication (SBR)• Das menschliche Gehör wird zu höheren Frequenzen hin immer weniger anspruchsvoll.• Hochfrequente Anteile korrelieren mit den niederfrequenten Anteile. Zwischen der Hüllkurve im tief- und hochfrequenten Bereich besteht eine deutliche Korrelation. Rekonstruktion erfolgt mittels Vergleichsdaten, die beim codieren gespeichert wurden.1. Niederfrequenten Anteil replizieren. Bronke/ Kücük/ Campos Santos- AAC 53
    54. 54. Spectral Band Replication (SBR)2. Replizierten Anteil mit Hilfe der gespeicherten SBR-Daten anpassen.Effizienz wird um bis zu 50% gesteigert. Bronke/ Kücük/ Campos Santos- AAC 54
    55. 55. Parameteric Stereo (PS)• Bandbreitenreduzierung eines Stereosignals – Aus einem Stereosignal wird ein Monosignal mit Zusatzinformationen gewonnen. – Monosignal wird aus der Summe der beiden Kanäle erzeugt. • Rekonstruktion durch Zusatzinformationen: 1. Phasenlage 2. Lautstärkedifferenz 3. Raumklanginformationen • Einbettung der Stereo-Parameter mit einer Bitrate von ca. 2–3 kBit/s Bronke/ Kücük/ Campos Santos- AAC 55
    56. 56. Parameteric Stereo (PS) Bronke/ Kücük/ Campos Santos- AAC 56
    57. 57. HE-AAC / HE-AAC v2• High Efficiency AAC• Kombination aus AAC-LC mit Spectral Band Replication (SBR)• HE-AAC v2 ist um Parametric Stereo (PS) erweitert• Effizienter Codec für besonders niedrige Bitraten• Bitraten: – HE-AAC: 32 bis 48 kbit/s – HE-AAC v2: 16 bis 24 kbit/s• Verwendung (Beispielhaft): – DVB-H – DMB – 3GPP Bronke/ Kücük/ Campos Santos- AAC 57
    58. 58. AAC - LD Audio-Codec für Sprache. Ermöglicht geringere Verzögerungszeiten für eine Zweiwege- Kommunikation.  Die Verzögerungszeit beträgt immer 20 ms, unabhängig von der Datenrate. Bronke/ Kücük/ Campos Santos- AAC 58
    59. 59. AAC - LD Hauptunterschiede zu anderen Profilen: Halbierung der Fenstergröße:  Von 1024 auf 512 Samples.  Die Zeit für die Analyse der Fenstergröße verringert sich um den Faktor 2.• Deaktivierung des Block-Switching: • Look-ahead-Verzögerung entfällt. • TNS als Ersatz zur Eliminierung des Pre-Echo-Effekts. Verringerung oder Deaktivierung des Bitreservoirs:  Begünstigt durch eine geringere Größe eine schnellere Übertragung.  0..32 Bits erlaubt. Bronke/ Kücük/ Campos Santos- AAC 59
    60. 60. Ein Vergleich Bronke/ Kücük/ Campos Santos- AAC 60
    61. 61. Ausprägungen und Einflussgrößen AAC MP3 Timing Erster Standard 4 Jahre nach Einführung mit dem Start der MP3 flächendeckenden Internetnutzung Marktreife Hohe Marktreife: subjektive Innovation Audioqualität besser als MP3Kompatibilität Rasche Integration in Windows- Keine Rückwärtskomptabilität Umgebungen Nutzbarkeit Lizenzfreie Nutzung für 5 Jahre und Lizenzpflichtig nach Verabschiedung.Bedingungen Anschließend LizenzpflichtigMarktsituation Keine vergleichbare Nutzungsform Konkurrenz: MP3 im Markt Bronke/ Kücük/ Campos Santos- AAC 61
    62. 62. Verbesserungen Liefert gleichwertige Qualität schon bei 70% der Bitrate von MP3 Mehrkanalunterstützung MP3: (2) 5 AAC: 48 Bronke/ Kücük/ Campos Santos- AAC 62
    63. 63. Verbesserungen• Stationäre Signale: Bildung größerer Blöcke bestehend aus 1024 Samples. (1024P) Zum Vergleich bei MP3: 576 Samples (32 SB x 18P= 576) – Spart Speicherplatz bei korrelierenden Signalen.• Dynamische Signale: Bildung kleinerer Blöcke bestehend aus 128 Samples. (128P) Zum Vergleich bei MP3: 192 Samples (32 SB x 6P = 192) – Ermöglicht genauere Kodierung von stark schwankenden Signalen. Bronke/ Kücük/ Campos Santos- AAC 63
    64. 64. Verbesserungen• Höhere Bitrate möglich (8 - 529 kBit/s) Zum Vergleich MP3 (8 - 320kBit/s)• Kombination verschiedenster Tools möglich. – SBR – PNS – PS – … Bronke/ Kücük/ Campos Santos- AAC 64
    65. 65. AAC vs MP3 MP3 AAC Filterbank Hybrid Reine MDCT Blockgröße für 576 1024 stationäre Signale Blockgröße für 192 128 dynamische Signale Abtastrate 8kHz-48kHz 8kHz-192kHz Bitrate 8-320 kBit/s 8-529 kBit/s Audiokanäle max. 5 Max. 48 Variable Bitrate Ja ja Bronke/ Kücük/ Campos Santos- AAC 65
    66. 66. Demos Bronke/ Kücük/ Campos Santos- AAC 66
    67. 67. Demos-Übersicht• MP3 vs. AAC LC, HE, HEv2 vs. WAV• 32 kBit/s Bitrate• Hörtests• Testdateien erzeugen: – cdEX: CD -> .wav – SUPER: .wav -> .mp3 – NeroAAC: wav -> .mp4• Analyse – Audacity 1.3 mit FFmpeg Bronke/ Kücük/ Campos Santos- AAC 67
    68. 68. Profil-Demos und Hörtests Bronke/ Kücük/ Campos Santos- AAC 68
    69. 69. Kurze Wiederholung… PNS SBR PS MPEG-2 MPEG-4 MPEG-4 MPEG-4 AAC-LC AAC-LC HE-AAC HE-AAC v2 1997 1999 2003 2004 Bronke/ Kücük/ Campos Santos- AAC 69
    70. 70. AAC Profil LC Dateigröße: 1,08 MB Bronke/ Kücük/ Campos Santos- AAC 70
    71. 71. Hörtests PNS Bronke/ Kücük/ Campos Santos- AAC 71
    72. 72. AAC Profil HE Dateigröße: 1,10 MB Bronke/ Kücük/ Campos Santos- AAC 72
    73. 73. Hörtests SBR Bronke/ Kücük/ Campos Santos- AAC 73
    74. 74. AAC Profil HEv2 Dateigröße: 1,03 MB He: 1,10 MB Bronke/ Kücük/ Campos Santos- AAC 74
    75. 75. Hörtests Bronke/ Kücük/ Campos Santos- AAC 75
    76. 76. AAC vs MP3 vs WAV Bronke/ Kücük/ Campos Santos- AAC 76
    77. 77. AAC-Hev2 vs MP3 @32 kBit/s AAC Hev2 MP3 Dateigröße: 1,03 MB Dateigröße: 0,926 MB Bronke/ Kücük/ Campos Santos- AAC 77
    78. 78. AAC-Hev2 vs MP3 @32 kBit/s AAC Hev2 WAV Dateigröße: 1,03 MB Dateigröße: 40,84 MB Bronke/ Kücük/ Campos Santos- AAC 78
    79. 79. AAC vs MP3• Hörtest bestätigt die höhere subjektive Qualität des AAC-Codecs gegenüber MP3. 5 4 Bewertung 3 2 MP3 1 AAC 0 64 kBit/s 128 kBit/s Bitrate Bronke/ Kücük/ Campos Santos- AAC 79
    80. 80. Fazit Bronke/ Kücük/ Campos Santos- AAC 80
    81. 81. FazitVorteile: Hohe Kompression, also hohe Qualität auch bei kleinen Dateigrößen Multikanalfähig, also Surround-fähig Hochaufgelöste Audiosignale mit bis zu 96kHz Samplingraten Schnelle und effiziente Dekodierung Sehr flexibel durch Nutzen verschiedener Profile Internationaler Standard, also hohe Akzeptanz z.B. durch Sony, Apple, Nintendo Bronke/ Kücük/ Campos Santos- AAC 81
    82. 82. Fazit Nachteile Enkoder ist kompliziert zu implementieren Viele Profile In cosumer Markt oft nur LC Implementierung kostet Geld Patentiert Bronke/ Kücük/ Campos Santos- AAC 82
    83. 83. Vielen Dank!Kontakt: Duygu Kücük dk068@hdm-stuttgart.de Filipe Santos fc009@hdm-stuttgart.de Karol Bronke karol.bronke@hdm-stuttgart.de 83
    84. 84. Quellen•High-Fidelity Multichannel Audio Coding – Dal Tracy Yang, Chris Kyrlakais, CC Jay Kuo•The MPEG Handbook , MPEG-1, MPEG-2, MPEG-3 Second Edition – John Watkins•Durchstarten mit HTML5 – Mark Pilgrim•http://www.iis.fraunhofer.de/bf/amm/produkte/audiocodec/audiocodecs/aaclc/•Newness guide to Television & Video Technology – K.F. Ibrahim•Zum Bedeutungsverlust formaler Standardisierung für die Marktrelevanz von Audio-Standardszur Online-Distribution•Multimedia Signals and Systems – Mrinal Kr. Mandal Bronke/ Kücük/ Campos Santos- AAC 84
    85. 85. Quellen•http://en.wikipedia.org/wiki/Comparison_of_audio_codecs•http://en.wikipedia.org/wiki/Advanced_Audio_Coding•http://upload.wikimedia.org/wikipedia/commons/3/37/AAC_profiles.svg•http://www.chip.de/artikel/aacPlus-Technischer-Hintergrund-2_12874269.html Bronke/ Kücük/ Campos Santos- AAC 85

    ×