FB LAUTHEITSNORMALISIERUNG

LAUTHEITSNORMALISIERUNG / LOUDNESS NORMALIZATION

nach EBU-Empfehlung R 128

Viele Akteure aus dem Bereich Audioproduktion sind unsicher bei der Beurteilung, ob und wie mit der seit einigen Jahren von der EBU (European Broadcasting Union) propagierten Norm EBU R 128 in der Praxis umzugehen ist und in wieweit diese über die Anwendung bei Fernseh- und Rundfunkproduktionen hinaus für reine Audioproduktionen überhaupt von Bedeutung ist. Dieser Beitrag soll helfen, ein wenig Licht in die Sache zu bringen.

Der Kerngedanke bei der Einführung dieses Regelwerks ist die Lautheitsnormalisierung. Im Klartext heißt das: Für die Pegelung des Klangmaterials ist nun nicht mehr die analoge oder digitale Aussteuerung in dB bzw. dBFS (digital full scale) entscheidend, sondern die durchschnittliche Lautheit des Programms – mehr dazu weiter unten.

Damit soll erreicht werden, dass Lautheitssprünge zwischen Programmen oder Beiträgen in Programmen (oder Tracklisten) auf ein Minimum reduziert werden.

Was bedeutet das vor allem für die Musikbranche?

Hier tobt seit Mitte der 1980er Jahre der „Loudness War“ – das Streben nach immer mehr Lautheit im Wettbewerb um Hörerzuspruch. Auf Kosten von Dynamik und Transparenz werden die Musikproduktionen immer mehr komprimiert (bzw. per Limiter weiter in Richtung Vollaussteuerung getrimmt). Denn je lauter, desto besser (scheint es) – und erfahrene Mix- und Mastering-Ingenieure, die um diesen Effekt wissen, achten streng auf „Pegel Matching“ beim A/B-Vergleich zwischen bearbeitetem und unbearbeitetem Audiomaterial.

Mit dem Loudness War wurde bislang nicht nur inflationär die Reizschwelle bei den Konsumenten nach oben geschoben, sondern in gleichem Maße die Dynamik und Transparenz der Musik platt gemacht. Viele Akteure der Musikindustrie beklagen das einerseits, können sich aber diesem Trend aus Wettbewerbsgründen dennoch nur schwer entziehen.

Die Lautheitsnormalisierung kann diesen Krieg beenden. Die R-128-Norm, zunächst für Fernseh- und Rundfunkanstalten vorgesehen, bietet bei konsequenter Anwendung in allen Bereichen von Broadcasting und auch Audio-Streaming die beste Möglichkeit dazu. Apple, Spotify und WiMP wenden die Lautheitsnormalisierung beim Audio- (und Video-) Streaming schon seit einiger Zeit an und nun hat sich erfreulicherweise dem auch YouTube angeschlossen.

Das bedeutet wiederum, dass verantwortungsbewusste Mastering-Ingenieure ihre Zielstellungen und Strategien dem anpassen sollten. Denn je höher die durchschnittliche Lautheit einer Produktion (Sieger im Loudness War), desto stärker die Pegelabsenkung bei Anwendung der R-128-Norm im Broadcasting oder Streaming (dann also Verlierer im Kampf um den besten Klang). Warum das so ist, folgt nun.

Die EBU-Empfehlung R 128

In diesem Regelwerk tritt an die Stelle der Maßeinheit dB die Maßeinheit LU (Loudness Units), wobei 1 LU praktisch 1 dB entspricht. An die Stelle von 0 dBFS (digitale Vollaussteuerung) tritt nun 0 LUFS. Allerdings – und das ist der Kern von R 128 – wird für die Lautheitsnormalisierung ein Zielwert von -23 LUFS (+/- 1 LU) festgelegt. Was bedeutet das?

Lautheit statt Pegel

Mit -23 LUFS als Zielwert ist natürlich kein Maximalpegel gemeint. Vielmehr sollte das der durchschnittliche Lautheitswert des Programms (des Audiotracks, Jingles, Film-Soundtracks oder einer ganzen Sendung) sein. Ermittelt wird dieser durch die Pegelanalyse über die Dauer des gesamten Programms hinweg (I in LU = Integrated). Daneben werden temporäre Pegelwerte in Zeitfenstern von 3 Sekunden (S in LU = Short Term) und 400 Millisekunden (M in LU = Momentary) gemessen.

Für die Lautheitsnormalisierung eines Programms ist jedoch der Integrated-Wert ausschlaggebend, bei dem übrigens Abschnitte unterhalb eines definierten Pegels durch eine Gate-Schaltung bei der Messung als Stille oder Pause bewertet und aus der Berechnung ausgeklammert werden, um den Durchschnittswert der Lautheitsbewertung der relevanten Klangereignisse nicht zu verfälschen.

Dynamik

Unabhängig davon gibt es den Parameter LRA (Loudness Range) – die Messung der Dynamik innerhalb eines Programms, die sich darin äußert, dass die temporären Lautheitswerte relativ zum Zielwert von -23 LUFS in den positiven bzw. negativen Bereich ausschalgen. Bei einer Bearbeitung des Klangmaterials (offline oder z. B. im Sendebetrieb in Realtime) kann der zulässige LRA-Wert definiert werden, wodurch es Broadcastings oder Mastering Engineers u. a. auch möglich ist, Tools zur automatischen Lautheits-(oder Dynamik-)Steuerung einzusetzen. Der LC1 ist ein Beispiel für ein Plug-In, das besonders für den Realtime-Einsatz interessant ist. Ein weiteres Beispiel wäre das Plug-In "Loudness Range Dynamics" in Sequoia 13. Die folgenden Abblidlungen zeigen die dazugehörigen Dialogfenster.

Angesichts eines auf den ersten Blick extrem erscheinenden Zielwerts von -23 LUFS (+/- 1 LU) für die durchschnittliche Lautheit eines Programms darf man also nicht den enormen Spielraum für die Dynamik, also für kurzzeitige Pegelsprünge, aus den Augen verlieren. Nach der EBU-Empfehlung ist z. B. ein Dynamikumfang (LRA) von 15 LU der Standard-Wert.

Der Spielraum für große kurzzeitige Dynamiksprünge ermöglicht es also, Musik, Sprache oder andere Klangereignisse, in denen neben längeren leisen Passagen auch mal kurzzeitig sehr laute Passagen vorkommen, die Gesamtlautstärke wegen dieser Pegelspitzen nicht generell soweit herunterfahren zu müssen, dass die leisen Passagen gegeüber Klängen mit relativ gleichbleibender Lautheit (z. B. Popmusik) viel zu leise erscheinen. Damit – und das war und ist das Ziel der R-128-Empfehlung – wird es zumindest theoretisch überflüssig, in Fernsehprogrammen, Rundfunksendungen beim Streaming Audio mit dem Wechsel zwischen Beiträgen die Lautstärke nachregeln zu müssen. Es liegt aber eben auch auf der Hand, dass die auf besonders große durchschnittliche Lautheit getrimmten Musikproduktionen somit ihren Lautheitsvorteil einbüßen. Insbesondere wenn deren Lautheit auf Kosten von Dynamik, Tramsparenz und Transienten erzielt wurde, werden diese Produktionen dann vergleichsweise druckarm, langweilig und ermüdend wirken.

True Peak

Auch als "Intersample Cliippings" bezeichnet, sind True Peaks eine oft vernachlässigte Erscheinung speziell in besonders laut gemasterten Programmen. Somit ist es auch Teil der R-128-Empfehlung, dass ein digitaler Spitzenpegel von -1 dBTP nicht überschritten werden darf. Was das genau bedeutet, können Sie weiter unten nachlesen.

R 128 in der Praxis

Wie wirkt sich nun die Anwendung dieser Norm auf bereits produzierte Musik aus? Und was ergibt sich daraus für zukünftige Produktionen?

Folgende Abbildungen zeigen die Ergebnisse von Lautheitsmessungen in Sequoia 13 an vier verschiedenen Audiotracks, deren Pegel zuvor soweit abgesenkt wurde, dass über den gesamten Track hinweg der Zielwert von I (Integrated in LU) von -23 LUFS eingehalten wird. Dieser Zielwert wird in den Abbildungen „relativ“ dargestellt – d. h. im Gegensatz zur „absoluten“ Darstellung, wo I (Integrated) mit -23 LU angezeigt werden würde, wird I hier mit 0 LU angezeigt. Diese relative Darstellung ist bei allen Lautheitsmessungen alternativ zur absoluten Darstellung wählbar und erleichtert die intuitive Bewertung der Ergebnisse.

Um den Zielwert von -23 LUFS zu erreichen, mussten die Pegel der Tracks um den Wert abgesenkt werden, der jeweils unter der Abbildung angegeben ist.

Track 1 (Duo Violine/Klavier), Pegelanpassung: -5,4 dBFS

Track 2 (Popong), Pegelanpassung: -13 dBFS

Track 3 (R&B Ballade), Pegelanpassung: -13,8 dBFS

Track 4: (EDM), Pegelanpassung: -14,5 dBFS

Diese Absenkungen führen somit dazu, dass man beim Abspielen der Tracks in einer Playlist keine signifikanten Lautheitsunterschiede wahrnehmen würde. Anhand der Absenkungswerte kann man sich vorstellen, wie extrem die Lautheitsunterschiede ohne die Absenkung zumindest zwischen dem Duo Violine/Klavier und den anderen Tracks wahrgenommen würden.

Hier noch zum Vergleich die Wellenformen aller 4 Tracks nach der Pegelanpassung (Reihenfolge siehe oben):

Durch die Lautheitsnormalisierung werden jedoch auch die Pegelspitzen im kammermusikalischen Duo, die sich im Verlauf mit wesentlich leiseren Passagen abwechseln, insgesamt im Vergleich zu den anderen Tracks nicht als lauter wahrgenommen, sondern als die stiltypische Dynamik, die insbesondere bei der R&B-Ballade und dem EDM-Track eher zu fehlen scheint. Auch wenn der Popsong (Track 2) ähnlich stark im Pegel abgesenkt werden musste, um insgesamt dem Zielwert gerecht zu werden, wirkt dieser im Vergleich zu den Tracks 3 und 4 dynamischer, weil seine Dynamik auch innerhalb der relativ lauten Passagen nicht durch exzessiven Einsatz von Kompressor oder Limiter platt gemacht wurde. Dies wird auch an der Dynamik-Kurve im linken Bereich und an der Darstellung des numerischen LRA-Werts (für die Dynamik) links unten erkennbar.

Im Gegensatz zu dem relativ transparent und dynamisch gemasterten Popsong wirken die Tracks 3 und 4 nun, nachdem ihre Lautheit relativ zu den anderen Tracks normalisiert ist, vergleichsweise platt und gleichförmig. Die ursprüngliche Intention, durch aggressives Limiting eine hohe durchschnittliche Lautheit zu erreichen, wird hier also zum Bumerang. Statt durch die Lautheit zu beeindrucken, können diese beiden Tracks mit dem Popsong oder dem kammermusikalischen Duo klanglich kaum konkurrieren. Stattdessen hat die geringere Dynamik (und Transparenz) eher den Effekt, das Gehör schneller zu ermüden.

Die EBU-Empfehung R 128 ist ein wichtiges Werkzeug zur Beendigung des „Loudness War“ und es ist sehr zu begrüßen, dass sich den Broadcastern, die dieser Empfehlung bisher gefolgt sind, nun nach Apple, Spotify und WiMP auch YouTube angeschlossen hat. Durch die zunehmende Bedeutung dieser Plattformen für die Veröffentlichung und den Konsum von Musikproduktionen könnte das wünschenswerte Folgen für die zukünftigen Zielvorgaben beim Musik-Produzieren und insbesondere beim Mastern haben.

Was bedeutet R 128 fürs Mastering?

Eigentlich heißt das nur, dass man beim Mixen bzw. Mastern in erster Linie Wert auf Klangqualität (Transparenz, Dynamik, Tiefe, Weite und Transienten) legen sollte. Insofern nichts Neues. Aber aggressives Processing mit dem Ziel, maximale Lautheit zu erreichen, wird überflüssig oder gar schädlich. Auch das ist eigentlich nichts Neues, denn beim Mastern für Vinyl ist das ohnehin ein Grundsatz. Kompression und Limiting – egal für welches Medium – bleiben trotzdem durchaus hilfreiche Mittel, sofern sich deren Anwendung auf die Vermeidung ungewollter Dynamik oder klanglich irrelevanter Pegel-Ausreißer beschränkt. Besonders bei Liveaufnahmen oder –Sendungen kann das unverzichtbar sein.

Pegel-Fragen

Abgesehen davon ist der Pegel eines Masters relativ irrelevant, denn die Normalisierung entsprechend R 128 gilt zunächst nur für die Wiedergabe durch Broadcasting- oder Streaming-Anbieter, wobei die Lautheit nur relativ zu dem sonstigen Programmmaterial abgesenkt wird. Den klanglich anspruchsvoll gemasterten Programmen kommt das – wie bereits erwähnt – eher zugute, denn die werden sich dabei von den im Ringen um Lautheit „verzerrten“ positiv abheben. Es macht also in diesem Zusammenhang keinen Sinn, möglichst laut zu mastern.

Aber: Musikredakteure, A&R-Manager und CD-Wechsler haben leider keine eingebaute Lautheitsnormalisierung. Hier hat man also als „Lautheits-Pazifist“ einen schwereren Stand, denn wenn man sich gezwungen fühlt, einen Musikredakteur von seiner Kreation zu beeindrucken, wird man an dem Prinzip „lauter ist besser“ solange nicht vorbeikommen, solange sich dieser Musikredakteur nicht bewusst ist, inwieweit er noch Ziel oder Opfer im Loudness War ist. Es macht wiederum wenig Sinn, Kritik an dem Reflex "lauter ist besser" zu üben, dem sich keiner (auch nicht der erfahrene Toningenieur) entziehen kann.

Ich möchte daher nicht zur selbstzerstörerischen Kompromisslosigkeit anregen. Es gibt Beispiele dafür, wie ein hervorragender Mix, der darüber hinaus gelungen gemastert wurde, nicht nur transparent und dynamisch, sondern auch laut klingen kann. Man kann es Spagat oder Kompromiss nennen – in jedem Fall ist es eine individuelle Entscheidung, wie konsequent man Summen-Kompression oder -Limiting zugunsten von Transparenz, Tiefe und Dynamik vermeiden möchte.

Strategie-Empfehlung

Wenn man jedoch die Lautheits-Normalisierung beim Mixen und Mastern im Hinterkopf behält, kann man sich geeignete Kontrollinstanzen schaffen, um die Qualität der Ergebnisse hinsichtlich Dynamik (Transienten) und Transparenz – also hinsichtlich Druck und Durchsetzungsvermögen im Sound – auch im Vergleich zu anderen Produktionen zu überprüfen. Praktisch könnte das so aussehen, dass man eine Lautheitsmessung an einer Master-Version (Auflösung möglichst 32 Bit Float) durchführt, diese dann im Pegel so reduziert, dass sie der R-128-Norm entspricht, das Gleiche mit einem Referenztrack durchführt, und dann im Vergleich feststellt, ob die Master-Version hinsichtlich Druck, Transparenz und Dynamik konkurrieren kann. Unter Verzicht auf weiteres Dynamik-Processing kann man für die finale Version den Pegel auf ein passables Niveau anheben und hoffen, dass der Auftraggeber diesem Konzept folgen kann.

Dabei spricht nichts dagegen, die Master-Version für die Endfertigung so zu pegeln, dass ein Maximalwert von z. B. -0,2 dBFS (mit True Peak von max. 0 dB) erreicht wird. Bei einem max. True Peak von 0 dBTP muss man dann allerdings damit rechnen, dass der Track bei der Lautheitsnormalisierung gemäß R 128 auf -24 LUFS (Integrated) geregelt wird – siehe oben unter der Überschrift True Peak.

Als Referenz-Produktionen empfehle ich übrigens gut klingende Tracks aus „Loudness-Friedenszeiten“ – also vor Mitte der 1980er Jahre, speziell im Bereich Rock/Popmusik (auf keinen Fall nach den 1980er Jahren neu gemastert!).

True Peak?

Bei der DA-Wandlung vollzieht sich – je nach DAC – ein mehrfaches Oversampling mit dem Ergebnis, dass auf der analogen Seite Pegelspitzen oberhalb der im digitalen Bereich messbaren dBFS-Werte auftreten. Dabei können True Peaks entstehen, welche die Null-dB-Grenze überschreiten. Bei besonders laut gemasterten Produktionen trifft man häufig True Peaks bis zu +2 dBTP an. Ein typischer Grund dafür sind unmittelbar nebeneinanderliegende Sample-Werte nahe 0 dBFS, die sich durch Oversampling im analogen Bereich über die Null-dB-Grenze „hochschaukeln“. Daher werden True Peaks auch als Intersample Clippings bezeichnet.

Die klanglichen Konsequenzen von True Peaks über 0 dB hängen von der Qualität der Wiedergabe-DACs und deren Headroom ab. Im ungünstigen Fall werden sie als mehr oder weniger subtile Verzerrungen wahrnehmbar. Auch im Broadcasting-Bereich sind dBTP-Werte über Null ungünstig und z. B. iTunes veröffentlicht zwar Tracks mit Intersample-Clippings, verweigert in dem Fall aber das Attribut „Mastered for iTunes“ – mehr dazu finden Sie hier.

Dass in Mastering-Studios in der Regel hochwertige DACs für das Monitoring verwendet werden, ist die Erklärung dafür, dass die True-Peak-Problematik in vielen Produktionen vernachlässigt wurde und wird. Unverständlich ist das jedoch angesichts der Tatsache, dass es inzwischen in professionellen DAWs oder in Plug-Ins wie z. B. dem Maximizer von Ozone (iZotope) die Möglichkeit zur Messung und Kompensation von True Peaks gibt.

Noch einmal: Der R128-Standard erlaubt einen maximalen True Peak Wert von -1dBTP.

FACHWISSEN