DITHERING – als Mittel in der Audio- und Grafikbearbeitung

Das Dithering (beim Umrechnen oder Abspeichern von Audiodaten) ist eine Methode, mit der die subjektiv erscheinende Qualität des Audiomaterials verbessert, das von einer höheren Auflösung (32 oder 24 Bit) auf eine geringere Auflösung (meist 16 Bit) heruntergerechnet wird.

Typischerweise geschieht dies entweder beim Erstellen einer Audio-CD, bei der die 16-Bit-Auflösung zwingend ist, oder beim Bouncen eines kompletten Arrangements in ein 16-Bit-Stereo-Audio-File mit einer Software, die intern mit höheren Wortbreiten (24 oder 32 Bit) arbeitet.
Vom Dithering profitieren insbesondere Passagen mit niedrigem Pegel (z. B. Fade Out, Ausklingphasen von Saiten oder eines Halls), die in 16-Bit-Auflösung nur noch schlecht aufgelöst werden können, also verzerrt werden. Beim Dithering werden diese Verzerrungen nach den unten beschriebenen Methoden durch Hinzumischen eines „analogen“ Rauschens maskiert. Das Audiomaterial wird dabei also in geringem Maße verändert. Daher sollte das Dithering grundsätzlich nur einmal eingesetzt werden, und zwar dann, wenn anschließend keine weitere Bearbeitung an den Klangdaten vorgesehen ist. So sollte darauf also z. B. beim Bouncen von Teilen eines Arrangements verzichtet werden, wenn das Ergebnis zur Weiterverwendung in einem Arrangement vorgesehen ist.

Was geschieht beim Dithering?

Ohne das Dithering wird beim Herunterrechnen von 24- oder 32-Bit-Samples eine mathematische Rundung aller Werte auf die mit 16 Bit darstellbaren Zahlen vorgenommen – also auf +/- 32.768 Stufen. Besonders bei sehr niedrigen Pegeln nehmen dann die Rundungsfehler in der Darstellung der Signale zu. Da diese Verzerrungen im Takt der Samplerate stattfinden, bilden sich aus den Frequenzen des Nutzsignals und der Samplerate Interferenzen, die als sog. Quantisierungsrauschen wahrgenommen werden. Dieses ist eigentlich ständig vorhanden, wird aber bei hohen Pegeln vom Nutzsignal verdeckt und bei niedrigem Pegel nur deswegen wahrnehmbar und als unangenehm (typisch „digital“) empfunden, weil sein Pegel relativ zum Nutzsignal ansteigt. Außerdem beruht es auf rechteckig-stufigen Pegelunterschieden in gleich bleibender Frequenz (Samplerate), also auf Wellenformen, die sich auch bei sehr geringsten Pegeln aggressiv durchsetzen.

Beim Dithering wird dem Nutzsignal ein geringfügiges Rauschen beigemischt (Details dazu weiter unten), wodurch – vereinfacht gesprochen – die Regelmäßigkeit in den Interferenzen durch die chaotischen Frequenzsprünge des Rauschens so verringert wird, dass sie kaum noch wahrnehmbar wird. Das Ergebnis klingt subjektiv angenehmer, weil chaotisches, unregelmäßiges Hintergrundrauschen als wesentlich natürlicher und damit unauffälliger wahrgenommen wird, als das Quantisierungsrauschen vor dem Hintergrund totaler Stille.

Man kann sich den Dithering-Effekt auch recht gut vorstellen, wenn man sich mal ein ähnliches Verfahren in der digitalen Grafikbearbeitung vor Augen führt. So kann man ein Bild mit Graustufen, die z. B. in 256 Stufen (8 Bit) aufgelöst werden, auch auf verschiedene Weise mit nur 2 Stufen (2 Bit = nur schwarze und weiße Bildpunkte) darstellen. Ohne Dithering werden die 256 Werte diesseits oder jenseits eines Schwellwerts (Treshold) entweder auf Null (schwarz) oder Eins (weiß) gerundet. Mit einem Dithering-Algorithmus (siehe unten, Abb. rechts) gibt es auch nur schwarze und weiße Bildpunkte (2 Bit). Allerdings treten diese hier in unterschiedlicher Dichte auf, entsprechend dem jeweiligen Grauwert des Ausgangsmaterials.

Die Streuung von Bildpunkten bzw. deren Zustandekommen ist in gewisser Weise dem überlagerten Rauschen beim Audio-Dithering vergleichbar – d. h. die Amplitude des Nutzsignals ist nicht nur entweder oberhalb oder unterhalb des Schwellwerts, sondern überschreitet diesen in der "chaotischen" Frequenz des Rauschens unterschiedlich oft, je nachdem, welchen Level das Nutzsignal gerade hat. Wie man am Grafik-Beispiel sehen kann, entsteht dadurch der Eindruck, dass auch die Zwischenwerte (Graustufen) wahrnehmbar werden.

links: Graustufen (8 Bit), Mitte: S/W (2 Bit, Treshold), rechts: S/W (2 Bit, Dithering)

Die Parameter zum Dithering

Beim Grafik-Dithering gibt es eine Reihe unterschiedlicher Algorithmen, von denen hier nur einer der effektivsten zu sehen ist. Auch beim Audio-Dithering gibt es unterschiedliche Parameter, mit denen man das Dithering dem Audiomaterial anpassen kann. Auf das Wesentliche reduziert, unterscheiden sich diese in der Charakteristik des zugemischten Rauschens und in dessen Pegel – also im Umfang der Bits, die davon betroffen sein sollen.

Hinsichtlich der Charakteristik des Rauschens besteht im Wesentlichen die Wahl zwischen Breitband-Rauschen mit einem annähernd gleichen Pegel in allen Frequenzbereichen, und einem Rauschen, dessen Pegel „dreieckförmig“ im Bereich von 2-4 kHz am höchsten ist und damit in dem Mittenbereich am wirksamsten, den das menschliche Ohr am empfindlichsten wahrnimmt. Letzteres wird in den meisten Fällen die bessere Wahl sein. Falls man jedoch z. B. in leisen Passagen Signale mit sehr hohen oder sehr tiefen Frequenzen hat, könnte das Breitband-Rauschen effizienter sein.

Der Pegel des zugemischten Rauschens (gleichbedeutend mit der „Tiefe“ oder Bitbreite des Dithering) hängt wiederum von der Dynamik des Audiomaterials ab und davon, mit welcher Bitbreite dieses vor dem Dithering verarbeitet wird. Ferner kann auch hier eine Abhängigkeit zur verwendeten Charakteristik des Rauschens bestehen, so dass es keine allgemeingültige Empfehlung dafür geben kann. Prinzipiell kann man sagen, dass man vorzugsweise niedrige Werte wählen sollte, sofern gegenüber gar keinem Dithering kaum eine Verbesserung wahrnehmbar ist.
Ein Beispiel: Wenn man in Samplitude 24/96 intern mit 32 Bit (Float) arbeitet, wird als Voreinstellung beim CD-Mastern und Bouncen in 16-Bit-Files das Dithering-Rauschen mit Mitten-Anhebung und einer Dithering-Tiefe mit dem Wert 0,5 angeboten. Für Experimentierzwecke könnte man nun diesen letzteren Wert mal auf zweistellige Zahlen anheben, wird aber in der Regel kaum Werte über 2 verwenden müssen.

Dithering in der Praxis

Die beste Methode zum Ausprobieren der idealen Dithering-Parameter hängt vom vorhandenen System ab. Auch wenn man keine Audio-Hardware hat, die über 24-Bit-Wandler verfügt, ist das Arbeiten mit 24 oder 32 Bit innerhalb der Audio-Tools sinnvoll. Schließlich wird hierdurch erreicht, dass verschiedene Bearbeitungsschritte mit höherer Rechengenauigkeit stattfinden und nicht schon vor der Ausgabe im 16-Bit-Format unnötige Rundungsfehler entstehen.

Ohne 24-Bit-D/A-Wandler wird man nur nicht in der Lage sein, den Unterschied zwischen der 24-Bit- und der 16-Bit-Qualität gehörsmäßig zu vergleichen. Dadurch, dass man stets nur mit einer 16-Bit-Auflösung hört, also in jedem Falle ein Auflösungsverringerung bei der Wiedergabe stattfindet, kann man zumindest den Unterschied zwischen den verschiedenen Einstellungen mit oder ohne Dithering mit verschiedenen Parametern direkt wahrnehmen, sofern – wie in Samplitude 24/96 – bei der Wiedergabe automatisch ein Dithering stattfindet, sofern die Hardware nur 16-Bit-D/A-Wandler hat.Sofern man eine Hardware mit 24-Bit D/A-Wandlern verwendet, müsste man zum direkten Vergleich mit verschiedenen Dithering-Einstellungen in je ein 16-Bit-Audio-File bouncen und diese Files dann direkt vergleichen. Dazu wählt man zweckmäßigerweise ein kurzes Stück mit besonders sensiblen Passagen aus.Je nach Audio-Hardware bestünde vielleicht auch die Möglichkeit, über die Schnittstellen-Einstellungen zwischen 16- und 24-Bit-Ausgabe zu wechseln (beispielsweise durch Veränderung im ASIO-Mode bei verschiedenen RME-Karten). Dann kann man wiederum „in Realtime“ vergleichen, sofern die Software diese Schnittstelle ebenfalls unterstützt.

Und noch einmal:

Die wichtigste Feststellung für den praktischen Einsatz des Dithering muss sein, dass es ein irreversibler Vorgang ist und daher immer der allerletzte Schritt in einer Audiobearbeitung sein sollte – also entweder unmittelbar beim Brennen der CD oder beim Bouncen in ein 16-Bit-Audio-File, das anschließend keine DSP-Verarbeitung mehr durchlaufen soll.

Falls man z. B. einen Mix mit einem Sequencer wie Logic oder Cubase erstellt, bei dem das Ganze zum Zwecke der (eventuellen) Weiterbearbeitung im einem Mastering in ein Stereo-Audio-File gemixt wird, dann sollte man hierbei möglichst das 24-Bit-Format wählen. Damit ist man auf der sicheren Seite, auch wenn keine weitere Bearbeitung stattfindet. In diesem Falle muss man das Dithering ggf. nachholen, sofern die Software zum CD-Mastern (Brennen) dies nicht automatisch übernimmt (z. B. Samplitude 24/96).

Andernfalls wäre beim Bouncen in ein 16-Bit-File ein Dithering nur dann zu empfehlen, wenn es sich um einen endgültigen Audio-Track einer CD oder als MP3-File handelt und dieses File mit Sicherheit hinterher nicht mehr in einem Premastering-Prozess oder gar als Audio-Track/File in einem anderen Arrangement weiter be- oder verarbeitet werden soll.

© 2008 by Wolfgang Fiedler