Was kommt nach Stereo?

3D-Audio erlebt zurzeit einen Hype. Obwohl Disney schon 1940 den ersten Film in 3D-Audio herausbrachte, steht das Format scheinbar noch am Anfang. Welche immersiven Audioformate aber gibt es? Was sind ihre Vor- und Nachteile?

Von Christian Vaida

Woher rührt überhaupt dieser plötzliche Hype um 3D-Audio, auch spatial audio oder immersive audio genannt?

Zum einen natürlich daher, dass inzwischen bereits rund 100 Jahre an dem Thema geforscht wurde und still und heimlich auch große Fortschritte erzielt wurden. Zum anderen wird die Technologie immer günstiger und die Hersteller suchen nach neuen Absatzmöglichkeiten und entwickeln daher neue Produkte. Eines davon ist zum Beispiel Dolby Atmos, das im Kino und auf Blu-ray bereits zum Quasistandard geworden ist. Auch etliche Videospiele bieten durch 3D-Sound längst einen deutlichen Mehrwert. Doch vor allem YouTube und Facebook haben den 3D-Hype mit ihren 360°-Videos und dem passenden Rundumklang für Kopfhörer geschürt. Das war nur möglich, weil immer mehr Hörer heutzutage Musik über Kopfhörer konsumieren, was früher nicht der Fall war. Die 3D-Wiedergabe über Lautsprecher hingegen hinkt bei der Verbreitung noch hinterher, was schade ist, denn das Erlebnis ist deutlich spektakulärer als über Kopfhörer. Das liegt daran, dass 3D-Klang über Lautsprecher von jedermann gleich gut wahrgenommen werden kann, die 3D-Illusion über Kopfhörer jedoch nicht für alle gleich gut funktioniert. Hier wird eine HRTF (head related transfer function) verwendet, also eine kopfbezogene Übertragungsfunktion. Das heißt, dass alle klanglichen Einflüsse des Kopfes hier erfasst und beim Dekodieren angewendet werden, wodurch dann der 3D-Eindruck entsteht. Leider wird hier zurzeit noch von einem durchschnittlichen Schädelmaß ausgegangen, die Leute haben jedoch unterschiedliche Kopf- und Ohrformen. Das heißt, dass die Ergebnisse je nach Schädelform noch sehr stark varrieren. Ich bin aber überzeugt, dass in den nächsten Jahren die individuelle HRTF-Messung bezahlbar und gängig wird. Es gibt zwar schon ein Produkt das diese Leistung bietet, den Smyth Realiser, aber das ist mit einem Preis von etwa 3.000 Euro noch recht kostspielig.

Dass Lautsprecherwiedergabe so viel besser funktioniert, liegt aber auch daran, dass wir beim Hören instinktiv kleine Dreh- und Neigebewegungen mit dem Kopf vornehmen, die uns eine bessere Lokalisation ermöglichen. Durch diese kleinen Hörvergleiche können wir dann recht genau hören wo sich eine Schallquelle befindet. Doch auch dafür gibt es bei der Kopfhörerwiedergabe bereits eine Lösung, das sogenannte Headtracking. Das funktioniert über einen Sensor, der die Ausrichtung des Kopfes misst, während gleichzeitig eine Software das Schallfeld entsprechend bewegt und somit unsere Kopfbewegung ausgleicht. Ohne dieses Regulativ kommt es beim 3D-Hören über Kopfhörer ebenso wie bei Kunstkopfaufnahmen des Öfteren zur Vorne-Hinten-Verwechslung. Beim Smartphone ist das Headtracking bereits Standard, da dreht sich etwa das Video und auch der Sound im 360°-Video entsprechend mit. Virtual-Reality-Brillen wie die HTC Vive oder die Oculus Rift könnten ohne Headtracking gar nicht erst die Begehung virtueller Welten ermöglichen, wo 3D-Sound übrigens auch schon längst Standard ist.

Von Stereo zu 3D

Die Stereofonie ist 1931 von Alan Blumlein entwickelt worden um das zu erfüllen, was später Surround-Sound und heute 3D-Audio versprochen hatten, nämlich das natürliche, räumliche Hören zu simulieren. Natürlich ist das über Stereolautsprecher kaum möglich, auch wenn gestandene Stereofans nichts über Stereo kommen lassen und Surround oder 3D gerne als Spielerei abtun. Und auch die Musikindustrie ist von 3D-Audio noch so weit entfernt wie die Autoindustrie von der Raumfahrt. Doch das ist ein Kapitel für sich.

Das Argument, wir hätten doch nur zwei Ohren, deshalb bräuchte man auch nicht mehr als zwei Lautsprecher, um räumlich zu hören ist falsch, denn Raumklang kommt natürlich aus allen Richtungen und unser Gehirn dekodiert aus den vielen Parametern der beiden Ohrsignale ein dreidimensionales Klangbild. Diese Parameter sind Laufzeit-, Spektral- und Lautstärkeunterschiede und vermutlich noch so manches mehr, die Forschung gewinnt immer neue Erkenntnisse über die psychoakustischen Vorgänge beim dreidimensionalen Hören. Diese sind teilweise auch von Mensch zu Mensch verschieden und abhängig von der individuellen Hörerfahrung des Einzelnen, von der Form seiner Ohrmuscheln und ganz besonders – man mag es kaum glauben – von optischen Reizen! Hören ist sehr eng mit dem Sehen verwoben, weshalb 3D-Audio seine Stärken besonders dann ausspielen kann, wenn das Bild zum Klang passt, wie in VR oder im Kino.

Die Stereofonie im klassischen Sinne, also das Hören über zwei Lautsprecher, hat fast 30 Jahre gebraucht um sich im Markt zu etablieren, Surround-Sound ebenfalls. Der Visionär Walt Disney brachte 1940 den Film Fantasia mit Surround-Sound in die Kinos. Die Lautsprecher, die für den Sound verwendet wurden, mussten jedoch jedesmal in dem jeweiligen Kino auf- und wieder abgebaut werden. Die Zeit war noch nicht reif dafür und die Technik geriet daher in Vergessenheit. In den folgenden Jahrzehnten entwickelte sich die Technik fort und das heute weit verbreitete 5.1-System setzte sich durch. Doch das natürliche, räumliche Hören wurde auch damit noch nicht erreicht, denn die Lautsprecher eines Surround-Setups sind nur auf einer Ebene angeordnet, vorne, hinten, links, rechts. 3D-Audio zeichnet sich aber zusätzlich durch die Darstellung der Höhe aus, der dritten Dimension.

Kanalbasierte Formate

Das übliche Stereodreieck ist das kleinste kanalbasierte Stereoformat. Hierbei bilden die zwei Lautsprecher mit dem Hörer ein gleichseitiges Dreieck, die Lautsprecher stehen also auf +/- 30° zum Hörer und sind von diesem genauso weit entfernt wie voneinander. Alan Blumlein hat erforscht, dass diese 60° optimal sind, um eine gleichmäßige Verteilung der Klangquellen in einem Stereobild zu erreichen. Nimmt man größere Winke, entsteht keine stabile Phantommitte und die Klänge häufen sich im linken oder rechten Lautsprecher, je nachdem welcher näher ist. Nimmt man kleinere Winkel, nutzt man nicht die größtmögliche Breite und erhält eine entsprechend kleine Bühne.

In 5.1-Surround hat man zwischen die zwei Lautsprecher auf +30° (links) und -30° (rechts) einen Center auf 0° gepackt, der im Kino üblicherweise für den Dialog verwendet wird. Hinzu gesellen sich noch die zwei Lautsprecher auf +/- 110°, die rearoder surround speakersgenannt werden.

In 7.1 hat man auf +/- 90° noch zwei seitliche Lautsprecher hinzugefügt, was aber im Heimkino kaum einen richtigen Mehrwert brachte, da der Abstand zu den rearszu gering war.

Die Empfehlungen der ITU sind sehr wichtig, da sie im Gegensatz zu nationalen Normen weltweit anerkannt werden. In der aktuellsten Empfehlung der ITU BS.2051-1 „advanced sound system for programme production“ (Link: bit.ly/BS2051) also für fortgeschrittene Klangwiedergabe, womit vor allem die 3D-Wiedergabe gemeint ist, wird empfohlen die rear speakerauf +/- 135° zu platzieren. Diese Verschiebung nach hinten bringt endlich den erhofften Mehrwert und eine weitaus bessere Umhüllung als 5.1. Dadurch, dass man zu den +/-30° auch noch+/-90° hat, ergibt sich vorne eine optimale Abdeckung mit drei mal 60° und mit den +/- 135° eine beinahe optimale und vollständige Immersion auf der mittleren Ebene.

Wie gesagt beginnen 3D-Audioformate da, wo Höhenkanäle hinzugefügt werden. Das kleinste Setup, das für einen immersiven Klang ausreicht, ist wohl 9.1, wobei zur mittleren Ebene von 5.1 eine Höhenebene mit vier Lautsprechern direkt oberhalb der unteren Lautsprecher, also auf +/-30 ° und +/- 110° hinzugefügt wird. Ab hier wird es mit den Formaten allerdings komplizierter, denn es gibt verschiedene Anzahlen an Lautsprechern und Aufstellmöglichkeiten. Außerdem muss man auch zwischen Formaten für Heimkino und solchen für Kino unterscheiden.

IEAM Cube der Kunstuniversität Graz

IEM Cube der Kunstuni Graz mit 24 Lautsprechern für die Wiedergabe von HOA (higher order ambisonics).

3D-Audio im Heimkino

Der Aufbau der Lautsprecher muss im Heimkino nicht allzu kritisch gesehen werden, denn üblicherweise werden die Lautsprecher von dem verwendeten Receiver eingemessen. Sobald dieser weiß, wo sich die Lautsprecher genau befinden, kann er die nicht ganz exakte Platzierung beim Dekodieren ausgleichen. Aufgrund physikalischer Grenzen solcher Korrekturen empfiehlt es sich aber, zumindest im vorderen Bereich der mittleren Ebene exakt zu sein, denn die Hauptinformationen spielen sich hier ab. Wie gesagt ist die korrekte Aufstellung auf +/- 30° kritisch für die Bühneund die Lokalisation.

3D-Audio kann zuhause über Lautsprecher abgehört werden. Hierfür muss ein entsprechend kodiertes Signal über HDMI an einen 3D-fähigen Receiver geschickt werden, der dann die Einzelsignale für die Lautsprecher ausgibt. Immer beliebter werden auch Soundbars, die diese Signale als Reflexionen an die Wände schießen und damit die entsprechenden Lautsprecher simulieren. Auch die Simulationen für Kopfhörer im Home-Audio Bereich werden sicher bald häufiger zu finden sein, bei Games und 360°-Videos ist das ja bereits Standard. Als Medium gibt es bisher die Blu-ray-Disc, auf der sich Dolby Atmos momentan zum Quasistandard entwickelt. Es gibt auch Receiver, die Auro-3D beherrschen, aber es gibt kaum Blu-rays dafür. Einige Receiver beherrschen auch den 3D-Upmix, wodurch ein normales 5.1 oder gar ein Stereosignal durch psychoakustische Tricks auf 3D hochgerechnet wird, was erstaunlich gut funktionieren kann. Auch Streaming-Boxen wie Amazon Fire TV, Apple TV und Google Chromecast, um nur die wichtigsten zu nennen, beherrschen schon jetzt oder bald Dolby Atmos und in Zukunft sicher auch andere Formate und Codecs wie Ambisonics und MPEG-H.

Noch ein Wort zu den Lautsprechern und dem LFE. Es wird empfohlen und ist auch so standardisiert, dass alle Lautsprecher, egal ob in 2.0, 5.1 oder 3D-Audio, breitbandig spielen können und auch gleich laut eingestellt werden. Daher empfiehlt es sich, überall dieselben Lautsprecher und nicht bei den hinteren oder oberen kleinere zu verwenden. Die Unsitte, durch Bassmanagement die Bassanteile abzuschneiden und auf den Subwoofer zu legen, ist eigentlich nicht vorgesehen, denn dadurch wird das Klangbild deutlich verschlechtert. Die tiefen Frequenzen von Sounds, die etwa von hinten kommen sollten, kommen nun auch aus der Ecke, in der der Subwoofer steht, der aber eigentlich nur als LFE gedacht war. Diesen LFE (low frequency effect) hat Dolby eingeführt, um die anderen Lautsprecher bei extrem tiefen und lauten Effekten wie Donner oder Explosionen zu entlasten und diese spektakulärer wiedergeben zu können. Der LFE ist nur für das Kinoerlebnis relevant, als Effekt. Musikwiedergabe sollte daher auch ohne funktionieren. Im Rundfunk wird der LFE daher auch gar nicht mitübertragen!

5.1 und 7.1 wurden bereits erklärt und werden in 3D einfach durch eine Höhenebene ergänzt, also beispielsweise vier Lautsprechern bei Auro-3D 9.1 und beim ITU 4+5+0 (erste Zahl=Lautsprecher auf der Höhenebene, zweite Zahl=Lautsprecher auf der mittleren Ebene oder Ohrhöhe, dritte Zahl=Lautsprecher auf der unteren Ebene). Die Höhenebene wird mit einer Höhe von etwa 30° angegeben, die untere Ebene mit -30°. Eine untere Ebene ist bei NHK 22.2 spezifiziert, sinnvoll um etwa das Meeresrauschen im unteren Bereich des Bildes abzubilden. Dolby Atmos verlangt bei 5.1.4 die Positionierung der Höhenlautsprecher in der Decke auf ca. 45° Höhe, wobei die Öffnungswinkel nicht angegeben sind, da sie ohnehin vom Receiver ausgeglichen werden. Dolby erlaubt auch die Verwendung von upward-firing speakers, die von der mittleren Ebene aus die Decke befeuern und durch die Reflexionen die entsprechenden Lautsprecher in der Decke simulieren sollen.

Die nächstgrößere Ausbaustufe nennt sich bei Auro-3D 11.1 und wird auch in den Kinos verwendet, die von Barco eingerichtet werden, da Auro-3D zu Barco gehört. Auro-3D geht hier einen ganz eigenen Weg und fügt der mittleren 5.1-Ebene eine Höhenebene hinzu, die ebenfalls aus 5 Lautsprechern an denselben Positionen, plus einem top speaker oberhalb des Hörers (180°) besteht, auch voice of godgenannt.

Das Format 4+7+0 der ITU empfiehlt zur oben beschriebenen 7.1-Aufstellung der mittleren Ebene (wobei das .1 für den LFE steht, der bei der ITU-Nomenklatur nicht extra angegeben wird) in der Höhenebene interessanterweise Öffnungswinkel von ±45° und ± 135°, wieder auf einer Höhe von 30°, wodurch die vorderen Lautsprecher nun nicht mehr übereinander angeordnet sind. Dolbys 7.1.4 nutzt hier dieselbe mittlere Ebene, für die Höhe aber wieder vier Lautsprecher oberhalb des Hörers auf einer Höhe von 45°, genau wie bei 5.1.4.

Bei 13.1 setzt Auro auf zwei zusätzliche rear speaker hinter den seitlichen ± 110° um weiterhin mit 5.1 kompatibel zu bleiben und trotzdem mehr Umhüllung von hinten zu erreichen, was an sich gar keine schlechte Idee ist. Die restliche Aufstellung entspricht ansonsten exakt seinem 11.1 Format. Dolby hat solch ein Format nicht vorgesehen, die ITU ebenfalls nicht. Das größte kanalbasierte 3D-Audioformat kommt von der japanischen Rundfunkgesellschaft NHK und nennt sich 22.2 (Abb. 3). Es war das weltweit erste spezifizierte 3D-Audiosystem und ging bereits 2016 auf Sendung. Es kann zusammen mit 8K UHD im japanischen Fernsehen empfangen werden und zeigt den immensen technologischen Vorsprung Japans in diesem Bereich.

Denon AVR-X6400H

Aktuelle Heimkino-Receiver beherrschen 3D-Audio bereits ab etwa 700 €. Die Abbildung zeigt Denons Top-Modell AVR-X6400H (rechts), der sämtliche 3D-Audio-Formate Dolby Atmos, DTS:X und Auro-3D ab Werk integriert hat.

3D-Audio im Kino

Barco ist ein Weltmarktführer bei Visualisierungslösungen und stattet zahlreiche Kinos mit Projektoren aus. Um hier auch gleich eine 3D-Audio-Lösung mit anzubieten, hat Barco Auro-3D aufgekauft und bietet seither das bereits oben beschriebene 11.1-Format für Kinos an. Der Vorteil dieses Systems ist, dass die Kinos relativ preisgünstig ihr bestehendes 5.1-Setup erweitern können.
Deutlich größere Verbreitung hat Dolby Atmos, das auf einem 7.1 bedaufbaut, hier also kanalbasiert ist und mit vielen zusätzlichen Lautsprechern (maximal 64), die gleichmäßig an den Wänden und der Decke verteilt sind. In diesem Bereich arbeitet man dann objektbasiert (bis zu 128 Objekte). Die Position dieser Lautsprecher wird in der Dolby RMU erfasst, die dann beim Dekodieren die Audioobjekte an den richtigen Stellen platziert. Audioobjekte sind in diesem Fall einzelne Mono-Tonspuren, deren Positionen oder Bewegungen im Raum in Metadaten kodiert werden. Dadurch, dass dies durch die RMU, bzw. im Heimkino durch den Receiver dekodiert wird, lässt sich Dolby Atmos auf verschiedenen Lautsprecherkonfigurationen abhören, je nachdem was in dem jeweiligen Raum sinnvoll ist. Da Dolbys System proprietär ist, kommt man bei der Produktion nicht umhin Dolbys RMU und Plug-ins zu verwenden.

VST-Multi Panner Plug-in

Das VST-Multi Panner Plug-in ermöglicht die Umsetzung von 3D-Mischungen für Dolby Atmos mit „Nuendo“ von Steinberg

Die Wellenfeldsynthese

Durch ein mathematisches Verfahren wird bei der WFS ein Wellenfeld so erzeugt, dass eine Schallquelle authentisch wiedergegeben werden kann. Das heißt, dass beispielsweise ein Instrument seine Position im Raum behält, auch wenn sich der Zuhörer im Raum bewegt. Der Vorteil hierbei ist, dass die Lokalisation sehr gut ist und man sich nicht unbedingt im sweet spotaufhalten muss wie bei den kanalbasierten Systemen. Je mehr Kanäle verwendet werden, desto größer ist übrigens der sweet spotbei diesen Systemen. Bei der WFS jedoch wird der Klang praktisch an jedem Punkt im Raum gleich gut wahrgenommen, so wie es bei einer echten Schallquelle im Raum auch wäre. Die WFS hat jedoch einige Nachteile. Die Wiedergabe ist auf die horizontale Ebene der Lautsprecherreihe begrenzt, das heißt es fehlt die Höhe, die man mit zusätzlichen Höhenlautsprechern ergänzen muss. Die WFS benötigt außerdem eine große Anzahl an Lautsprechern. Das weltweit größte System ist momentan im Hörsaal WellenFeld H 104der TU Berlin installiert. Hier sind über 2.700 Lautsprecher um etwa 640 Sitzplätze installiert. Diese werden mit 832 Audiokanälen angesteuert. Die vorhandenen Systeme, mir sind bisher nur zwei kommerziell erhältliche bekannt, sind proprietär: IOSONO, das ebenfalls von Barco vertrieben wird, und das Atmosphea von Shure. Der Vorteil dieser Systeme ist, dass sie mit weniger Kanälen, nämlich etwa 20 bis 60, funktionieren, also ähnlich viele wie Dolby Atmos in den Kinos und Mischstudios voraussetzt. In Kino und Heimkino werden diese Systeme vermutlich nie eine Rolle spielen, sie sind eher Speziallösungen für Installationen, etwa in Planetarien.

Ambisonics

Den größten Hype, wenn auch nur unter Eingeweihten, erfährt zurzeit Ambisonics. Die treibende Kraft dahinter sind Facebook 360 und YouTube, wo man ebenfalls 360°-Videos hochladen und anschauen kann. Hierbei wird momentan das Ambisonics B-Format für den Sound verwendet. B-Format ist ein Name für Ambisonics erster Ordnung (first order ambisonics). Die Ordnung bestimmt die räumliche Auflösung, je höher desto besser. Die Ordnung plus eins im Quadrat ergibt die Anzahl der benötigten Kanäle, die 1. Ordnung benötigt also 4 Kanäle, die 2. Ordnung 9, die 3. Ordnung 16 usw. Ambisonics ist eine mathematische Beschreibung eines sphärischen Wellenfeldes und wird momentan mit Hochdruck weiterentwickelt. Eine Hochburg dieser Entwicklung ist das IEM (Institut für Elektronische Musik und Akustik) der Kunstuni Graz.

Ambisonics 1. Ordnung hat den großen Vorteil mit nur 4 Kanälen ein dreidimensionales Klangfeld beschreiben zu können, weshalb es ja auch im Streaming verwendet werden kann. Aktuelle Ambisonics-Versionen höherer Ordnungen (HOA, higher order ambisonics) haben spätestens ab der 5. Ordnung die Vorteile, dass die Lokalisation hervorragend ist, dass der sweet spotsehr groß ist und es sich auf jedem beliebigen Lautsprecher-Setup abspielen lässt, vorausgesetzt man hat einen Decoder für das jeweilige Setup.

Fazit

3D-Audio ist ein riesiges Feld, das einen leicht verwirren kann. Dolby als Platzhirsch im Kino und auch auf Blu-ray und anderen Devices gibt klar die Richtung vor. Mit einem 7.1.4-Setup ist man meiner Einschätzung nach Zuhause oder im Studio momentan auf der sicheren Seite, vor allem wenn es um Filminhalte geht. Mit diesem Setup kann man auch Auro-3D oder gar Ambisonics wiedergeben, die Unterschiede in der Aufstellung sind nicht so gravierend. Für andere Anwendungen kann es natürlich anders aussehen.

Erschienen in Professional audio 11/2017