Digitale Klangerzeugung Musikproduktion
Author D.Selzer-McKenzie
https://youtu.be/tZMReknhybA
Spezielle Hard- und Software macht aus Computern
Musikinstrumente, die Töne und Geräusche gleichermaßen erzeugen können.
Verschieden Verfahren modellieren den Klang oder das ihn hervorbringende
Instrument. Das Hörerlebnis kommt dem bei akustomechanischen Vorbildern immer
näher, doch auch noch bislang ungehörte Klänge lassen sich formen.
Perkussive, schnelle Rhythmusse- quenzen, seltsam schwebende
Klangflächen und vieles mehr werden zunehmend digital – also mit Computern –
berechnet und erzeugt. Das Anwendungsspektrum dieser universalen Technik reicht
vom Keyboard des Musikschülers über die Produktionsstätten der Designer von
Special Effects bis hin zu den ausgefallenen Erlebnisangeboten von
Performancekünstlern. Multimedia-Anwendungen und Computerspiele wären ebenso
wie die recycelten Produkte heutiger Musikindustrie ohne digitale Klangerzeuger
nicht mehr denkbar.
Die Möglichkeiten aktuell verfügbarer Hard- und Software
haben diese Entwicklung stark beeinflußt. In den fünfziger Jahren waren nur
wenige Hochschulen mit Großrechnern ausgestattet, die zudem allen ihren
Instituten zur Verfügung standen – Rechenzeit war somit begrenzt. Erst in den
sechziger Jahren konnten sich eigens gegründete Musikforschungszentren nur für
musikalische Zwecke eingesetzte Maschinen leisten. Die massenhafte Verbreitung
synthetischer Musik begann freilich erst in den achtziger Jahren mit dem
Aufkommen verschiedener Desktop-Computer, des MIDI-Standards für die Steuerung
von Synthesizern (siehe Kasten Seite 84) und der Frequenzmodulation als erster,
mit preiswerten Chips realisierbarer Form digitaler Klangerzeugung.
Die direkte Synthese
Wird eine Signalwelle in kurzen Zeitabständen abgetastet und
ihr momentaner numerischer Wert gespeichert, kann man diese Zahlenfolge wieder
in Spannungswerte umsetzen und damit einen Lautsprecher ansteuern. Auf diese
Weise läßt sich ein analoges, also kontinuierliches Signal in ein digitales,
also aus diskreten Werten bestehendes umwandeln und vice versa.
Nach dem von dem amerikanischen Ingenieur und Mathematiker
Claude Elwood Shannon, damals Mitarbeiter der Bell-Telephone-Laboratorien in
Murray Hills (New Jersey), 1948 gefundenen Sampling-Theorem (nach englisch
sample, Probe) ist zur Rekonstruktion der ursprünglichen Welle allerdings zur
Abtastung beziehungsweise Wiedergabe eine doppelt so hohe Frequenz wie die
höchste im analogen Signal vorkommende erforderlich (vergleiche "Digitale
Tonwiedergabe" von John Montforte, Spektrum der Wissenschaft, Februar
1985, Seite 94). Für Compact Disks als Tonträger verwendet man deshalb zum
Sampeln 44,1 Kilohertz entsprechend einer maximalen Schwingung von 22,05
Kilohertz – die Grenzfrequenz des menschlichen Gehörs liegt bei maximal 20
Kilohertz.
Der Ingenieur Max V. Matthews untersuchte Mitte der
fünfziger Jahre bei den Bell-Laboratorien, ob sich die neue Digitaltechnik zur
Spracherzeugung nutzen ließe, weil binäre Signale weit weniger störanfällig als
analoge über Telephonleitungen zu transferieren sind. Dabei entstand 1957 das
erste Programm der Welt zur Erzeugung synthetischer Klänge, Music I. Es
berechnete diskrete Werte einer Schallwelle, genauer gesagt die erforderlichen
Spannungswerte zur Ansteuerung eines Lautsprechers; man spricht deshalb von
direkter Klangsynthese (vergleiche "Der Computer als Musikinstrument"
von Max V. Matthews und John R. Pierce, Spektrum der Wissenschaft, April 1987,
Seite 122). Allerdings erlaubte die Rechnertechnik damals nur, 5000 Zahlen pro
Sekunde in Spannungswerte umzuwandeln – 10000 bis 50000 wären nach dem
Sampling-Theorem erforderlich gewesen. Deshalb teilte Matthews den Prozeß in
zwei Phasen: In der ersten berechnete ein Computer die Momentanwerte des
Signals und legte sie auf Magnetband ab; in der zweiten erfolgten die
Digital-Analog-Wandlung und die akustische Umsetzung (Bild 1 oben).
Um das Komponieren zu vereinfachen, simulierte das Programm
ab der dritten Version Oszillatoren, die sich zu virtuellen Instrumenten
verknüpfen ließen. Sie waren programmierbar; die resultierende Schallwelle
wurde berechnet, wenn das Programm die Kompositon abspielte. Ende der sechziger
Jahre entstand schließlich Music V, das nicht mehr an Rechner bestimmter
Hersteller gebunden war und fortan in den Zentren für Computermusik weltweit
genutzt wurde. Indem Wellenformen der Oszillatoreinheiten bereits abrufbereit
als diskrete Werte in Tabellen gespeichert waren, verkürzte man die Rechenzeit.
Zur massenhaften Verbreitung war das Verfahren aber nicht
geeignet, denn es verging zuviel Zeit zwischen Datengenerierung und Hören. In
den sechziger Jahren mußten beispielsweise Musikwissenschaftler der Universität
Princeton (New Jersey) einmal pro Woche die Magnetbänder ihrer
Kompositionsversuche zu den 150 Kilometer entfernten Bell-Laboratorien zur
Digital-Analog-Wandlung fahren. Noch unerfahren in der Technik, erhielten sie
häufig als Ergebnis nur Stille oder nicht beabsichtigte Geräusche. Von einer
Darbietung in Echtzeit, wie ein herkömmliches akustomechanisches Instrument sie
ermöglicht, war man weit entfernt.
Matthews und der Komponist F. Richard Moore, mittlerweile am
Institut für Musik der Universität von Kalifornien in San Diego, entwickelten
deshalb eine Variante von Music V, die sie nach generated real-time operations
on voltage-controlled equipment GROOVE nannten. Wie der Name sagt, wurden nicht
Klänge berechnet, sondern Steuersignale, die Digital-Analog-Wandler in
Spannungswerte umsetzten. Diese wiederum kontrollierten Komponenten analoger
elektronischer Instrumente, wie sie auch etwa im damals populären
Moog-Synthesizer verwendet wurden. GROOVE ließ sich mit einer Klaviatur und
verschiedenen zusätzlichen Reglern spielen. Die erforderliche
Datenübertragungsrate war so auf 100 bis 200 Spannungswerte pro Sekunde
reduziert. Zudem füllte der verwendete Rechner, wie Moore später scherzhaft
meinte, nur noch ein Appartment statt eines ganzen Hauses aus.
Die additive Synthese
Klänge entstehen aus der Überlagerung von Grundschwingung
und Partialtönen höherer Frequenz. Nach dem Theorem des französischen
Mathematikers und Physikers Joseph Fourier (1768 bis 1830) läßt sich jede
harmonische Schwingung solchermaßen in Sinusschwingungen zerlegen und auch
daraus wieder aufbauen. Partialtöne geben einem Instrument seine Klangfarbe;
bei einer harmonischen Schwingung wie der eines Geigentons sind diese
Frequenzen geradzahlige Vielfache der Grundschwingung, hingegen bei
nichtharmonischen Schwingungen wie dem Klang einer Glocke überwiegend
ungeradzahlige.
Somit könnte ein Klangspektrum additiv aus Sinusschwingungen
aufgebaut werden; ein entsprechendes Programm müßte dann die Wellenformen
unabhängiger Oszillatoren berechnen. Der französische Komponist und Physiker
Jean-Claude Risset erkannte jedoch 1965 während eines Aufenthaltes in den
Bell-Laboratorien, daß sich Spektren natürlicher Instrumente, während sie
klingen, verändern (Bild 1 unten). Sein Studienobjekt war die Trompete. Er fand
auch, daß die Zahl hochfrequenter Partialtöne mit der Lautstärke eines Tones
zunimmt. Inzwischen kennt man solche Varianzen auch von anderen Instrumenten.
So hängt der Anteil hoher Obertöne beim Klavier auch von der Intensität des
Anschlags ab; außerdem verringert sich dieser Anteil beim Abklingen des Tons
stärker als jener der tiefen Frequenzen. Folglich werden zur Darstellung eines
Spektrums nicht nur die verschiedenen Oberschwingungen benötigt, sondern auch
jeweils der als Hüllkurve bezeichnete zeitliche Verlauf des Pegels (Bild 2).
Selbst heutige Computer vermögen die additive Synthese eines
komplexen Klangspektrums wie dem eines Klaviers mit zahlreichen, sich
wandelnden Partialtönen nicht in Echtzeit zu leisten. Entsprechende
kommerzielle Mikrochips bieten etwa 32 Oszillatoren, ein Klavierton setzt sich
aber aus Hunderten von Sinusschwingungen zusammen. Zudem trägt insbesondere bei
einigen Blas- instrumenten wie der japanischen Shakuhachi-Flöte farbiges
Rauschen zum charakteristischen Klang bei, und ein Rauschspektrum besteht sogar
aus unendlich vielen Partialschwingungen (hat es ein Maximum bei einer
Frequenz, bezeichnet man es als farbig, bei völliger Gleichverteilung als
weiß).
Forschungszentren entwickeln deshalb schnellere Algorithmen.
So gelang Xavier Rodet und Philippe Depalle vom Pariser Institut de Recherche
et Coordination Acoustique/Musique (IRCAM) mittels inverser
Fourier-Transformation, den Rechenaufwand der additiven Synthese auf ein
Zehntel bis ein Dreißigstel zu reduzieren. In einfacher Form nutzt man sie aber
noch immer vor allem zur Imitation von Orgelklängen. Bei diesen Instrumenten
wird die Grundschwingung, eine stehende Welle in einem Rohr, vorwiegend durch
zusätzliche kürzere Rohre klanglich gefärbt. Deren Partialtöne bleiben während
der Luftzufuhr weitgehend konstant, das abstrakte Modell des Klangs fällt also
vergleichsweise einfach aus (vergleiche "Orgelpfeifen" von Neville H.
Fletcher und Suszanne Thwaites, Spektrum der Wissenschaft, März 1983, Seite
96).
Frequenzmodulation
John M. Chowning übertrug Ende der sechziger Jahre das in
der Rundfunktechnik etablierte Verfahren der Frequenzmodulation (FM) auf
hörbare Schwingungen. Durch einen Zufall, wie er selbst stets erzählte,
begründete Chowning dabei den kommerziellen Erfolg digitaler Synthesizer.
Der Doktorand der Universität Stanford (Kalifornien) untersuchte
die Effekte extremen Vibratos mit Music V. Beim Vibrato wird die Frequenz eines
Tons, also seine Höhe, durch eine zweite Schwingung beeinflußt; man spricht von
Träger und Modulator (bei Veränderung der Amplitude des ersten entsteht
musikalisch ein Tremolo). Dabei bestimmt die momentane Amplitude des
modulierenden Signals, wie stark sich die Tonhöhe des Trägers verändert (Bild
3).
In der Rundfunktechnik verwendet man dieses Verfahren, um
einer hochfrequenten elektromagnetischen Trägerwelle eine Nachricht aufzuprägen
und so den Eigenschaften des jeweiligen Übertragungsmediums anzupassen;
Amplitudenmodulation ist im Kurz-, Mittel- und Langwellenbereich gebräuchlich,
Frequenzmodulation für Ultrakurzwellen. Normalerweise ist die
Modulationsfrequenz – bei technischen Anwendungen die der Nachricht – um drei
bis vier Zehnerpotenzen kleiner. Erhöht man sie aber, bis sie sich der des
Trägers nähert, formiert sich das gesamte Klangspektrum neu (Bild 4).
Chowning hatte dies nach eigener Aussage versehentlich
getan. Das Ergebnis war ein neuer, eigenständiger Ton. Aus Summen- und
Differenzfrequenzen der Signale entstanden nämlich zusätzliche Partialtöne
ober- und unterhalb der Trägerfrequenz, sogenannte Seitenbänder. Ihre Tonhöhen
werden im wesentlichen durch das Frequenzverhältnis der beiden Ausgangssignale
bestimmt; ist es ganzzahlig, sind die Partialtöne harmonisch, ist es
ungeradzahlig, ergeben sich unharmonische Spektren wie bei Glocken oder Gongs.
Zahl und Amplituden der Seitenbänder beziehungsweise Partialtöne sind abhängig
von der Amplitude des Modulators, der sogenannten Modulationstiefe. Erzeugt man
beispielsweise unharmonische Spektren mit einer Modulationsfrequenz, die höher
ist als die des Trägers, ergibt sich ein schlagzeugähnliches Klangbild mit breit
gestreuten Partialtönen.
Zudem lassen sich den Schwingungen von Träger und Modulator
zeitlich variable Hüllkurven zuweisen (Bild 2 unten): Wie bei analogen
Synthesizern unterscheidet man dabei die Phasen Einschwingen auf einen
maximalen Wert (attack), Abklingen auf einen tieferen (decay), Halten dieser
Amplitude (sustain) und schließlich, nach Loslassen der Taste, Abklingen auf
null (release). Des weiteren kann man mehrere FM-Wellenformen addieren.
Derartige Träger-Modulator-Systeme lassen sich aus wenigen
und vergleichsweise einfachen elektronischen Operatoren aufbauen, FM war somit
für eine kommerzielle Anwendung gut geeignet. Die japanische Firma Yamaha
erwarb die Lizenzrechte von der Universität Stanford und brachte 1983 den
Synthesizer DX-7 für etwa 2000 Dollar auf den Markt; er wurde innerhalb weniger
Jahre rund eine halbe Million mal verkauft.
Im Unterschied zu analogen Synthesizern, bei denen man
Einstellungen von durch Probieren gefundenen Klängen notieren mußte (sie wurden
oft mittels Klebebändern an den Reglern fixiert), ermöglichte das digitale
Produkt perfekte Reproduzierbarkeit der programmierten Sounds. Der DX-7 war
zudem als einer der ersten Synthesizer mit einer MIDI (musical instrument
digital interface) -Schnittstelle ausgestattet und somit per Computer zu
steuern (siehe Kasten Seite 84). Mittlerweile sind FM-Chips Bestandteil vieler
Soundkarten in Heimcomputern.
Die Frequenzmodulation ist eine sehr flexibel einsetzbare
Technik. Kommerziell erfolgreiche Tongeneratoren haben gegenwärtig vier bis
acht Operatoren, die sowohl die Träger- wie die Modulatorschwingung erzeugen
können und vielfältig kombinierbar sind; die Hüllkurve wird von einem eigenen
Generator erzeugt. Ein in den DX-7 eingebauter Analogeingang zum Anschluß eines
Blaswandlers, der wie der Name sagt durch Blasen erzeugte Luftdruckschwankungen
in Steuersignale umsetzt, eröffnet zusätzliche Möglichkeiten, Töne zu
beeinflussen und lebendig zu gestalten.
Um den Klang einer Orgel nachzubilden, benutzt man die
Frequenzmodulation zur additiven Synthese. Dazu werden zwei oder mehr
Schwingungen durch Parallelschalten von mindestens zwei Operatoren addiert,
deren Frequenzen in einem ganzzahligen Verhältnis stehen. Des weiteren ist das
Verfahren nicht auf Sinusschwingungen für Träger- und Modulatorsignal
festgelegt. Bei der advanced frequency modulation (AFM) werden davon
abweichende Funktionen benutzt, die sogar von Samples – also digitalisierten
Wellenfunktionen – abstammen können.
Die allgemeine mathematische Beschreibung der resultierenden
FM-Zeitfunktion hat die Form einer Bessel-Funktion, benannt nach dem
Königsberger Astronomen und Mathematiker Friedrich Wilhelm Bessel (1784 bis
1846). Während eine additive Synthese intuitiv zu gestalten ist, entzieht sich
die mathematisch komplexere Frequenzmodulation solch leichtem Zugang. Mit
zusätzlichem Rechenaufwand lassen sich aber Hilfsmittel wie Umrechnungen von
Bessel- in Fourier-Koeffizienten bereitstellen.
Freilich kann man damit mechanoakustische Vorbilder nicht
realitätsnah nachahmen; aber das würde auch dem abstrakten Modell
widersprechen. So ist verständlich, daß die Imitation etwa eines Klaviers oder
einer Geige mit den FM-Chips einfacher Soundkarten nicht überzeugt – sie ist
nicht die Bestimmung des Verfahrens. Mittels Frequenzmodulation synthetisierte
Klänge haben ihren eigenen Charakter. Sie können sowohl sehr weich wie sehr
brillant sein und eignen sich ausgezeichnet für druckvolle Bass- und Synth-Bläser-
oder Orgelklänge. Einige E-Piano-Sounds des DX-7 wurden in der Popmusik sogar
zu Klassikern und finden sich auch in den im folgenden beschriebenen
Sample-Playern.
Das Sampling
Die Weiterentwicklung der Digital-Analog- beziehungsweise
der Analog-Digital-Wandlung, insbesondere aber immer größere und
leistungsfähigere Datenspeicher ermöglichten, reale Klänge als Folgen von
Abtastwerten zu verwenden. Dazu wandelt man sie zunächst mit Mikrophon,
Piezokristall oder elektromagnetischem Tonabnehmer in ein analoges elektrisches
Signal um, das mit der Sampling-Frequenz von meist 44,1 Kilohertz abgetastet,
so in ein binäres Signal umgewandelt und in einer Tabelle (Wavetable genannt)
abgelegt wird.
Die Wiedergabe erfolgt durch Auslesen der digitalen Werte
mit derselben Frequenz aus dem Speicher und Rekonstruktion des analogen Signals
mit einem Digital-Analog-Wandler. Das Ergebnis, nochmals verstärkt, steuert
meist eine Lautsprechermembran, und es entstehen Luftdruckschwingungen, also
longitudinale Schallwellen.
Beim Digitalisieren wird allerdings nicht nur der zeitliche
Verlauf gerastert, sondern auch der Informationsgehalt: Beträgt die Wortbreite
des digitalen Signals n Bit, läßt sich damit die Schwingungsamplitude des
analogen Signals auf ganze Zahlen von 0 bis 2n abbilden. Mit den für High
Fidelity-Anwendungen üblichen 16 Bit ist somit ein Dynamik-bereich zwischen
kleinster und größter Amplitude von 0 bis 65535 darstellbar, das entspricht auf
einer logarithmischen Skala 96 Dezibel. (Das menschliche Ohr vermag aber ein
Verhältnis von 1 zu 1000000 aufzulösen, also 110 Dezibel; aktuelle
Bestrebungen, auf 24 Bit Wortbreite überzugehen, sind deshalb wohlbegründet.)
Der Speicherbedarf für Audio-Samples ist recht hoch. Bei der
genannten Abtastrate und Wortbreite fallen etwa 5,3 Megabyte (Millionen Byte)
an Daten je Aufnahmekanal pro Minute an, das entspricht einer
Datenübertragungsrate von fast 90 Kilobyte pro Sekunde – etwa dreimal so viel,
wie MIDI maximal ermöglicht. Deshalb setzt man nun für professionelle Zwecke
Systeme mit SCSI-Bus (small computer system interface) ein (als Bus wird eine
Gruppe parallel geführter Leitungen bezeichnet, über die ein Computer Daten,
Adressen und Befehle sendet oder erhält). Die derzeit fortschrittlichsten
Varianten Wide und Ultra-Wide SCSI bieten eine Wortbreite von 16
beziehungsweise 32 Bit und maximal 40 Megabyte pro Sekunde. Im Unterschied zur
MIDI-Leitung ist diese Verbindung bidirektional, die kommunizierenden Einheiten
können also gleichzeitig senden und empfangen.
Freilich liegt die Lösung des Problems großer Datenmengen
nicht allein in rein technischen Verbesserungen, sondern auch im ökonomischen
Umgang mit dem Sampling-Material selbst. Eine möglichst naturgetreue
Tonerzeugung läßt durchaus Raum für Einsparungen. Hört man beispielsweise einen
einzelnen – originalen – Klavierton, läßt sich ohne besondere musikalische
Vorkenntnisse feststellen:
- Sofort nach dem Anschlagen ist er als Klavierton zu
erkennen.
- Der Ton erklingt je nach Höhe etwa zehn Sekunden bis zu
Minuten, und zwar je tiefer, desto länger. Nach der Einschwingphase klingt er
ab, ohne seinen Charakter grundlegend zu ändern, wirkt jedoch zunehmend matter.
- Das Klangbild ändert sich je nach Anschlagstärke;
dasjenige benachbarter Töne ist sehr ähnlich.
- Können andere Saiten durch Resonanz mitschwingen, indem
beispielsweise das Haltepedal gedrückt wird, ändert sich der Klang.
Die Wiedergabe des Einschwingvorgangs genügt demnach
bereits, den Klang zu identifizieren; je tiefer der Ton ist, desto länger
dauert das erforderliche Sample. Es ist aber keineswegs erforderlich, auch das
Abklingen komplett anzubieten. In der Praxis wird statt dessen ein
vergleichsweise kurzer Zeitabschnitt so lange wiederholt, wie der Ton
angefordert wird (bei einem MIDI-Gerät also, bis ein Note-Off-Befehl
eintrifft). Eine Amplitudenhüllkurve gibt dabei das Abklingen vor. Mit einer
Filterhüllkurve werden die Höhen zusätzlich bedämpft, der Klang wird so matter
gemacht. Ein einminütiges monophones Sample, das 5 Megabyte belegen würde,
reduziert sich beispielsweise auf 1200 Millisekunden beziehungsweise 0,1
Megabyte für Attack samt erster Ausschwingphase und einen 200 Millisekunden
dauernden, mehrfach wiederholten Klangausschnitt, der mit nur 16 Kilobyte zu
Buche schlägt.
Um die Dynamik des Anschlags technisch umzusetzen, gibt es
mehrere Möglichkeiten: Entweder sampelt man denselben Ton bei mehreren
Anschlagstärken und ruft diese Datensätze dann je nach Anschlag der
Keyboardtastatur auf, oder ein Sample durchläuft beim Auslesen einen anschlagsabhängigen
Filter. Kombinationen beider Methoden sind ebenfalls in Gebrauch. Die
Entscheidung darüber, welches Verfahren letztlich angewendet wird, fällt anhand
der technischen Möglichkeiten des jeweiligen Tonerzeugers, aber auch nach
musikalischem Bedarf: Viele lautstärke-abhängige Samples ergeben einen sehr
inhomogenen, Filter allein einen eher statisch wirkenden Klang.
Die Ähnlichkeit in den Klängen benachbarter Noten ermöglicht
eine weitere Reduktion des Speicherbedarfs, denn ein Sample läßt sich mehrfach
verwenden. Wird es mit der doppelten Sampling-Frequenz ausgelesen, erklingt der
betreffende Ton eine Oktave höher, mit der halben eine Oktave tiefer. Dieser
Effekt ist vergleichbar dem eines Tonbandes, das mit höherer oder niedrigerer
Geschwindigkeit abgespielt wird. Wie aber dabei nicht einfach aus einem Baß ein
Tenor wird, sondern aus einem Mann eine Mickey-Mouse, ist dieses Verfahren nur
begrenzt anwendbar, weil sich dabei ausnahmslos alle Frequenzanteile
gleichmäßig mit verschieben. Doch das Charakteristikum eines Klanges – ob von
einem Klavier gespielt oder einem Menschen gesprochen – sind konstante
Spektralanteile, die im gesamten Tonumfang enthalten sind. Um diese Formanten
weitgehend konstant zu halten, darf ein Sample nur innerhalb eines eng begrenzten
Tonbereichs mit variabler Sampling-Frequenz abgespielt werden.
Korrekturverfahren, welche die Verschiebung ausgleichen, sind sehr
rechenintensiv und deshalb derzeit nur bei der Klangnachbearbeitung, nicht bei
Echtzeit-Anwendungen einzusetzen.
Die auf dem Sampling basierenden Klangerzeuger haben vor
zwölf Jahren Einzug auf den Markt digitaler Instrumente gehalten, den sie
mittlerweile dominieren. Das Angebot umfaßt Klänge verschiedenster Instrumente
– auch analoger Synthesizer. Zudem kann der Musiker bei hochwertigen Geräten
die Parameter der Hüllkurven und Filter einstellen und Samples untereinander
kombinieren, so daß sich neuartige Sounds ergeben. Immer leistungsfähigere
Hard- und Software begünstigt auch das Aufnehmen und Ablegen längerer Samples
auf die Festplatte; man spricht vom Harddisk-Recording. Sequencer genannte
Steuerprogramme für Klangerzeuger ermöglichen häufig, MIDI- und Audio-Daten
innerhalb eines einzigen Systems zu verwalten. Überdies gibt es vielfältige
Möglichkeiten, die digitalen Daten zu bearbeiten. In den Tonstudios der
Musikindustrie dienen solche Verfahren mittlerweile dazu, die Qualität der
Aufnahmen zu verbessern, etwa durch selektives Filtern von Zischlauten eines
Sängers, oder um Passagen aus schon vorhandenen Quellen neu zu mischen.
Komponisten können zu vergleichsweise geringen Kosten Klangmaterial in einer
Weise verfremden und umdeuten, wie es noch vor einem Jahrzehnt kaum in den
Forschungszentren der elektronischen Musik möglich war.
Doch hat auch das Sampling, trotz dieser vielfältigen
Möglichkeiten, bei der Imitation natürlicher Instrumente seine Grenzen. Wie
sich das Klangbild, das beim Anschlag einer Klaviertaste entsteht, durch
resonantes Mitschwingen anderer Saiten und des Klavierkörpers verändert, vermag
man damit nur begrenzt nachzuahmen (eine solche gekoppelte Schwingung moduliert
beispielsweise das Abklingen eines Tones). Sobald mindestens zwei Töne
gleichzeitig abgerufen werden, liefert die Technik nur die Summe der
Einzeltöne. Bei einem Klavier regen sich die Saiten aber entsprechend ihrer
Partialtöne zusätzlich gegenseitig an, insbesondere dann, wenn sie ungedämpft
sind, also frei schwingen können. Des weiteren hat der Klavierkorpus
Eigenresonanzen, die bestimmte Frequenzen verstärken.
Werden die einzelnen auf dem Klavier angeschlagenen Töne mit
gedrücktem Pedal – also mit maximalem Resonanzvermögen des Instruments –
gesampelt, enthält das Spektrum die Summe aus Klang- und Resonanzanteil (Bild
5). Will man nun ein Klavier realistisch simulieren, müssen beide getrennt
werden, um sie beim Spielen des Klangerzeugers gegebenenfalls wieder zu
mischen. Das Klangspektrum wird dazu in einen deterministischen und in einen
stochastischen Teil zerlegt. Der erste entspricht dem bei normaler Dämpfung
gesampelten Signal (darin enthaltene Resonanzen sind in der Praxis
vernachlässigbar). Eliminiert man ihn aus dem mit Haltepedal aufgenommenen
Sample, erhält man den stochastischen Anteil.
Simulation von Instrumenten
Das letzte Beispiel steht bereits an der Schwelle zu dem
modernsten Prinzip der Tonerzeugung, dem physical modeling (PM). Statt den
Klang von Instrumenten aufzuzeichnen, sucht man sie selbst so gut wie möglich
mathematisch zu erfassen und berechnet die Töne, die diese Modelle erzeugen.
(Zunächst standen akustomechanische Instrumente im Mittelpunkt des Interesses,
und der Begriff wurde gegen die Modellierung von Klängen mit den bereits
beschriebenen Verfahren abgegrenzt; mittlerweile simuliert man aber auch die
Schaltkreise analoger und digitaler Klangerzeuger und spricht auch hier von PM
beziehungsweise virtueller Akustik.) Die tonformenden Parameter sollten sich
mit Klaviaturen oder anderen Nachbildungen der originalen Spielmittel in
Echtzeit einstellen lassen, die virtuellen Instrumente mithin spielbar sein. Weil
die Modelle auch nichtlineare Effekte wie Resonanzen von Saiten oder das
Überblasen einer Flöte enthalten sollen, müßte dann – so das Ziel – ein
täuschend echter Klang entstehen. Zudem ließen sich Töne erzeugen, die mit
akustomechanischen Instrumenten nicht machbar wären. Grundlegende Arbeiten
stammen teilweise schon aus den sechziger, entscheidende Impulse aus den
achtziger Jahren, doch erst 1994 kamen erste Produkte – die Virtual
Acoustic-Synthesizer von Yamaha – auf den Markt.
Meist gliedert man das akustomechanische Vorbild nach
Elementen mit linearem Verhalten, wie etwa dem Resonanzkörper, und
nichtlinearem, wie etwa dessen Kopplung mit einer Saite oder Luftsäule. Zur
Modellierung der Systeme verwendete man zunächst Massen, Federn und Dämpfer oder
Oszillatoren entsprechend den Frequenzkomponenten des schwingenden Körpers.
Julius O. Smith III vom Center for Computer Research in Music and Acoustics der
Universität Stanford nutzte dann aus der Elektronik entliehene Komponenten wie
Wellenleiter, Filter und nichtlineare Elemente; auch Kombinationen der Methoden
sind gebräuchlich. Es ergeben sich Differentialgleichungen, die meist numerisch
zu lösen sind. Die mechanische Modellierung erfordert eine Diskretisierung des
räumlichen Objekts, also ein Zerlegen des realen Instruments in einfache
geometrische Strukturen wie Quader oder Tetraeder, die nicht immer
offensichtlich ist. Zudem erfordert die Berechnung eines Netzes schwingender
Punktmassen eine hohe Rechenleistung. In kommerziellen Anwendungen modelliert
man damit vor allem lokale nichtlineare Effekte wie das Schwingen von
Holzzungen in Blasinstrumenten oder das Schlagen eines Klavierhammers auf eine
Saite.
Das Modellieren mit Wellenleitern ist weit verbreitet und
wird insbesondere für Blas- und Saiteninstrumente verwendet. Man unterscheidet
dabei Modelle mit einem und mit zwei Schwingungssystemen. Das erste beschreibt
stehende Longitudinalwellen in einem Rohr, eignet sich also beispielsweise für
Klarinette, Saxophon oder Orgelpfeife. Eine gestrichene Saite hingegen wird
durch die zwei Systeme Steg-Bogen und Bogen-Griffbrett modelliert.
Ein Wellenleitermodell besteht typischerweise aus
Verzögerungseinheiten (englisch delay), Digitalfiltern und einem nichtlinearen
Erreger. Erstere entsprechen dem Ausbreitungsmedium, das die Welle verzögert
und somit ihre Laufzeit vorgibt. Zur Modellierung benötigt man folgende
Annahmen:
- Ein Erreger wie das Mundstück einer Klarinette oder ein
Bogen erzeugt in dem System, also in Rohr oder Saite, eine stehende Welle;
- deren Grundfrequenz wird von der Rohr- oder Saitenlänge
bestimmt;
- den Klangcharakter, also das sich ergebende
Partialtonspektrum, formen der Erreger und die mechanischen
Reflexionseigenschaften an den Rohrenden, meist durch nichtlineare Filter
simuliert;
- instrumenttypisch werden manche Frequenzanteile
absorbiert, andere durch Resonanz verstärkt;
- der Schalltrichter eines Blas- beziehungsweise der
Resonanzkörper eines Saiteninstruments filtert aus den angeregten Schwingungen
Frequenzen aus.
Des weiteren bestimmen Kenntnisse aus der Akustik die
Modelle. So gilt etwa bei Blasinstrumenten, daß eine halboffene
luftdurchströmte Röhre nur ungerade harmonische Teiltöne liefert und der
Durchmesser im wesentlichen die Grenzfrequenz bestimmt. Auch allgemeine Eigenschaften
von Wellen gehen ein: An einer Grenzfläche, die Medien mit unterschiedlichen
Ausbreitungsgeschwindigkeiten trennt, wird ein Teil einer auftreffenden Welle
reflektiert, ein anderer läuft von der ursprünglichen Richtung weggebrochen
weiter; trifft die Welle auf ein Hindernis, das klein gegenüber ihrer
Wellenlänge ist, wird sie daran gebeugt.
Betrachten wir ein Rohrblattinstrument wie etwa eine
Klarinette oder ein Fagott (Bild 6). Der Blasdruck erzeugt den Ton, im Modell
als Erregung durch explosionsartige Luftpulse abgebildet; der Zusammenhang
zwischen Luftdruck und -strom ist nichtlinear. Es entsteht eine
vorwärtsgerichtete Schallwelle, die vom Mundstück beeinflußt wird; im Modell
erfaßt dies ein Parameter. Am Rohrende geht die Welle aus den genannten Gründen
teilweise in den Schalltrichter über und wird nach außen übertragen, teilweise
reflektiert. Der zurücklaufende Teil modifiziert ebenfalls die Welle am
Rohranfang, was sich beispielsweise durch einen weiteren Parameter
berücksichtigen läßt. Die Laufzeit durch das Rohrinnere simulieren, wie
erwähnt, Verzögerungseinheiten; diese bestimmen schließlich wesentlich die
Tonhöhe.
Statt die genannten Nichtlinearitäten zu berechnen, werden
in Echtzeit-Systemen die Werte einer Tabelle entnommen. Besonders kompliziert
sind die Wechselwirkungen beim Übergang von Erreger und Rohr: Durch die
rückwärtslaufende Schallwelle wird der Luftdruck im Mundstück geringer und
nimmt sogar negative Werte an. Das Rohrblatt wird dann angesogen und der
luftdurchströmte Spalt verkleinert, bis er sich gänzlich schließt. Dies läßt
wiederum den Druck im Erreger ansteigen, bis ein neuer Impuls entsteht.
Das Wellenleiter-Modell einer gestrichenen Saite
unterscheidet sich davon vor allem dadurch, daß der Bogen sie in ein rechtes
und ein linkes Schwingungssystem teilt (Bild 7). Seine Kraft und
Geschwindigkeit sowie das Längenverhältnis der schwingenden Saitenanteile
charakterisieren das System. Wieder beschreiben nichtlineare Gleichungen die
Erregung, und eine Parametertabelle stellt die Funktionswerte in Echtzeit
bereit. Ein Filter beschreibt die Verluste bei der Reflexion der Welle am Steg,
also beim Übergang auf den Resonanzkörper. Dessen Eigenschaften werden
ebenfalls durch Digitalfilter modelliert. Verzögerungsobjekte entsprechen den
sich innerhalb der schwingenden Saitenteile ausbreitenden Wellen.
Klangbestimmende Randbedingungen wie beispielsweise der Anstellwinkel des
Bogens werden entweder in der Parametertabelle berücksichtigt oder mittels
Filterfunktionen in das Modell eingebaut.
Ein weiterer Klassiker der virtuellen Tonerzeugungsverfahren
ist das 1983 von Kevin Karplus und Alex Strong während ihrer Studienzeit an der
Universität Stanford entwickelte Modell für gezupfte Gitarre (Bild 8). Es
benutzt einen perkussiven Laut wie einen kurzen Impuls oder sogar weißes
Rauschen zur Anregung einer Verzögerungsleitung. Die ausgelöste Schwingung wird
zum Eingang rückgekoppelt und mit dem erregenden Sound gemischt. Regelt man den
Anteil des rückgekoppelten Signals entsprechend, entsteht ein exponentiell
abklingender Ton. Seine Höhe wird nur durch die Verzögerungslänge bestimmt. Um das
Verhalten der abklingenden Schwingung der angeregten Saite noch realistischer
zu machen, dämpft ein Tiefpaßfilter im Rückkopplungspfad hochfrequente
Partialschwingungen schneller als niederfrequente. Mehrsaitige Systeme wie eine
Gitarre werden mit mehreren Erregerblöcken modelliert. Bei Echtzeit-Systemen
nutzt man auch bei diesem Verfahren im Erregersystem Tabellen, um Rechenzeit zu
sparen. Der Resonanzkörper wird wiederum durch einen Digitalfilter beschrieben.
Diese grundlegenden Modelle lassen sich in vielfältiger
Weise ergänzen, um wichtige Phänomene der realen Klangerzeugung zu
berücksichtigen. So klingt beispielsweise eine schwach gespannte Saite etwa
eines Banjos bei hartem Anschlag zu Anfang etwas schärfer, was sich durch
Variation der Grundschwingung modellieren läßt. Anspruchsvoller ist schon, die
Schwingungen des Steges zu modellieren. Weil er sich meist senkrecht zum Korpus
leichter bewegen kann als parallel dazu, müssen im Grunde schon bei einer
einzelnen, schräg angeschlagenen Saite zwei gekoppelte Schwingungen
unterschieden werden; dies läßt sich mit zwei Wellenleitern modellieren.
Dicke Klaviersaiten tiefer Töne oszillieren zudem auch
longitudinal, also entlang der Saite. Ein dritter Wellenleiter erfaßt auch
diesen Effekt; weil Kompressionswellen schneller laufen, ist er deutlich kürzer
als die anderen beiden. Da ein Klavierton von drei resonant schwingenden Saiten
durch den Schlag eines Hammers hervorgebracht wird, wären im Grunde je Ton neun
gekoppelte Wellenleiter erforderlich. Auch der Resonanzboden darf nicht
vergessen werden, den man als großen Digitalfilter oder als Netz von
Wellenleitern nachbildet. Die Kunst besteht auch beim physical modeling in der
Beschränkung auf das absolut Erforderliche im Sinne eines guten
Klangergebnisses.
Freilich gibt es nicht nur Beschränkungen durch den
derzeitigen Stand der Technik, es sind auch einige Probleme noch nicht gelöst.
So vergrößern nichtlineare Effekte bei Rückkopplungen die Zahl der Partialtöne.
Ferner ist das Entstehen von Turbulenz in einem Rohr noch nicht zu modellieren.
Schließlich sind die physikalischen Vorgänge teilweise nicht exakt
beschreibbar, etwa jene im Mundstück von Doppelrohrblattinstrumenten wie der
Oboe oder an der Öffnung des Schalltrichters von Blechblasinstrumenten.
Frequenzmodulation, Sampling und physical modeling finden
sich jetzt in vielen kommerziellen Klangerzeugern, und keine Technik hat die
andere wirklich abgelöst. Sie werden entsprechend ihren spezifischen
Möglichkeiten und Grenzen genutzt. Mit steigender Leistung und sinkenden Kosten
der Hardware wurden und werden immer anspruchsvollere Verfahren einem breiten
Anwenderkreis zugänglich. Deshalb dürften auch virtuelle Instrumente in Zukunft
noch stärker vertreten sein. Kommerziell erfolgreich sind vor allem kombinierte
Systeme, welche die Vorteile eines Tonerzeugungsverfahrens ausspielen und seine
Nachteile durch ein anderes kompensieren.
Die Entwicklungen von Frequenz- modulation und Sampling sind
weitgehend abgeschlossen. Wichtige Neuerungen vollziehen sich in der virtuellen
Akustik. Neue Modelle, neue Methoden und immer wieder neue Klänge werden
entstehen. Dabei geht es nicht allein um die perfekte Simulation einer Gitarre,
einer Klarinette oder eines Flügels, sondern auch darum, bisher nicht gehörte
Klänge zu erzeugen und zu der sich wandelnden musikalischen Ästhetik
beizutragen.
Dazu ist freilich erforderlich, die subjektive Wahrnehmung
des Menschen in das Kalkül einzubeziehen. Kenntnisse der Psychoakustik tragen
zum Entwurf von Instrumenten bei, seien sie real oder virtuell. So vermag das
menschliche Gehirn aus einem harmonischen Partialtonspektrum eine in
Wirklichkeit fehlende Grundschwingung zu bestimmen und zu hören. Beispielsweise
erzeugt ein Fagott die 110 Hertz des Tons A gar nicht, sondern lediglich die Frequenzen
von a1, cis2 und e2 mit 440, 550 beziehungsweise 660 Hertz – das A entsteht
nämlich als Differenzton bei der Verarbeitung des Gehörten.
Manche Frequenzen maskieren andere. Beispielsweise werden
niedrige besser wahrgenommen als höhere und können also diese schon bei
vergleichsweise geringen Pegeln überdecken. Es gibt Effektgeräte, die unter der
Bezeichnung Psychoakustik-Prozessoren das Ergebnis eines Klangerzeugers
dementsprechend nochmals bearbeiten. Zudem machen sich Verfahren zur
Verdichtung von Audiodaten diesen Umstand zunutze, indem sie verdeckte
Frequenzen aus dem Datensatz eliminieren.
Bislang war stets die Rede von einem Klangerzeuger. Musik
beinhaltet aber meist ein Zusammenspiel verschiedener Instrumente, deren
Frequenzen ein gemeinsames Spektrum des Klangkörpers bilden (Komponisten
insbesondere des 20. Jahrhunderts nutzten die Orchesterzusammenstellung
intensiv zur Klangfarbensteuerung). Sogenannte Mittenfrequenzen sind allen
Instrumenten gemeinsam; sie häufen sich beim Zusammenspiel mehrerer Instrumente
und werden dann als unangenehm empfunden. Deshalb sollten reine Begleitklänge
einen möglichst geringen und zudem deutlich unterscheidbaren Frequenzumfang
haben, während ein Soloinstrument sozusagen aus dem Vollen schöpfen darf, um im
Vordergrund zu stehen.
So bewegt sich die Entwicklung digitaler Klangerzeuger auf
der Nahtstelle zwischen Computertechnik, Musikwissenschaft und Psychoakustik.
Letztlich profitieren Musiker, Zuhörer und Musikindustrie von den Fortschritten
in diesen drei Bereichen.
Literaturhinweise
- The Synthesis of Complex Audio Spectra by Means of
Frequency Modulation. Von John M. Chowning in: Journal of the Audio Engineering
Society, Band 21, Heft 7, Seiten 526 bis 534, 1973.
– Digital Synthesis of Plucked String and Drum Timbres. Von
K. Karplus und A. Strong in: Computer Music Journal, Band 7, Heft 2, Seiten 43
bis 55, MIT Press, 1983.
– Klang: Musik mit den Ohren der Physik. Von John R. Pierce.
Spektrum Akademischer Verlag, Heidelberg 1985.
– Die Physik der Musikinstrumente. Spektrum der
Wissenschaft: Verständliche Forschung. Spektrum Akademischer Verlag, Heidelberg
1988.
– The Physics of Musical Instruments. Von N. H. Fletcher und
T. D. Rossing. Springer, New York 1991.
– The Historical CD of Digital Sound Synthesis. Computer
Music Currents 13. Herausgegeben von Johannes Goebel, Schott Wergo Music Media,
Mainz, 1995.
– Dreams of Computer Music – Then and Now. Von F. Richard
Moore in: Computer Music Journal, Band 20, Heft 1, Seiten 25 bis 41, MIT Press,
1996.
– Physical Modeling Synthesis Update. Von Julius O. Smith
III in: Computer Music Journal, Band 20, Heft 2, Seiten 44 bis 56, MIT Press,
1996.
– Bitte beachten Sie auch die Anzeige auf Seite 79
Kasten: Steuerung von Musik-Hardware mit MIDI
Ende der siebziger Jahre war abzusehen, daß mehr und mehr
Mikroprozessoren in elektronischen Instrumenten Verwendung finden würden. Die
bis dahin gültige Norm für die Steuerspannung von Synthesizern und Klangmodulen
– ein Volt entsprach einer Tonänderung um eine Oktave – reichte nicht mehr aus.
In den Jahren 1982 und 1983 wurde deshalb ein systemübergreifender
Kommunikationsstandard für digitale Musikinstrumente vereinbart: das musical
instruments digital interface, kurz MIDI. Es umfaßt zunächst als Hardware eine
unidirektionale serielle Datenleitung, das heißt eine Verbindung, auf der Bit
für Bit transferiert wird; die Übertragungsrate beträgt 31,25 Kilobyte pro
Sekunde. Des weiteren enthält die Spezifikation die zu transportierenden
Datentypen, sogenannte Events, insbesondere Anweisungen an Tonerzeuger,
Steuerungsbefehle für Klangparameter wie die Lautstärke sowie
Hüllkurvenparameter oder Filter.
Ein Ton muß per Note-On-Befehl aktiviert und mit einem
Note-Off-Befehl wieder gestoppt werden. Jedes MIDI-Event erfordert mehrere
Angaben, so beispielsweise eine Kanalnummer, auf der ein Klangerzeuger
angesprochen werden soll, sowie die auf eine Klaviatur bezogene Nummer der Note
und ihre Anschlagstärke. (Sogenannte Pitch-Bend-Kontrollbefehle ermöglichen den
nahtlosen Übergang zwischen zwei Tönen; diesen Befehl nutzt man auch, um das
Spielen ohne Klaviatur und somit ohne fixen Tonvorrat mit MIDI zu ermöglichen.)
Weil die Kanaladresse in vier Bit verschlüsselt ist, kann man zugleich 16 unterschiedliche
Klänge eines oder mehrerer MIDI-Instrumente ansprechen. Ein Event benötigt
maximal drei Byte. Eine Ausnahme davon sind so- genannte systemexklusive
MIDI-Events ohne festgelegte Länge und Kanal. Sie übertragen im wesentlichen
gerätespezifische Informationen wie Klangprogramme, Effekteinstellungen oder
abzuspielende Samples.
Da MIDI eine serielle Datenübertragung ist, gibt es keine
Gleichzeitigkeit der Ereignisse. Zwei auf einem Keyboard gemeinsam
angeschlagene Noten lösen Töne bis zu eine Millisekunde nacheinander aus – ein
Akkord wird also immer arpeggiert. Weil das menschliche Ohr Schallereignisse im
Abstand von durchschnittlich zehn bis zwanzig Millisekunden aufzulösen vermag,
kann dies bei vielstimmigen Akkorden kritisch werden.
Hard- und Softwaresysteme zum Steuern von Musikinstrumenten
sowie zur Aufnahme, Bearbeitung und Wiedergabe der Befehle bezeichnet man als
Sequenzer. Der Name rührt daher, daß sie Tonbandmaschinen nachempfunden sind
und Informationen deshalb auf Spuren und in Sequenzen ablegen. Der
entscheidende Unterschied zu konventionellen Mehrspur-Aufnahmesystemen ist die
komfortable Möglichkeit zur Nachbearbeitung der Musik, beispielsweise zum
Schneiden, Kopieren und Verschieben ohne Qualitätsverlust.
Mittlerweile kann man mit hochwertigen Sequenzern auch
Audiodateien als synchronisierte Samples einbinden, bearbeiten und sogar
mitunter in MIDI-Daten umsetzen. Dabei wird die Tonhöhe aus dem
Frequenzspektrum bestimmt und die zeitliche Position aus den Peaks auf der Zeitachse.
Für vergleichsweise einfaches Audiomaterial wie monophone Gitarrenpassagen ist
das Verfahren bereits hinreichend geeignet; Melodien oder musikalische Motive
ließen sich so eingeben. Ein Sequenzer kann MIDI-Daten meist auch als
herkömmliche Notation darstellen (wie Notationsprogramme im allgemeinen
umgekehrt musikalische Zeichen in Events konvertieren können). Vor allem aber
lassen sich mit dieser Technik Grooves genannte Muster gewinnen: Aus der
Aufnahme einer Schlagzeugpassage wird damit eine MIDI-Sequenz erzeugt; sie
enthält die leichten, unregelmäßigen Abweichungen der Noten vom mathematisch
korrekten Zeitmaß, die der Musik einen dynamischen und eigenwilligen Charakter
geben – den Groove (Bild). Auch die Dynamik läßt sich ermitteln. Diese Muster kann
man nun nicht nur wieder für Perkussionsinstrumente verwenden, sondern auch
anderen synthetischen Klängen unterlegen, um einem Arrangement Lebendigkeit zu
verleihen.
Keine Kommentare:
Kommentar veröffentlichen
Hinweis: Nur ein Mitglied dieses Blogs kann Kommentare posten.