aus: ZWOELF, Ausgabe 33, Wintersemester 2023
VOM ECHTEN ZUR TÄUSCHUNG DES ECHTEN
Künstliche Intelligenz ist der totale Hype. Obgleich schon seit Jahrzehnten für zahlreiche Anwendungen genutzt, hat die große Öffentlichkeit KI erst kürzlich für sich entdeckt und diese als Folge einer überhitzten Diskussion in die Camps der Befürworter und Gegner geteilt. Denn es kann ja niemanden kalt lassen, wenn mal wieder das Ende der Menschheit beschworen wird. Ich werde daher in meinem Beitrag einige Ideen zu dem Thema entwickeln, die jedoch weder erklären, wie KI im Detail funktioniert, noch den Anspruch erheben, alle Erscheinungsformen darzustellen. Es sollte aber deutlich werden, dass die Menschheit durch das disruptive und transformative Potential der KI de facto dabei ist, in ein neues Stadium der kulturellen Entwicklung einzutreten.
show moreUm dies besser einzuordnen, hilft ein Blick auf unsere kulturelle Vergangenheit: Der kanadische Medienwissenschaftler Marshall McLuhan teilte diese in vier Stadien ein: in die orale Kultur, die mit der Menschwerdung vor über einer Million Jahren begann, die Schriftkultur, die vor etwa 3000 Jahren entstand, den Buchdruck, der je nach Sichtweise vor 1150 oder 550 Jahren erfunden wurde, sowie das Informationszeitalter, das mit dem Telegrafen vor 150 Jahren anfing. Wenn man sich die zeitlichen Abstände dieser revolutionären Entwicklungen anschaut, so wird deutlich, dass sich diese exponentiell beschleunigen. Der amerikanische Zukunftsforscher Ray Kurzweil hat in The Singularity is Near vor mittlerweile 18 Jahren diese Beschleunigung analysiert und eine fünfte Epoche identifiziert, an deren Ende Technologie und menschliche Intelligenz verschmelzen sollen.
Das Täuschend Echte der Deep Fakes
Und tatsächlich begegnen wir einem evolutionären Paradigmenwechsel: Hat sich das menschliche Gehirn im Laufe der genetischen Evolution entwickelt, um als Überlebensstrategie die äußere Wirklichkeit so präzise wie möglich abzubilden, so erzeugen die Gehirne der KI aufgrund ihrer memetischen Evolution – man lese dazu Richard Dawkins – neue Realitäten. Handelt es sich beim ersten Fall also um eine nach innen gerichtete Projektion von Wirklichkeit, so können wir im zweiten Fall von einer Projektion nach außen sprechen. Das ist bei den Deep Fakes offenkundig. Diese Eigenschaft der KI hat im Kontext der Künste eine besondere Bewandtnis, die den berühmten Zwist der Philosophen Walter Benjamin und Theodor W. Adorno über das Kunstwerk im Zeitalter seiner technischen Reproduzierbarkeit quasi von selbst auflöst. Der Streit entzündete sich unter anderem an dem Begriff der Aura eines Kunstwerks, die – verknüpft mit dem Begriff des Echten, des Einmaligen – dadurch verloren gehe, dass die Reproduktionstechnik die Reproduktion vervielfältigt und „sie an die Stelle seines einmaligen Vorkommens sein massenweises“ setze, so Benjamin.
Obgleich Benjamin den Zerfall der Aura beklagt, erkennt er auch die Potentiale, die in der technischen Reproduzierbarkeit liegen, was wiederum die Kritik von Adorno auf den Plan rief. Letzterer stand dem Einsatz von Technik in der Kunst ohnehin skeptisch gegenüber und schrieb in den 1960er Jahren: „Es bedeutet ein Übergewicht von Totem, nicht durchs Subjekt Hindurchgegangenem, äußerlich Dinghaftem und schließlich Kunstfremdem.“ Bei den Deep Fakes wird das Echte, Einmalige jedoch abgelöst vom täuschend Echten, das seine ganz eigene Aura besitzt. Das täuschend Echte hat zwar bereits eine Geschichte, die mit den Retuschierungen von Fotografien in der Sowjetunion der 1920er Jahre beginnt, nimmt aber seit dem Einsatz der KI eine andere Dimension an: Ein YouTube Blogger namens The Gaze hat ein sehenswertes Video über den 1896 von Louis Lumière gedrehten und 2020 restaurierten Film Bataille de boules de neige produziert, in dem er auf die frappierende Aura des mit KI kolorierten, stabilisierten und durch interpolierte Bilder sich flüssig bewegenden Films eingeht. Ähnliche Erfahrungen gewinnt man im Audiobereich, wo etwa mit einem RAVE genannten Verfahren die Stimme von Ella Fitzgerald so nuancenreich durch einen Saxophonklang ersetzt wird, dass man kaum auf die Idee kommt, das Original könne so nicht geklungen haben.
Neue Realitäten – Echokammern der Manipulation?
Wir erreichen dies durch das Trainieren von Deep Learning Networks, in die ein Korpus aus aufgenommenen Saxophonsolos unterschiedlicher Herkunft gefüttert wird. Die Daten werden selbständig vom Netzwerk in einem latenten Raum datenreduziert angeordnet, aus dem sie beim Auslesen wieder rekonstruiert werden. Large Language Models wie ChatGTP funktionieren in analoger Weise und zeigen in gewissen Kontexten die Tendenz zum Halluzinieren. Dieses Wort impliziert, dass sie eine Realität produzieren, die zwar plausibel ist, jedoch nicht den Tatsachen entspricht. Als ich ChatGTP-3 aufforderte, Informationen über mich sowie zu einer eigenen Software zu generieren, konnte ich dieses Halluzinieren selbst erleben. Während die Informationen über die Software tadellos waren, enthielt mein Lebenslauf viele Details, die aus ähnlichen Lebensläufen stammten. Der Grund für Letzteres ist, dass ein Lebenslauf höher-dimensional ist als ein simpler Sachtext, und Daten bei der Datenreduktion mit ähnlichen Daten geclustert werden. So lässt sich erklären, warum ich am 28. Mai 1960 – übrigens der 37. Geburtstag von György Ligeti – in Hamburg geboren sein soll, wohingegen ich am 21. Juni 1960 in Göttingen auf die Welt gekommen bin. Diese Ungenauigkeiten wirken geradezu menschlich, sollten uns aber zu denken geben, wenn wir uns zu sehr auf ChatGTP verlassen – wir werden neue Fähigkeiten im Umgang mit Medien entwickeln müssen, um den Echokammern der Fake News zu entkommen. Freilich stellt sich auch die Frage, wie intelligent KI wirklich ist. Derzeit ist sie in der Lage, durch Interpolation in latenten Räumen Lücken in der menschlichen Erkenntnis zu schließen oder diese wie etwa beim autonomen Fahren, wenn auch noch in Grenzen, zu imitieren. Ob sie allerdings zur Extrapolation befähigt ist, das heißt, zu kreativen Sprüngen, wie sie von biologischen Systemen wie dem menschlichen Gehirn erbracht werden, sei dahingestellt. Immerhin steht den 175 Milliarden Parametern von ChatGPT-3 das rund Sechshundertfache an Verknüpfungen in nur einem einzigen menschlichen Gehirn gegenüber, und diese Zahlen berücksichtigen nicht die gravierenden Unterschiede in der jeweiligen Architektur.
Potentiale in den Künsten
Dennoch gibt es in der Anwendung auf die Künste große Potentiale, die zunehmend auch an der HfMT, insbesondere in der Multimedialen Komposition, als künstlerische Impulsgeber und autonome Assistenzsysteme genutzt werden. Herauszuheben sind die Arbeiten von Alexander Schubert – beispielsweise seine Komposition Convergence – sowie von Alessandro Anatrini, Greg Beller, Genoël von Lilienstern und Denis Połeć. Ich selbst beschäftige mich seit 1991 mit künstlichen neuronalen Netzwerken und habe sie 1994 in meine Oper Der Sprung eingesetzt. Neulich hatte ich die Gelegenheit, mit der Körber-Stiftung in der Podcastfolge zu Künstlicher Intelligenz und Musik einen Podcast aufzunehmen. Selbst die Musiksoftwarefirma Ableton widmet sich in ihrem Blog AI and Music-Making diesem Thema; und auch in dem neugegründeten ligeti zentrum wird die KI eine zentrale Rolle spielen. Die Hochschulöffentlichkeit ist hiermit herzlich eingeladen, Ideen dazu beizutragen.
TEXT GEORG HAJDU FOTO: REMIX DENIS POŁEĆ

Die von Denis Połeć genutzte Deep Fake Software appliziert in frappierender Genauigkeit sein Gesicht auf alle Mitglieder eines Symphonieorchesters. Das Foto aus REMIX (2023) wirkt täuschend echt.
show less