Schöne neu(ronal)e Welt

17.11.2020 - Jürgen Peters

Künstliche Intelligenz ist hier und scheint das nächste große Ding zu sein. Fertige Entwicklungsumgebungen erlauben es auch Hobbyisten die Möglichkeiten von Machine Learning für sich Nutzbar zu machen. Einstmals kaum lösbare Probleme erscheinen mittlerweile fast trivial. Aber was ist davon zu halten? Lösen sich nun dank KI alle Probleme in Wohlgefallen auf, oder ist der Hype einfach nur maßlos übertrieben? Wie so oft liegt die Antwort wohl irgendwo dazwischen.

Übermenschliche Leistungen

Als im Januar 2016 bekannt wurde, dass AlphaGo einen der besten europäischen Spieler schlagen konnte, war das bereits eine kleine Sensation. Ich erinnere mich noch an die lebhaften Gespräche beim darauffolgenden Treffen des lokalen Go-Spielabends. Spekulationen gingen in alle Richtungen, ob es AlphaGo auch gelingen könnte, sich gegen einen „richtigen“ asiatischen Profi zu behaupten. Zumal als nächster Gegner gerade Lee Sedol, einer der besten Spieler seiner Zeit, angekündigt war. Ein Turnier auf Augenhöhe wäre bereits ein beachtlicher Erfolg gewesen. Letztlich sollte Lee aber nur eine der fünf gespielten Partien für sich entscheiden können. Dass hierfür auch eine veritable Materialschlacht an Prozessoren, u.a. speziell ausgewählte GPUs und Googles selbst entwickelte „Tensor Processing Units“ notwendig waren, um das komplexe System zu trainieren und spielen zu lassen, geriet schnell in den Hintergrund. „Deep Neural Network“ war forthin das Zauberwort und die medienwirksame Inszenierung von Google machte das Thema Machine Learning für eine breite Masse an Entwickler*innen über Nacht interessant. Konnten doch bisher alle anderen Versuche, starke Go-Programme zu entwickeln nur bescheidene Erfolge für sich verbuchen. Diesen klassischen Ansätzen mehr Rechenleistung zur Verfügung zu stellen, attestierte man auch keine revolutionären Leistungssteigerungen. Was DeepBlue beim Schach und Watson in der Quiz-Show Jeopardy gelang - bekannte Ansätze der Schachcomputer bzw. der Sprachanalyse mit möglichst viel Rechenleistung zu skalieren - war für das Go-Spiel aussichtslos. Und noch kurz vor AlphaGos Erfolg, waren sich Expert*innen uneinig, ob es überhaupt jemals gelingen könne, ein hinreichend starkes Spielprogramm zu entwickeln, so dass dieses mit den spielstärksten Menschen konkurrieren würde.

Seitdem hat sich der Sprachgebrauch stark verkürzt. Allgemein wird oft nur noch von Künstlicher Intelligenz oder KI gesprochen oder einem Begriff mal ein Deep- vorangestellt. Es lohnt sich aber eine differenzierte Betrachtung. Denn obschon der Ansatz des Machine Learning Möglichkeiten eröffnet, die so weitreichend sind, dass wir vielleicht davon absehen sollten, sie vollständig auszuschöpfen, können KI-Systeme auf genau so überraschende Weise, wie sie bisher kaum zu lösende Probleme meisten, auch scheitern oder überlistet werden.

KI als Verstärker von Vorurteilen

Die Probleme beginnen meist beim Training eines s.g. Modells. Als Modell bezeichnen wir ein Neuronales Netz welches darauf trainiert ist, bestimmte Muster in Daten zu erkennen. Ein solches Modell sucht sich nicht automatisch sinnvolle Parameter aus den zur Verfügung gestellten Daten, auf die es seine Auswertungen stützt, sondern tendenziell einfach solche, die eine besonders hohe Treffgenauigkeit ermöglichen. Dies führt aber dazu, dass Vorurteile und statistische Schieflagen in den zum Training und zur Verifizierung herangezogenen Daten automatisch in das Modell übernommen werden.

Wollen wir beispielsweise eine Künstliche Intelligenz entwickeln, die möglichst geeignete Kandidat*innen aus einem Pool von Bewerbungen herausfiltert, klingt dies erst einmal hilfreich. Schließlich macht die KI ja nur Vorschläge, und kann so eine mit einer Flut von Bewerbungen überlasteten Personalabteilung unterstützen. Und schließlich haben Computer ja keine Emotionen und entscheiden nicht nach Sympathie sondern nur nach fachlicher Eignung, oder? Das Modell kann aber lediglich aufgrund der zur Verfügung gestellten Daten entscheiden. Beurteilen Personalvorgesetzte ihre bereits beschäftigten Angestellten tendenziell anders, wenn diese ein bestimmtes Geschlecht, ausländische Wurzeln oder einen akademischen oder Adelstitel führen, kann eine KI einen Zusammenhang zwischen den angegebenen Namen und der Beurteilung herstellen, auch wenn dies natürlich keinen Einfluss auf die tatsächliche Bewertung haben sollte. Solche Schieflagen entstehen oft unabsichtlich. Menschen, die sich solcher Effekte bewusst sind, können natürlich aktiv darauf achten und diese zu kompensieren lernen. Einem Neuronalen Netz fehlt in aller Regel diese Fähigkeit zur Selbstreflextion, um dies selbst zu erkennen und zu mindern. Die KI versteht nicht, dass Daten wie Name, Hautfarbe, etc. anders zu bewerten sind, als Ausbildung, Arbeitserfahrung oder Zertifizierungen. Im schlimmsten Fall bleibt eine solche gelernte Voreingenommenheit unbemerkt, und die KI sortiert einige der besten Bewerbungen aus.

Es ist also eine Vorauswahl und -bewertung erforderlich. Das s.g. Feature Engineering entwickelt sich dabei zu einer Art Wissenschaft für sich. Welche Daten relevant sind lässt sich nicht immer eindeutig bestimmen. Neuronale Netze sollen uns ja gerade dadurch unterstützen, dass sie Muster in Daten erkennen können, die für menschliche Betrachter oft nicht sichtbar sind. Aufgrund welcher Eigenschaften aber genau eine Künstliche Intelligenz am Ende eine Bewertung vorgenommen hat, lässt sich im Nachhinein nur mit sehr großem Aufwand zeigen, wenn überhaupt. Oft fallen solche Probleme erst auf, wenn das System bereits Arbeitet. Wie beispielsweise ein neuer Handtuchspender für öffentliche WC, der nur Papierhandtücher ausgeben soll, wenn unter der eingebauten Kamera tatsächlich Hände erkannt werden. Leider hatten die Entwickler des Systems vmtl. aus Bequemlichkeit einfach Fotos der eigenen Hände zum anlernen der KI verwendet. Das Team hatte aber anscheinend nur Mitglieder mit heller Hautfarbe. Als die ersten Geräte installiert wurden zeigte sich dann jedenfalls, dass Personen mit zu dunkler Hautfarbe schlicht nicht erkannt und ihnen die Handtücher verwehrt wurden. Die anschließende PR kann man sich vorstellen. Ein bisschen mehr Diversität im Entwicklerteam hätte dem Desaster wohl vorgebeugt. Man hätte sich natürlich auch eingehender mit Technologiefolgenabschätzung beschäftigen können. Letzten Endes ist natürlich auch der Gedanke naheliegend, dass es ein einfacher Bewegungssensor wohl auch getan hätte. Aber dann hätte man das neue Produkt wohl schwerlich mit „KI“ bewerben können.

Subtil manipulierbar

Um zu verstehen, wie Komplex und wenig nachvollziehbar KI-Systeme im allgemeinen sind, lassen Sie mich kurz etwas ausholen. Allgemein funktioniert der Aufbau und das Training eines Neuronalen Netzes immer auf die selbe weise. Vereinfacht gesagt wird jedes Datum des zu analysierenden Datensatzes ein Knoten zugewiesen, diese Knoten sind mit weiteren Knoten verknüpft, die dann ein Ergebnis ausgeben. Beispielsweise wird jedes Pixel eines Bildes ein Eingangsknoten zugewiesen, und für jedes Objekt, das erkannt werden soll (Hund, Katze, Maus, …) wird ein Ausgabeknoten erstellt, der Ausgibt, mit welcher Wahrscheinlichkeit das entsprechende Objekt auf dem Bild erkannt wurde. Dabei werden die Knoten in Schichten organisiert. Die erste Schicht stellt die Knoten für die Eingabe dar, die letzte die der Ausgabe. Dazwischen liegende Schichten erhöhen die Komplexität des Modells, sind aber oft notwendig, um die gewünschte Funktionalität zu realisieren. Diese Zwischenebenen sind es, die das Netz gewissermaßen „tiefer“ machen, daher hat das Deep Neural Network auch seinen Namen. Dabei ist nun jeder Knoten mit allen Knoten der unmittelbar davor und dahinter liegenden Schicht verbunden. Komplexere Modelle kombinieren oft mehrere Neuronale Netzwerke miteinander die jeweils mehrere Zwischenebenen besitzen. Die Anzahl an Knoten und Verbindungen übersteigt schnell alles anschauliche. Das eigentliche „Training“ besteht nun darin zu beobachten, wie sich die Qualität der Ausgaben verändert, wenn die Intensität der Verbindungen zwischen den Knoten verändert wird. Dies passiert vollautomatisch und in einer Geschwindigkeit, die für keinen Menschen mehr nachvollziehbar ist. Mehrere Millionen Parameter, die hier bei jedem Durchgang manipuliert werden, sind keine Seltenheit. Separate Daten, die nicht Teil des Trainings sind, werden zum Abschluss für eine Funktionskontrolle herangezogen. Das Ergebnis ist das eigentliche Modell, welches normalerweise bis zum nächsten Update statisch bleibt und nicht ständig in der ausgelieferten Applikation weiter lernt.

Wieso genau das Netz dann am Ende eine gewissen Klassifizierung vornimmt, bleibt aber erst einmal im Verborgenen. Woran erkennt das System, ob das Bild nun einen Hund oder eine Katze zeigt? Das ist aktuell kaum zu ermitteln und Gegenstand laufender Forschung, um KI nicht nur verstehbarer, sondern auch zuverlässiger zu machen. Dabei können bereits für den Menschen kaum wahrnehmbare Änderungen zu komplett anderen Klassifizierungen führen. Zur Illustration ein Bild aus dem Paper „Intriguing properties of neural networks“:

Wir sehen hier sechs Bilder die von der KI AlexNet klassifiziert werden sollten. Jeweils links ist das korrekt erkannte Bild, in der Mitte sehen wir bildlich dargestellt eine gezielte Manipulation des Bildes, rechts dann das veränderte Bild. Obwohl die Manipulationen mit dem bloßen Auge kaum vom Original zu unterscheiden sind, ist jedes der sechs manipulierten Bilder von AlexNet als Strauß erkannt worden. Den Forschern gelang es auch, ähnlich versteckte Manipulationen zu unternehmen, die gleich mehrere Verschiedene KIs überlistete. Solche bewussten und gezielten Täuschungen werden seit ihrer Entdeckung untersucht und stellen für viele Anwendungsgebiete kein konkretes Problem dar. Es existieren aber durchaus Weiterentwicklungen dieses Ansatzes.

In dem 2018 veröffentlichen Paper „Synthesizing Robust Adversarial Examples“ beschreibt das Team von labsix eine Methode, mit der sich dreidimensionale Objekte erstellen lassen, die von Künstlichen Intelligenzen für Bilderkennung falsch oder gar nicht erkannt werden. Dies ist insofern interessant, als das der oben erwähnte Ansatz darauf beruht, die tatsächlichen Daten, welche die KI erreichen, sehr gezielt und exakt zu manipulieren. Dieser neue Ansatz manipuliert aber lediglich ein Objekt in der realen Welt. Das Team hat mehrere solcher Objekte errechnet und mit einem 3D-Drucker erstellt. Das nächste Bild zeigt Fotografien eines solchen Objekts - einen leicht veränderten Baseball - aus verschiedenen Blickwinkeln und mit wechselnden Hintergründen. Aber lediglich auf den grün umrahmten Fotos wird auch in der Tat ein Baseball erkannt. Die rot umrahmten Fotos erkennt die KI als Espresso, und die schwarz umrahmten gar nicht.

Diese Unzulänglichkeiten machen Machine Learning sicher nicht nutzlos, illustrieren aber, wie wenig diese Technologie mit unserer eigenen Wahrnehmung zu tun hat. Wir sollten uns davor hüten zu glauben eine Intuition dafür zu haben, wie diese Systeme tatsächlich „Denken“. Fehlfunktionen treten oft überraschend auf und sind schlecht absehbar, daher lassen sich diese Probleme mit klassischen Testverfahren auch kaum in den Griff bekommen.

Versprechungen und ethischer Einsatz

Ich sprach eingangs davon, dass wir vielleicht davon absehen sollten, alle Möglichkeiten dieser Technologie auch tatsächlich zu realisieren. Diese Idee ist sicher nicht neu und trifft auch auf viele andere Technologien zu, ich will aber ein konkretes Beispiel nennen, um zu illustrieren wie ich das meine.

Ein besonders experimentierfreudiger Autohersteller bewirbt seine Assistenzsysteme seit einiger Zeit als „Autopilot“. Insbesondere analysieren Kameras fortwährend das Geschehen um das Fahrzeug herum, um die Spur zu halten und bei Kollisionsgefahr zu bremsen. Für die das Fahrzeug führende Person fühlt sich das in der Praxis weitgehend so an, als ob das Auto tatsächlich von alleine „auf Autopilot“ fährt. Schlagzeilen machte das System als ein Fahrzeug mit einem unglücklicher Fahrer, der sich zu sehr auf dieses System verlassen hat, ungebremst mit einem quer über eine Kreuzung fahrenden LKW kollidierte. Der LKW hätte auch tatsächlich Vorfahrt gehabt. Das Auto hatte nicht autonom gebremst, weil es den Hänger als Wolke erkannt hatte. Wie genau diese Fehlklassifikation zustande kam ist unbekannt, und wird wohl auch nicht im Detail aufgeklärt werden. Dass solche Fehler vorkommen ist aber für Experten nicht überraschend. Beachtlicher ist aber die Reaktion des Herstellers gewesen. Dieser verteidigte vehement, dass die Bezeichnung als Autopilot nicht irreführend gewesen sei. Schließlich wäre ja eine Meldung angezeigt worden, die den Fahrer darauf hingewiesen hätte, stets aufmerksam bleiben zu müssen.

Sicherlich wäre es für die Verkehrssicherheit zuträglich, keine wenig getesteten Systeme an Kund*innen auszuliefern, die sich im ersten Moment zuverlässig anfühlen, aber dann plötzliche und katastrophale Fehlfunktionen haben. Das wird auch nicht dadurch zu einer guten Idee, dass einem ein kurzer Hinweistext angezeigt und Warnungen in die AGB geschrieben werden. Von durchschnittlichen Konsument*innen kann man nicht erwarten, die Zuverlässigkeit einer solchen Technologie gegen das eigene Empfinden kritisch abzuschätzen. Warnungen ohne Konsequenz wegzuklicken, sind wir von modernen Computersystemen lange gewohnt. Umsichtigere Hersteller nennen Ihre Systeme dann auch eher „Assistent“ und warnen optisch und akustisch wenn sich über einen längeren Zeitraum die Hände nicht am Lenkrad befinden. Solange bis marktreife Systeme existieren, die mindestens so gut fahren wie ein durchschnittlicher Mensch, werden immer Abwägungen nötig sein, ob und wie die Aufmerksamkeit der Fahrer*in sichergestellt werden kann. Im Zweifel sollte das System einfach noch nicht auf den Markt gebracht werden, so bitter das auch sein mag.

Fazit und Ausblick

Bei aller Warnung sei aber auch noch einmal darauf hingewiesen, dass wir wie bereits erwähnt aus dem Bereich des Machine Learning Lösungen für Problemstellungen bekommen, die sich mit klassischen Ansätzen kaum oder gar nicht in den Griff bekommen lassen. Es ist aber nach wie vor wichtig, die Folgen des eigenen Handelns abzuschätzen. Technologien sind erst einmal weder gut noch schlecht. Aber Forschung und Industrie kommt hier die große Aufgabe zu, diese Technologien verantwortungsbewusst und zum Nutzen der Allgemeinheit weiter zu entwickeln. Naiv alles auf den Markt zu werfen, was gekauft wird, ist deutlich zu kurz gedacht. Dass hier aus der Politik entsprechende, verpflichtende Regelungen zu erwarten sind, wäre zu hoffen. Tatsächlich hat die EU eine Expertengruppe eingesetzt, die Ethik-Leitlinen für eine „vertrauenswürdige KI“ verfasst hat. Diese Leitlinien sind aber nicht verpflichtend und geben auch keine juristischen Empfehlungen. Derlei Handreichungen können hilfreich für bereits sensibilisierte Akteure sein, haben aber darüber hinaus kaum Strahlkraft. So beschwören die publizierten Leitlinien wiederholt die Verantwortung von Individuen sowie der gesamten Gesellschaft. Ob dies ausreicht ist fraglich. Auch der bisherige Umgang der Politik mit der fortschreitenden Digitalisierung lässt hier keine raschen gesetzlichen Maßnahmen vermuten.

Meine persönliche Maßgabe ist weiterhin alles, was sich mit klassischer Software vernünftig lösen lässt, auch so zu behandeln und den Einsatz von Machine Learning auf die Bereiche zu beschränken, in denen dies Notwendig und die Folgen absehbar sind. Ich bin zuversichtlich, dass wir in Zukunft die hier aufgezeigten technischen Probleme weiter in den Griff bekommen können, und so weitere Anwendungsbereiche sinnvoll Erschließen. Auf die Frage was vertretbar und sinnvoll, und was zu riskant oder gar absehbar schädlich ist, muss vorerst jede*r für sich selbst eine Antwort finden.