Wie böswilliges maschinelles Lernen die KI entgleisen lassen könnte

Jeremy Portje





Künstliche Intelligenz wird nichts revolutionieren, wenn Hacker damit umgehen können.

Das ist die Warnung von Morgenlied , ein Professor an der UC Berkeley, der sich auf die Untersuchung der Sicherheitsrisiken spezialisiert hat, die mit KI und maschinellem Lernen verbunden sind.

Auf der EmTech Digital, einer von MIT Technology Review organisierten Veranstaltung in San Francisco, warnte Song davor, dass neue Techniken zum Untersuchen und Manipulieren von maschinellen Lernsystemen – in der Fachwelt als kontradiktorische maschinelle Lernmethoden bekannt – große Probleme für jeden verursachen könnten, der sich diese zunutze machen möchte Macht der KI in der Wirtschaft.

Song sagte, dass kontradiktorisches maschinelles Lernen verwendet werden könnte, um nahezu jedes System anzugreifen, das auf der Technologie basiert.

Das ist ein großes Problem, sagte sie dem Publikum. Wir müssen zusammenkommen, um es zu beheben.

Beim kontradiktorischen maschinellen Lernen werden Eingaben experimentell in einen Algorithmus eingespeist, um die Informationen zu enthüllen, auf die er trainiert wurde, oder Eingaben auf eine Weise verzerrt, die zu Fehlverhalten des Systems führt. Indem beispielsweise viele Bilder in einen Computer-Vision-Algorithmus eingegeben werden, ist es möglich, seine Funktionsweise zurückzuentwickeln und bestimmte Arten von Ausgaben sicherzustellen, einschließlich falscher.

Song präsentierte mehrere Beispiele für Tricksereien beim kontradiktorischen Lernen, die ihre Forschungsgruppe untersucht hat.

Ein Projekt, das in Zusammenarbeit mit Google durchgeführt wurde, umfasste die Untersuchung von maschinellen Lernalgorithmen, die darauf trainiert sind, automatische Antworten aus E-Mail-Nachrichten zu generieren (in diesem Fall die Enron E-Mail-Datensatz ). Die Bemühungen zeigten, dass es durch die Erstellung der richtigen Nachrichten möglich ist, dass das Maschinenmodell sensible Daten wie Kreditkartennummern ausspuckt. Die Ergebnisse wurden von Google verwendet, um zu verhindern, dass Smart Compose, das Tool zur automatischen Textgenerierung in Google Mail, ausgenutzt wird.

Ein weiteres Projekt bestand darin, Straßenschilder mit ein paar harmlos aussehenden Aufklebern zu modifizieren, um die in vielen Fahrzeugen verwendeten Computer-Vision-Systeme zu täuschen. In einer Videodemo zeigte Song, wie das Auto dazu gebracht werden könnte, zu glauben, dass ein Stoppschild tatsächlich die Höchstgeschwindigkeit von 45 Meilen pro Stunde angibt. Dies könnte ein großes Problem für ein automatisiertes Fahrsystem sein, das auf solche Informationen angewiesen ist.

Adversarial Machine Learning ist ein Bereich von wachsendem Interesse für Machine-Learning-Forscher. In den letzten Jahren haben andere Forschungsgruppen gezeigt, wie Online-Machine-Learning-APIs untersucht und ausgenutzt werden können, um Wege zu finden, sie zu täuschen oder vertrauliche Informationen preiszugeben.

Es überrascht nicht, dass kontradiktorisches maschinelles Lernen auch für die Verteidigungsgemeinschaft von großem Interesse ist. Da immer mehr militärische Systeme – einschließlich Sensor- und Waffensysteme – maschinelles Lernen nutzen, besteht ein enormes Potenzial für diese Techniken, sowohl defensiv als auch offensiv eingesetzt zu werden.

In diesem Jahr startete der Forschungsarm des Pentagon, DARPA, ein großes Projekt mit dem Namen Garanting AI Robustness against Deception (GARD), das darauf abzielt, kontradiktorisches maschinelles Lernen zu untersuchen. Hava Siegelmann , Direktor des GARD-Programms, sagte kürzlich gegenüber MIT Technology Review, dass das Ziel dieses Projekts darin bestand, KI-Modelle zu entwickeln, die gegenüber einer Vielzahl von gegnerischen Angriffen robust sind, anstatt nur in der Lage zu sein, sich gegen bestimmte zu verteidigen.

verbergen