Wie AlphaZero die Spielregeln selbst neu geschrieben hat

David Silver sagt, das Computerprogramm, das sich selbst beigebracht hat, ein Schachgroßmeister zu sein, zeigt die Essenz der Kreativität.

Will Knight Archivseite

22. Februar 2019

Georgy Wood

David Silver hat etwas erfunden, das erfindungsreicher sein könnte als er.

Silver war der leitende Forscher bei AlphaGo, einem Computerprogramm, das lernte, Go zu spielen – ein bekanntermaßen kniffliges Spiel, das eher die menschliche Intuition als klare Spielregeln ausnutzt –, indem es Spiele untersuchte, die von Menschen gespielt wurden.

Diese Geschichte war Teil unserer Ausgabe März 2019

Siehe den Rest des Problems
Abonnieren

Silvers neueste Kreation, AlphaZero, lernt, Brettspiele wie Go, Schach und Shogi zu spielen, indem es gegen sich selbst übt. Durch Millionen von Übungsspielen entdeckt AlphaZero Strategien, für deren Entwicklung Menschen Jahrtausende gebraucht haben.

Könnte KI also eines Tages Probleme lösen, die der menschliche Verstand niemals lösen könnte? Ich sprach mit Silver in seinem Londoner Büro bei DeepMind, das jetzt zu Alphabet gehört.

In einem berühmten Spiel gegen den möglicherweise besten Go-Spieler aller Zeiten machte AlphaGo einen brillanten Zug, den menschliche Beobachter zunächst für einen Fehler hielten. War es in diesem Moment kreativ?

Move 37, wie es bekannt wurde, überraschte alle, einschließlich der Go-Community und uns, seinen Machern. Es war etwas außerhalb der erwarteten Art, Go zu spielen, die Menschen über Tausende von Jahren herausgefunden hatten. Für mich ist das ein Beispiel dafür, dass etwas kreativ ist.

Da AlphaZero nicht von Menschen lernt, ist es noch kreativer?

Wenn man etwas hat, das von selbst lernt, das sein eigenes Wissen komplett von Grund auf neu aufbaut, ist es fast die Essenz von Kreativität.

AlphaZero muss alles selbst herausfinden. Jeder einzelne Schritt ist ein kreativer Sprung. Diese Einsichten sind kreativ, weil sie nicht von Menschen gegeben wurden. Und diese Sprünge gehen weiter, bis es etwas ist, das unsere Fähigkeiten übersteigt und uns in Erstaunen versetzen kann.

Sie haben AlphaZero gegen Stockfish, die beste konventionelle Schach-Engine, spielen lassen. Was hast du gelernt?

Stockfish hat diese sehr ausgeklügelte Suchmaschine, aber das Herzstück davon ist dieses Modul, das sagt: Laut Menschen ist dies eine gute Position oder eine schlechte Position. Die Menschen sind also wirklich tief in der Schleife. Es fällt ihm schwer, sich zu lösen und eine grundlegend andere Position zu verstehen.

AlphaZero lernt Positionen für sich zu verstehen. Wir haben uns gerade eine schöne Partie angesehen, bei der tatsächlich vier Bauern hintereinander aufgegeben werden und sogar versucht wird, einen fünften Bauern aufzugeben. Stockfish denkt, dass es fantastisch gewinnt, aber AlphaZero ist wirklich glücklich. Es wurde ein Weg gefunden, die Stellung zu verstehen, die nach den Schachnormen undenkbar ist. Es versteht, dass es besser ist, die Stellung zu haben als die vier Bauern.

Schlägt AlphaZero vor, dass KI eine Rolle bei zukünftigen wissenschaftlichen Innovationen spielen wird?

Maschinelles Lernen wurde von einem Ansatz namens überwachtes Lernen dominiert, was bedeutet, dass Sie mit allem beginnen, was Menschen wissen, und Sie versuchen, dies in ein Computerprogramm zu destillieren, das die Dinge genauso macht. Das Schöne an diesem neuen Ansatz, dem Reinforcement Learning, ist, dass das System von Grund auf selbst lernt, wie es die Ziele erreicht, die wir ihm gesetzt haben. Es ist wie eine Million Mini-Entdeckungen, eine nach der anderen, die diese kreative Denkweise aufbauen. Und wenn Sie das schaffen, können Sie am Ende etwas haben, das über immense Kraft verfügt, über eine immense Fähigkeit, Probleme zu lösen, und das hoffentlich zu großen Durchbrüchen führen kann.

Gibt es Aspekte der menschlichen Kreativität, die nicht automatisiert werden könnten?

Wenn wir an die Fähigkeiten des menschlichen Geistes denken, sind wir davon noch weit entfernt. Wir können in spezialisierten Bereichen wie Schach und Go mit einer enormen Menge an Computerleistung, die dieser einen Aufgabe gewidmet ist, Ergebnisse erzielen. Aber der menschliche Geist ist in der Lage, radikal auf etwas anderes zu verallgemeinern. Sie können die Spielregeln ändern, und ein Mensch braucht keine weiteren 2.000 Jahre, um herauszufinden, wie er spielen soll.

Ich würde sagen, dass die Grenze der KI im Moment – und wo wir hinwollen – vielleicht darin besteht, die Reichweite und Flexibilität unserer Algorithmen zu erhöhen, um die gesamte Bandbreite dessen abzudecken, was der menschliche Verstand tun kann. Aber das ist noch ein weiter Weg.

Wie könnten wir dorthin gelangen?

Ich möchte diese Idee bewahren, dass das System frei erschaffen kann, ohne durch menschliches Wissen eingeschränkt zu sein.

Ein Baby macht sich keine Sorgen um seine Karriere oder wie viele Kinder es haben wird. Es spielt mit Spielzeug und lernt Manipulationsfähigkeiten. Ohne ein endgültiges Ziel gibt es eine Menge über die Welt zu lernen. Dasselbe kann und sollte für unsere Systeme gelten.

verbergen

211service.com

Wie AlphaZero die Spielregeln selbst neu geschrieben hat

Der Beste

Google setzt seine Virtual Brain-Technologie ein

Schlaganfälle auf Eis legen

Eine neue Variante der schwimmenden Windkraft

Kann maschinelles Lernen dazu beitragen, den Smog in China zu beseitigen?

Wie ein KI-Algorithmus lernte, politische Reden zu schreiben

Kategorien

Populäre Artikel