Region: DE US EU

Gespräch mit dem DeepMind-StarCraft II-Team

Written by

Als 1998 veröffentlicht wurde, lebte Oriol Vinyals, Forscher an der künstlichen Intelligenz (K.I.) „DeepMind“, noch als Kind in Spanien. Er verliebte sich in das Spiel, machte sich im Esports einen Namen und erreichte sogar den dritten Platz beim Qualifikationsturnier für die World Cyber Games (WCG). Seither wurde er zu einem der führenden Köpfe in der K.I.-Forschung. Sein aktuelles Projekt? Er entwickelt einen Bot oder „Agenten“, der meistern kann.

///

Oriol: Mein Name ist Oriol Vinyals, ich bin Forscher bei DeepMind. Ich leite das Projekt für . Ich konzentriere mich darauf, den Stand der K.I.-Technik voranzubringen. bietet eine tolle Forschungsgrundlage – ich habe dem Spiel sogar einen Teil meines Ph.D. in Berkeley gewidmet.

Oriol: Ein Freund hat zu mir gesagt: „An der Universität Berkeley gibt es eine Gruppe von Leuten, die an diesem Wettbewerb ‚K.I. vs. K.I.‘ teilnehmen, und nachdem du ja das Spiel sehr gut kennst, wäre es toll, wenn du dir ihre Arbeit mal ansehen könntest.“

Sie arbeiteten an einen Bot auf der Grundlage des Zerg-Mutalisken. Ich habe gegen diesen Agenten gespielt … Ich glaube, sie haben mich „Coach“ genannt.

Die Herangehensweise dieses Projekts basierte auf Regelsystemen des Schwierigkeitsgrads Experte. „Wir bauen haufenweise Mutalisken und wir brauchen eine Baureihenfolge, die hoffentlich viele Rush-Taktiken abwehren kann und genügend Expansionen einnimmt, um mit der Produktion hinterherzukommen“, und so weiter. Dieser Ansatz war stark vorprogrammiert, doch das tatsächliche Mikromanagement von Mutalisken wurde erlernt. Wir haben . Das hat richtig viel Spaß gemacht.

Oriol: DeepMind entwickelt gerade eine sogenannte „AGI“ – Artificial Intelligence, also allgemeine künstliche Intelligenz. Wir entwickeln keinen Agenten, der ein einziges Spiel spielen soll, sondern wir wollen die Lernparameter verstehen, sodass dieser Agent Art von Spiel ohne Vorwissen spielen könnte. Es klang nach einer großen Herausforderung einen Bot zu bauen, für den wir nicht die Regeln schreiben, sondern dem wir nur den Bildschirm zur Verfügung stellen. „Hier ist die Maus und die Tastatur. Leg los, interagiere mit dem Spiel und versuche, besser zu werden.“

Oriol: Das Spiel bietet bestimmte Herausforderungen für eine K.I. Bei Go sieht man immer das ganze Spielbrett, in aber nicht, also muss man es erkunden … Und dann gibt es natürlich die Benutzeroberfläche, mit der man hervorragend testen kann, ob der Agent mit Mausklicks mit dem Spiel interagieren kann. Das ist etwas ganz Anderes als die 14 Befehle, die wir auf einem Atari hatten. Es ist eine tolle Herausforderung.

Oriol: Es gibt auf jeden Fall Sachen, die aufgrund der Art, wie wir diese Modelle trainieren, gut ersichtlich sind. Rückblickend betrachtet scheint es beinahe offensichtlich. Zum Beispiel ist eine Aktion die Bewegung der Kamera, um sich auf der Karte umzusehen. Wie sich herausgestellt hat, bewegen zufallsbasierte Agenten die Kamera von ihrer Basis weg und nicht mehr zurück, um zu sehen, was sie eigentlich im Blick haben sollen. In diesem Fall ihre Basis, um Gebäude zu bauen und so weiter.

Für Menschen ist das etwas sehr Einfaches: Das Konzept der Kamera, die Minikarte unten links. Doch diese Agenten waren völlig planlos, klickten auf die Minikarte und kamen dadurch natürlich nicht weiter. Irgendwann sind sie zufällig wieder auf ihrer Basis gelandet, doch ihre nächste Aktion war, alle Arbeiter auszuwählen und sie irgendwo anders hinzuschicken.

Es hat richtig wehgetan, das anzusehen. An diesem Punkt müssen sie wirklich eine Art von Signal oder Belohnung erhalten. Hoffentlich haben sie manchmal Glück und sie tun etwas Richtiges, und dann – und nur dann – können sie zu lernen beginnen. Anders als Atari-Spiele, bei denen man schnell etwas Vernünftiges machen kann, hat einen derart exponentiellen Handlungsspielraum, dass gerade der Anfang sehr schwierig ist, besonders in einem uneingeschränkten, vollständigen Spiel.

Wir haben eine Reihe von Minispielen veröffentlicht, vereinfachte Versionen von . Wir haben bestimmte Aspekte des Spiels für Karten herausgepickt, die beispielsweise aus „expandiert und baut viele Arbeiter“ oder „bewegt eure Einheiten herum und versucht, so viel von der Karte wie möglich aufzudecken“ bestehen. In den Minispielen hatten wir Agenten, die die Grundlagen von Einheitenbewegungen oder Kampfsituationen erlernen konnten …

Oriol: Es gibt diese Karte mit zwei Space-Marines, deren Mission es ist, auf der Karte verteilte Mineralien einzusammeln. Für den Agenten war es überraschend schwierig herauszufinden, dass er seine Space-Marines einzeln verwenden sollte. Der Agent allerdings gelernt, seine Space-Marines mit dem Befehl „Patrouillieren“ zu bewegen. Ich wusste das nicht, doch mit „Patrouillieren“ bleibt der Abstand zwischen den Space-Marines gleich, sodass sie mehr Mineralien aufsammeln können, obwohl sie gleichzeitig gesteuert werden. Dabei konnte ich zum ersten Mal sagen: „Okay, ich habe gerade etwas Neues über gelernt.“

()

Oriol: Ich weiß es nicht. Ich bin mir sicher, dass die Herangehensweise selbst sehr gut erweitert werden kann. Wenn man den Bot so baut, wie wir es 2010 in Berkeley gemacht haben, wird dieser eine Baureihenfolge oder vielleicht zwei oder drei ausführen, doch das lässt sich nicht gut ausbauen. Letztendlich kann jemand herausfinden, wie er spielt, und seine Schwachstellen ausnutzen. Mir gefällt an unserer Herangehensweise, dass, wenn alles funktioniert, der Agent eine Vielzahl an Taktiken und Kontermöglichkeiten erlernt. Diese könnte man niemals programmieren, genauso wie man keinen besonders guten Go-Spieler programmieren kann.

Ob er die allerbesten Spieler schlagen kann – ich weiß es nicht. Das wird sich erst herausstellen. Ich kann nicht vorhersagen, ob er sie besiegen kann oder nicht.