DeepMinds „Gato“ ist bescheiden, also warum sollte man es bauen?

Das neuronale Netzwerk „Gato“ von DeepMind zeichnet sich durch viele Aufgaben aus, darunter die Steuerung von Roboterarmen, die Blöcke stapeln, das Spielen von Atari 2600-Spielen und das Kommentieren von Bildern. Foto: DeepMind.

Die Welt ist es gewohnt, Schlagzeilen über den neuesten Durchbruch bei Formen des Deep Learning mit künstlicher Intelligenz zu sehen. Die jüngste Errungenschaft aus Googles DeepMind-Sparte lässt sich jedoch als „ein Programm der künstlichen Intelligenz, das in vielerlei Hinsicht einen bescheidenen Job macht“ zusammenfassen.

Gato, der Name von DeepMind, wurde kürzlich als sogenanntes Multimedia-Programm eingeführt, das in der Lage ist, Videospiele zu spielen, zu chatten, Kompositionen zu schreiben, Bilder zu kommentieren und einen blockstapelnden Roboterarm zu steuern. Es ist ein neuronales Netzwerk, das in der Lage ist, mit mehreren Arten von Daten zu arbeiten, um mehrere Arten von Aufgaben zu erfüllen.

Mit nur einem Satz Gewichte kann Gato chatten, Bilder kommentieren, Blöcke mit einem echten Roboterarm stapeln, Menschen in Atari-Spielen schlagen, durch simulierte 3D-Umgebungen navigieren, Anweisungen befolgen und vieles mehr“, schreiben Hauptautor Scott Reed und Kollegen in ihrem Artikel „Generalagent.“

Präzedenzfall schaffen

Demis Hassabis, Mitbegründer von DeepMind, ermutigte das Team, in einem Tweet schreien : „Unser bisher umfassendster Agent! Großartige Arbeit vom Team! Der einzige Haken ist, dass Gato nicht besonders gut im Multitasking ist.

Andererseits ist die Software in der Lage, eine bessere Arbeit zu leisten als Software für maschinelles Lernen, die sich der Steuerung von Sawyers Roboterarm widmet, der Blöcke stapelt. Aber auf der anderen Seite produzieren sie Bildunterschriften, die in vielen Fällen sehr schlecht sind. Seine Dialogfähigkeit durch Chatten mit einem menschlichen Gesprächspartner ist mittelmäßig, was manchmal zu widersprüchlichen und absurden Aussagen führt.

Seine Fähigkeit, Atari 2600-Videospiele zu spielen, ist geringer als bei den meisten dedizierten maschinellen Lernprogrammen, die für den Wettbewerb im Arcade Learning Environment-Standard entwickelt wurden.

Warum ein Programm erstellen, das einige Dinge gut und viele andere nicht so gut macht? Laut den Autoren ist dies eine Erwartung. Es gibt Präzedenzfälle dafür, dass allgemeinere Arten von Software zum Stand der Technik in der künstlichen Intelligenz werden, und es wird erwartet, dass zunehmende Mengen an Rechenleistung die Lücken in der Zukunft füllen werden.

Multitasking-Agent

Bei der künstlichen Intelligenz (KI) kann die Allgemeinheit tendenziell gewinnen. Wie die Autoren unter Berufung auf den Fachexperten Richard Sutton anmerken: „Historisch gesehen neigen generische Modelle, die das Beste aus Berechnungen herausholen, auch dazu, spezialisiertere Methoden in einem bestimmten Bereich zu übertreffen.“

Wie Richard Sutton in seinem eigenen Blog schreibt: „Die größte Lektion aus 70 Jahren KI-Forschung ist, dass allgemeine Methoden, die sich die Berechnung zunutze machen, letztendlich die effizientesten und effektivsten sind.“

In einer formellen Abschlussarbeit testeten Scott Reed und sein Team „die Hypothese, dass die Ausbildung eines Agenten, der im Allgemeinen in der Lage ist, eine große Anzahl von Aufgaben auszuführen, machbar ist und dass ein solcher allgemeiner Agent mit weniger Daten angepasst werden kann, um eine größere Anzahl von Aufgaben erfolgreich zu bewältigen .”

Das Formular ist in diesem Fall eigentlich sehr generisch. Es ist eine Version von “Transformer”, dem vorherrschenden Typ eines aufmerksamkeitsbasierten Modells, das zur Grundlage vieler Programme geworden ist, einschließlich GPT-3. Der Transformer modelliert die Wahrscheinlichkeit eines gegebenen Elements, indem er die umgebenden Elemente betrachtet – zB Wörter in einem Satz.

1,18 Milliarden Netzwerkparameter

Im Fall von Gato können DeepMind-Wissenschaftler dieselbe bedingte Wahrscheinlichkeitssuche für viele Arten von Daten verwenden.

“Während der Trainingsphase von Gato werden Daten aus verschiedenen Aufgaben und Modalitäten zu einer festen Folge von Symbolen sequenziert, aggregiert und von einem transformierten neuronalen Netzwerk ähnlich einem großen Sprachmodell verarbeitet. Der Verlust wird maskiert, sodass Gato nur Aktionsziele und Text erwartet. “ beschreiben Scott Reed und Kollegen in Bezug auf die Aufgabe Programmtraining.

Mit anderen Worten, Gato behandelt Token nicht anders, egal ob es sich um Wörter in einem Gespräch oder um Bewegungsvektoren in einer Blockstapelübung handelt. Es ist alles das Gleiche.

Die Hypothese von Scott Reed und seinem Team hat eine logische Konsequenz, nämlich dass sich letztendlich eine größere Rechenleistung durchsetzen wird. Im Moment ist Gato durch die Reaktionszeit von Sawyers Roboterarm beim Stapeln von Blöcken begrenzt. Mit 1,18 Milliarden Netzwerkparametern ist Gato viel kleiner als sehr große KI-Modelle wie GPT-3. Wenn Deep-Learning-Modelle wachsen, führt die Inferenz zu einer Latenz, die in der nicht deterministischen Welt eines realen Roboters versagen kann.

Aber Scott Reed und seine Kollegen gehen davon aus, dass diese Grenze überschritten wird, da KIs bei der Verarbeitung immer schneller werden. „Wir konzentrieren unser Training auf einen modellweiten Betriebspunkt, der die Echtzeitsteuerung von Robotern in der realen Welt ermöglicht, derzeit rund 1,2 Milliarden Parameter im Fall von JATO“, schrieben sie. „Wenn sich Geräte- und Modellarchitekturen verbessern, wird dieser Betriebspunkt natürlich die erreichbare Modellgröße erhöhen und Allzweckmodelle auf der Skalierungsgesetzkurve nach oben bringen.“

Mögliche Risiken eines generalistischen Programms?

Gato ist also wirklich ein Modell dafür, wie der Rechenumfang weiterhin der Hauptantrieb für die Entwicklung des maschinellen Lernens ist, wodurch Allzweckmodelle immer größer werden. Mit anderen Worten, größer ist besser.

Die Autoren haben einige Beweise dafür. Gatto scheint tatsächlich mit zunehmender Körpergröße besser zu werden. Sie vergleichen durchschnittliche Punktzahlen über Standardaufgaben für drei Modellgrößen nach Parametern, 79 Millionen, 364 Millionen, und Hauptmodell, 1,18 Milliarden. „Wir können sehen, dass sich die Leistung bei einer entsprechenden Anzahl von Token mit zunehmender Größe erheblich verbessert“, schreiben die Autoren.

Eine interessante Frage für die Zukunft ist, ob Universalsoftware gefährlicher ist als andere Arten von KI-Software. Die Autoren verbringen viel Zeit in ihrem Artikel damit, dass es potenzielle Risiken gibt, die noch nicht vollständig verstanden werden.

Die Idee eines Programms, das mehrere Aufgaben für die durchschnittliche Person erledigen könnte, legt eine Art menschliche Anpassung nahe, aber dies kann ein gefährlicher Irrtum sein. «Zum Beispiel, l’incarnation physique pourrait amener les utilisateurs à anthropomorphiser l’agent, ce qui conduirait à une trust mal place dans le cas d’un dysfonctionnement du système, ou pourrait de être uvé, Scott act his team.

„Darüber hinaus ist der bereichsübergreifende Wissenstransfer zwar oft ein Ziel in der Forschung zum maschinellen Lernen, kann aber zu unerwarteten und unerwünschten Ergebnissen führen, wenn bestimmte Verhaltensweisen (wie Arcade-Kämpfe) in den falschen Kontext verschoben werden.“

Daher stellen sie fest, dass „ethische und sicherheitstechnische Erwägungen für den Wissenstransfer erhebliche neue Forschungsarbeiten erfordern könnten, wenn sich die öffentlichen Systeme weiterentwickeln“.

Bereich der Robotik

Gato ist keineswegs einzigartig in seiner Tendenz zur Verallgemeinerung. Es ist Teil eines allgemeinen Trends zur Verallgemeinerung und zu größeren Modellen, die viel Strom verbrauchen. Zu seinen Konkurrenten gehört PaLM, das Pathways Language Model, das dieses Jahr von Google-Experten eingeführt wurde. Es ist ein Modell mit 540 Milliarden Parametern, das eine neue Technologie verwendet, um Tausende von Chips zu orchestrieren, bekannt als Pathways, die ebenfalls von Google erfunden wurden.

Was neu in Gato ist, scheint die Absicht zu sein, KI für nicht robotische Aufgaben zu verwenden und sie in die Welt der Robotik zu bringen. Unter Hinweis auf die Errungenschaften von Pathways und anderen generischen Ansätzen sehen die Schöpfer von Gato unterm Strich künstliche Intelligenz, die in der realen Welt für jede Art von Aufgabe eingesetzt werden kann.

„Zukünftige Arbeiten sollten überlegen, wie diese Skriptfähigkeiten zu einem vollständigen generischen Agenten vereinheitlicht werden können, der auch in Echtzeit in der realen Welt, in verschiedenen Umgebungen und Inkarnationen operieren kann.“

Sie können Gato also als einen wichtigen Schritt auf dem Weg zur Lösung des schwierigsten Problems in der KI, der Robotik, betrachten.

Quelle: ZDNet.com

Leave a Comment