Mit dem Strom von E-Commerce-Bestellungen holt ein Lagerbot Becher aus dem Regal und stellt sie für den Versand in Kartons. Alles springt auf, bis das Repository das Wechselgeld übernimmt und der Bot nun nach höheren und schmaleren Bechern greifen muss, die auf dem Kopf stehen.
Die Neuprogrammierung dieses Roboters beinhaltet das manuelle Markieren von Tausenden von Fotos, die zeigen, wie neue Tassen aufgenommen werden, und das anschließende erneute Trainieren des Systems.
Die von den MIT-Forschern entwickelte neue Technologie erfordert jedoch nur wenige menschliche Demonstrationen, um den Roboter neu zu programmieren. Diese maschinelle Lernmethode ermöglicht es Robotern, nie zuvor gesehene Objekte aufzunehmen und an zufälligen Positionen wie nie zuvor zu platzieren. Innerhalb von 10 bis 15 Minuten ist der Roboter bereit, eine neue Kommissionier- und Lokalisierungsaufgabe auszuführen.
Diese Technologie verwendet ein speziell entwickeltes neuronales Netzwerk, um die Formen von 3D-Objekten zu rekonstruieren. Mit nur wenigen Demos nutzt das System das, was das neuronale Netzwerk über 3D-Geometrie gelernt hat, um neue Objekte auszuschneiden, die denen in den Demos ähneln.
In Simulationen und mit einem echten Roboterarm demonstrierten die Forscher, dass ihr System Tassen, Schalen und Flaschen effizient wie nie zuvor handhaben kann, die in zufälligen Positionen angeordnet sind, indem sie nur 10 Demos zum Einlernen des Roboters verwendeten.
„Unser Hauptbeitrag ist die allgemeine Fähigkeit, Robotern, die in weniger strukturierten Umgebungen arbeiten müssen, in denen es viele Unterschiede geben kann, effizienter neue Fähigkeiten zu vermitteln“, sagt Anthony Simonov, Doktorand in Elektrotechnik und Computertechnik (EECS) und Leiter Autor Teilnehmer der Arbeit, das Konzept der Verallgemeinerung durch den Konstruktivismus ist eine große Fähigkeit, weil dieses Problem normalerweise schwieriger ist.
Semyonov schrieb den Artikel zusammen mit dem Co-Lead-Autor Yilon Do, einem EECS-Doktoranden. Andrea Taglisacchi, Forschungswissenschaftlerin, Google Brain; Joshua b. Tenenbaum, Paul E. Newton, Professor of Career Development in Cognitive and Computational Sciences am Department of Brain and Cognitive Sciences und Mitglied des Computer Science and Artificial Intelligence Laboratory (CSAIL); Alberto Rodriguez, außerordentlicher Professor für den Jahrgang 1957 in der Fakultät für Maschinenbau; Hauptautoren sind Pulkit Agrawal, Professor am CSAIL, und Vincent Sitzman, angehender außerordentlicher Professor am EECS. Die Forschungsergebnisse werden auf der International Conference on Robotics and Automation präsentiert.
Technik eingeben
Ein Roboter kann darauf trainiert werden, ein bestimmtes Objekt aufzuheben, aber wenn dieses Objekt auf der Seite liegt (es könnte heruntergefallen sein), sieht der Roboter dies als ein völlig neues Szenario. Dies ist einer der Gründe, warum es für maschinelle Lernsysteme so schwierig ist, auf neue Objektorientierungen zu verallgemeinern.
Um diese Herausforderung zu bewältigen, erstellten die Forscher eine neue Art von neuronalem Netzwerkmodell, das Neural Descriptor Field (NDF), das die 3D-Geometrie einer Klasse von Elementen lernt. Das Modell berechnet die geometrische Darstellung eines bestimmten Elements mithilfe einer 3D-Punktwolke, bei der es sich um einen Satz von 3D-Koordinaten oder Datenpunkten handelt. Datenpunkte können von einer Tiefenkamera erhalten werden, die Informationen über die Entfernung zwischen einem Objekt und einem Aussichtspunkt liefert. Obwohl das Netzwerk darauf trainiert ist, auf einem großen Datensatz künstlicher 3D-Formen zu simulieren, kann es direkt auf reale Objekte angewendet werden.
Das Team entwarf das NDF mit einer Funktion, die sich gleichmäßig identifiziert. Wenn das Modell mit dieser Eigenschaft ein Bild einer aufrechten Tasse sieht und dann ein Bild derselben Tasse auf der Seite zeigt, versteht es, dass die zweite Tasse dieselbe ist, nur gedreht.
„Diese Asymmetrie ermöglicht es uns, Fälle effizienter zu behandeln, in denen das Objekt, das Sie beobachten, sich in einer beliebigen Richtung befindet“, sagt Simonov.
Wenn das NDF lernt, die Formen ähnlicher Objekte zu rekonstruieren, lernt es auch, verwandte Teile dieser Objekte zu verbinden. Er erfährt zum Beispiel, dass die Griffe von Tassen ähnlich sind, obwohl einige Tassen höher oder breiter sind als andere oder kürzere oder längere Henkel haben.
„Wenn Sie es anders machen wollen, müssen Sie alle Teile manuell benennen. Stattdessen erkennt unser Ansatz diese Teile der Formrekonstruktion automatisch“, sagt Doe.
Anhand dieses trainierten NDF-Modells bringen die Forscher dem Roboter mit nur wenigen physikalischen Beispielen eine neue Fähigkeit bei. Sie bewegen die Hand des Roboters über einen Teil des Objekts, das sie halten möchten, beispielsweise den Rand einer Schüssel oder den Henkel einer Tasse, und zeichnen die Positionen der Fingerspitzen auf.
Parce que le NDF a beaucoup appris sur la géométrie 3D and sur the façon de reconstruire of forms, il peut déduire la structure d’une nouvelle form, ce qui permet au système de transfer les démonstrations sur lique de nouvelles poses, The.
Wählen Sie den Gewinner
Sie testeten ihr Modell in Simulationen und an einem echten Roboterarm mit Bechern, Schalen und Flaschen als Objekten. Ihre Methode hatte eine Erfolgsquote von 85 % bei der Auswahl und Umsetzung von Aufgaben mit neuen Dingen in neue Richtungen, während die beste Baseline nur eine Erfolgsquote von 45 % haben konnte. Erfolg bedeutet, sich etwas Neues zu schnappen und es an einem bestimmten Ort zu platzieren, wie z. B. Tassen in einem Regal aufzuhängen.
Viele Basislinien verwenden eher 2D-Bildinformationen als 3D-Geometrie, was die Integration von Kontrast auf diese Weise schwieriger macht. Dies ist einer der Gründe, warum die NDF-Technologie besser funktioniert.
Während die Forscher mit seiner Leistung zufrieden waren, funktioniert ihre Methode nur für die spezifische Klasse von Objekten, auf die sie trainiert wurde. Ein Roboter, der gelernt hat, Tassen aufzuheben, wird keine Kisten oder Kopfhörer aufheben können, da diese Objekte ganz andere geometrische Eigenschaften haben als die, auf die das Netzwerk trainiert wurde.
„In Zukunft wäre es ideal, es auf viele Kategorien auszudehnen oder die Idee der Klassifizierung ganz aufzugeben“, sagt Simonov.
Sie planen auch, das System an nicht feste Objekte anzupassen und es dem System langfristig zu ermöglichen, Pick-and-Place-Aufgaben auszuführen, wenn sich der Zielbereich ändert.
Diese Arbeit wird teilweise von der Defense Advanced Research Projects Agency, der Defense Science and Technology Agency of Singapore und der National Science Foundation unterstützt.