Das Toyota Research Institute (TRI) kündigte einen bahnbrechenden generativen KI-Ansatz an, der auf der Diffusionspolitik basiert, um Robotern schnell und sicher neue, geschickte Fähigkeiten beizubringen. Den Forschern zufolge verbessert dieser Fortschritt den Nutzen von Robotern erheblich und ist ein Schritt in Richtung des Aufbaus von Large Behavior Models (LBMs) für Roboter, analog zu den Large Language Models (LLMs), die kürzlich die Konversations-KI revolutioniert haben.
"Unsere Forschung in der Robotik zielt darauf ab, Menschen zu unterstützen, anstatt sie zu ersetzen", sagte Gill Pratt, CEO von TRI und Chief Scientist der Toyota Motor Corporation. "Diese neue Lerntechnik ist sowohl sehr effizient als auch sehr leistungsstark und ermöglicht es Robotern, Menschen in vielerlei Hinsicht effektiver zu unterstützen."
Bisherige, dem Stand der Technik entsprechende Verfahren, um Robotern neue Verhaltensweisen beizubringen, waren langsam, inkonsistent, ineffizient und oft auf eng definierte Aufgaben in stark eingeschränkten Umgebungen beschränkt. Robotiker mussten viele Stunden damit verbringen, komplizierten Code zu schreiben und/oder zahlreiche Versuch-und-Irrtum-Zyklen durchzuführen, um Verhaltensweisen zu programmieren.
TRI hat Robotern mit dem neuen Ansatz bereits mehr als 60 schwierige, geschickte Fähigkeiten beigebracht, darunter das Ausgießen von Flüssigkeiten, die Verwendung von Werkzeugen und die Manipulation verformbarer Objekte. Diese Erfolge wurden erzielt, ohne eine einzige Zeile neuen Codes zu schreiben; die einzige Änderung bestand darin, den Roboter mit neuen Daten zu versorgen. Aufbauend auf diesem Erfolg hat sich TRI das ehrgeizige Ziel gesetzt, bis Ende des Jahres Hunderte von neuen Fähigkeiten zu vermitteln und bis Ende 2024 1.000.
Die heutige Nachricht unterstreicht auch, dass Robotern beigebracht werden kann, in neuen Szenarien zu funktionieren und eine breite Palette von Verhaltensweisen auszuführen. Diese Fähigkeiten beschränken sich nicht nur auf "Pick and Place" oder das einfache Aufnehmen von Gegenständen und deren Platzierung an neuen Orten. Die Roboter von TRI können nun auf vielfältige und reichhaltige Weise mit der Welt interagieren - eines Tages werden sie in der Lage sein, Menschen in alltäglichen Situationen und in unvorhersehbaren, sich verändernden Umgebungen zu unterstützen.
"Die Aufgaben, die ich diesen Robotern zuschaue, sind einfach erstaunlich - selbst vor einem Jahr hätte ich nicht vorausgesagt, dass wir in der Nähe dieses Niveaus der vielfältigen Geschicklichkeit sind", bemerkte Russ Tedrake, Vizepräsident der Robotikforschung bei TRI. Dr. Tedrake, der auch Toyota-Professor für Elektrotechnik und Informatik, Luft- und Raumfahrttechnik sowie Maschinenbau am MIT ist, erklärte: "Das Spannende an diesem neuen Ansatz ist die Geschwindigkeit und Zuverlässigkeit, mit der wir neue Fähigkeiten hinzufügen können. Da diese Fähigkeiten direkt von den Kamerabildern und dem Tastsinn ausgehen und nur gelernte Darstellungen verwenden, sind sie in der Lage, selbst bei Aufgaben mit verformbaren Objekten, Stoffen und Flüssigkeiten gute Leistungen zu erbringen - alles Aufgaben, die traditionell für Roboter extrem schwierig waren."
Technisch gesehen lernt das TRI-Roboterverhaltensmodell aus haptischen Demonstrationen eines Lehrers in Kombination mit einer sprachlichen Beschreibung des Ziels. Es verwendet dann eine KI-basierte Diffusionsstrategie, um die demonstrierte Fähigkeit zu erlernen. Dieser Prozess ermöglicht es, ein neues Verhalten aus Dutzenden von Demonstrationen selbstständig zu entwickeln. Dieser Ansatz führt nicht nur zu konsistenten, wiederholbaren und leistungsfähigen Ergebnissen, sondern auch zu einer unglaublichen Geschwindigkeit.
Quelle: Toyota