de.wedoany.com-Bericht: Ingenieure von Alibaba haben die Qwen-Robot Suite veröffentlicht, eine Sammlung von drei grundlegenden KI-Modellen, die speziell für Roboter und intelligente Agenten entwickelt wurden. Diese Modelle können nicht nur Text und Bilder verstehen, sondern auch Aktionen in der physischen Welt ausführen.

Die Suite umfasst drei Modelle, die jeweils auf unterschiedliche Roboteraufgaben ausgerichtet sind.

Qwen-RobotNav ist ein Modell, das verschiedene Navigationsszenarien integriert, darunter das Befolgen von Anweisungen, das Navigieren zu bestimmten Punkten, die Objektsuche, die Zielverfolgung und das autonome Fahren. Das Modell wird als grundlegendes Navigationsmodell für Agentensysteme positioniert. Ein externer Planer kann es mit Teilaufgaben kombinieren, die aus einer großen Aufgabe abgeleitet wurden, und während der Ausführung dynamisch zwischen den Modus des Modells wechseln.

Das Modell unterstützt die Konfiguration von Beobachtungsprotokollen, die es dem System ermöglichen, dynamische Anpassungen bei der Verarbeitung visueller Kontexte vorzunehmen, z. B. durch Anpassung der Anzahl der Tokens oder der Gewichtung verschiedener Kameras. Die Ingenieure haben es mit 15,6 Millionen Stichproben trainiert und die Anzahl der Parameter von 2 Milliarden auf 8 Milliarden erhöht, um die Leistung zu verbessern.

Qwen-RobotManip ist ein auf Qwen-VL basierendes Vision-Language-Action-Modell, das speziell für die physische Interaktion mit Objekten zuständig ist. Das Modell zielt darauf ab, das Problem der Heterogenität von Roboterdaten zu lösen, d. h. die Unterschiede, die sich aus unterschiedlichen Strukturen, Sensoren und Steuerungsmethoden verschiedener Roboter ergeben.

Um dieses Problem zu lösen, verwendet Qwen-RobotManip einen Ausrichtungsmechanismus für Darstellung, Aktion und Verhalten, der es Entwicklern ermöglicht, die Übertragung von Fähigkeiten zwischen verschiedenen Robotern einfacher zu realisieren. Das Modell wurde auf einem Datensatz trainiert, der 38.000 Videos, Roboterdaten und synthetische Daten umfasst.
Qwen-RobotWorld ist ein Weltmodell, das auf der Grundlage von Echtzeitbeobachtungen und Textanweisungen die Entwicklungstrends der physischen Umgebung „vorhersagen" kann. Das Modell kann für verschiedene Szenarien zukünftige visuelle Trajektorien generieren.

Derzeit sind alle Modelle der Suite als Open Source verfügbar und Demovideos können auf der offiziellen Seite eingesehen werden.
Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









