de.wedoany.com-Bericht: Am 16. Juni veröffentlichte Alibaba die Qwen-Reihe verkörperter KI-Großmodelle, die Qwen-Robot-Serie, bestehend aus drei Modellen: dem VLA-Operationsmodell Qwen-RobotManip, dem VLN-Navigationsmodell Qwen-RobotNav und dem Weltmodell Qwen-RobotWorld. Dies ist die erste vollständige Serie verkörperter KI-Modelle der Qwen-Familie, die sich auf Roboteroperationen, mobile Navigation und Umweltverständnis konzentriert. Die Modelle können einzeln eingesetzt oder gemeinsam betrieben werden und bieten eine universelle Modellbasis für verschiedene Roboterformen, um in reale Szenarien einzutreten.
Der Schlüssel zur verkörperten KI liegt darin, dass KI nicht nur Text, Bilder und Videos verstehen und generieren kann, sondern auch mit der physischen Welt interagiert. Damit Roboter in realen Umgebungen arbeiten können, müssen sie gleichzeitig mehrere Fähigkeiten ausführen, wie „Objekte sehen, Aufgaben verstehen, Wege planen, Aktionen steuern und Ergebnisse bewerten". Die Qwen-Robot-Serie unterteilt Operation, Navigation und Weltmodellierung in drei Modellrichtungen. Dies zeigt, dass Alibaba die Fähigkeiten des universellen Großmodells auf die Aktionskette von Robotern ausweiten möchte, anstatt nur auf Dialog- oder visuelle Erkennungsebene zu bleiben.
Qwen-RobotManip ist ein VLA-Operationsmodell. VLA steht für Vision-Language-Action-Modell und konzentriert sich auf das „Hand"-Problem des Roboters. Wenn ein Roboter mit Objekten auf dem Tisch, Werkzeugen, Teilen oder Alltagsgegenständen konfrontiert wird, muss er Ziele erkennen, Anweisungen verstehen und ausführbare Aktionen wie Greifen, Bewegen, Platzieren, Öffnen/Schließen und Ordnen generieren. Die traditionelle Robotersteuerung ist auf feste Programme und strukturierte Umgebungen angewiesen. Sobald sich die Objektposition, der Hintergrund, die Beleuchtung oder die Aufgabenbeschreibung ändert, sinkt die Generalisierungsfähigkeit leicht. Der Wert des VLA-Modells liegt darin, visuelle Wahrnehmung, Sprachbefehle und Aktionssteuerung in einem einzigen Rahmen zu vereinen, sodass der Roboter auf der Grundlage natürlicher Sprache und Echtzeit-Szenenbilder Aktionsstrategien generieren kann.
Qwen-RobotNav ist ein VLN-Navigationsmodell. VLN steht für Vision-Language-Navigation-Modell und konzentriert sich auf das „Fuß"-Problem des Roboters. Wenn Serviceroboter, Inspektionsroboter, vierbeinige Roboter und mobile Plattformen in Bürogebäude, Fabriken, Lagerhäuser, Parks oder häusliche Umgebungen eintreten, müssen sie verstehen, „wohin sie gehen, wie sie dorthin gelangen, was sie umgehen müssen und was sie nach der Ankunft tun müssen". Mobile Navigation umfasst nicht nur die Wegplanung, sondern auch das räumliche semantische Verständnis, die Hindernisvermeidung, die Befolgung mehrerer Anweisungen und die Bestätigung des Aufgabenortes. Das VLN-Modell ermöglicht es Robotern, Sprachziele mit der visuellen Umgebung zu verknüpfen, um so in komplexeren offenen Umgebungen Navigationsaufgaben auszuführen.
Qwen-RobotWorld übernimmt die Rolle des Weltmodells und konzentriert sich auf das „Gehirn"-Problem des Roboters. Das Weltmodell dient dem Verständnis von Objektbeziehungen, räumlichen Strukturen, Aktionsfolgen und Umweltveränderungen und hilft Robotern, vor der Ausführung Vorhersagen zu treffen und zu planen. Wenn ein Roboter nur einzelne Schritte auf Befehl ausführen kann, hat er Schwierigkeiten, mit unerwarteten Situationen in der realen Welt umzugehen. Das Weltmodell ermöglicht es dem System, abzuschätzen, „was passiert, wenn dies getan wird", und die Strategie während der Aufgabe anzupassen. Für industrielle, logistische, kommerzielle Dienstleistungs- und Haushaltsdienstleistungsszenarien ist diese Fähigkeit entscheidend dafür, ob ein Roboter von Demonstrationsaufgaben zu kontinuierlichen Arbeitsabläufen übergehen kann.
Alibaba hat zuvor bereits auf dem Gebiet des Qwen-VLA geforscht. Offizielle technische Unterlagen zu Qwen-VLA zeigen, dass dieses Modell Operation, Navigation und Trajektorienvorhersage in einen einheitlichen Rahmen für Aktionen und Trajektorienvorhersage integriert und durch verkörperte Wahrnehmungshinweise an verschiedene Roboterplattformen anpasst. Die entsprechende Forschung betont, dass ein einheitliches Modell mehrere verkörperte Plattformen bedienen kann, ohne dass für jede Plattform ein separater Ausgangskopf entworfen werden muss. Mit der Veröffentlichung der Qwen-Robot-Serie hat sich der Weg der verkörperten KI von Qwen von einem Forschungsrahmen weiter zu einem produktorientierten Modellsystem entwickelt.
Aus industrieller Perspektive erfolgt die Veröffentlichung der Qwen-Robot-Serie vor dem Hintergrund der beschleunigten Implementierung von humanoiden Robotern, mobilen Robotern und industriellen Intelligenzkörpern. Roboterunternehmen stehen allgemein vor einem Problem: Die Hardware selbst macht relativ schnelle Fortschritte, aber die Fähigkeiten für allgemeine Aufgaben, die Szenengeneralisierung und der Datenkreislauf bleiben Engpässe. Die Sensoren, Gelenke, Aktuatoren und Steuerungsmethoden verschiedener Roboterformen unterscheiden sich stark. Wenn jedes Produkt sein Modell von Grund auf neu trainieren müsste, wären die Kosten hoch, die Zyklen lang und es wäre schwierig, plattformübergreifende Fähigkeiten zu verankern. Das Ziel des verkörperten KI-Großmodells ist es, verschiedenen Robotern wiederverwendbare Fähigkeiten in den Bereichen Wahrnehmung, Verständnis, Planung und Aktionsgenerierung zu bieten.
Für Alibaba schließt die Qwen-Robot-Serie auch eine Lücke im Qwen-Großmodell von Sprache, Multimodalität und Agenten bis hin zur Interaktion mit der physischen Welt. Universelle Großmodelle bewegen sich von der Ausführung von Online-Aufgaben zur Ausführung in realen Szenarien, während Roboter stärkere Fähigkeiten zum Aufgabenverständnis und zur Aktionsplanung durch Großmodelle benötigen. Ob das verkörperte Modell in Zukunft wirklich implementiert werden kann, hängt noch von den Hardwareschnittstellen der Roboter, dem Umfang der Trainingsdaten, dem Transfer zwischen Simulation und realer Umgebung, den Sicherheitsgrenzen der Aktionen und der Anpassung an Branchenszenarien ab. Die Modellveröffentlichung ist nur der Anfang; die Ergebnisse der anschließenden Validierung in Lagerhaltung, Inspektion, Fertigung, kommerziellen Dienstleistungen und häuslichen Dienstleistungen werden ihren industriellen Wert bestimmen.
Die Bedeutung der Qwen-Robot-Serie liegt darin, dass Alibaba beginnt, mit einer vollständigen Modellkombination in die Kernbereiche der verkörperten KI einzusteigen. VLA löst die Operation, VLN die Navigation und das Weltmodell das Umweltverständnis und die Planung. Wenn diese drei zusammenwirken, haben Roboter die Chance, von der Ausführung einzelner Fähigkeiten zur Bearbeitung mehrstufiger Aufgaben überzugehen. Während die verkörperte KI vom Labor in reale Arbeitsumgebungen vordringt, werden die universelle Modellbasis, die Hardware-Anpassungsfähigkeit und der Szenendatenkreislauf zu den entscheidenden Variablen im Wettbewerb der Roboterindustrie.
Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









