de.wedoany.com-Bericht: Das chinesische Robotikunternehmen X Square Robot treibt humanoide Roboter in Richtung komplexerer Anwendungsszenarien voran. Das Kernziel besteht darin, Roboter in der Lage zu versetzen, in realen, chaotischen und unvorhersehbaren menschlichen Lebens- und Arbeitsumgebungen autonom zu operieren.

Der Gründer und CEO des Unternehmens, Wang Qian, erklärte, dass die Hardware-Grundlagen der Robotikbranche im Wesentlichen bereits vorhanden seien. Humanoide Bewegungen, geschickte Hände und Kraftregelungssysteme hätten rasche Fortschritte erzielt. Die eigentliche Engstelle liege in der Intelligenz. Um diese Lücke zu schließen, hat X Square Robot in den letzten Wochen drei Technologien als Open Source veröffentlicht: das Vision-Language-Action-Modell Wall-OSS-0.5, das World-Action-Modell WALL-WM zum Verständnis physikalischer Ereignisse sowie das roboterfreie Datenerfassungs- und Trainingsframework XRZero-G0.
Wall-OSS-0.5 geht direkt der Frage nach, ob Vortraining Robotern nützliche Fähigkeiten vermitteln kann. Anders als bei der Bewertung nach Feinabstimmung modifizierter Modelle setzte das Unternehmen das vortrainierte Modell direkt auf physischen Robotern ein und testete es in 17 realen Aufgaben. Das System zeigte Zero-Shot-Leistung bei Objektsortierung, Stapeln von Ringen und der Handhabung verformbarer Objekte. Das Modell verwendet ein „Gradient Bridging"-Trainingsframework, das Roboteraktionen in Aktions-Tokens umwandelt, die während des Vortrainings gemeinsam mit Sprach- und visuellen Repräsentationen erlernt werden. Dies ermöglicht die koevolutionäre Entwicklung von Wahrnehmung, Sprachverständnis und Aktionsgenerierung in einem einheitlichen Modell. Das Unternehmen stellte fest, dass Aktionstraining nicht nur die Manipulationsfähigkeit verbesserte, sondern auch die visuelle Grounding-Leistung steigerte, was darauf hindeutet, dass physische Interaktion das Weltverständnis des Modells verbessern kann.
WALL-WM zielt darauf ab, das Problem zu lösen, dass die meisten VLA-Systeme nur Aktionsverläufe lernen, ohne die physikalischen Kausalzusammenhänge wirklich zu verstehen. Das Modell verlagert das Lernen von festen Aktionssequenzen hin zu sinnvollen physikalischen Ereignissen wie Greifen, Heben und Platzieren. Anders als herkömmliche Architekturen richtet WALL-WM visuelle Beobachtungen, Sprachbeschreibungen und Aktionen an realen Welt-Ereignissen aus. Ziel ist es, Roboter nicht nur zum Handeln zu befähigen, sondern auch Ergebnisse vorherzusagen, physikalische Veränderungen zu erschließen und bei Planungsfehlern anzupassen.
Um den Datenengpass der Embodied Intelligence zu adressieren, hat X Square Robot das Software-Hardware-Framework XRZero-G0 eingeführt. Das System kombiniert tragbare Schnittstellen, Multi-Perspektiven-Sensorik, automatisierte Qualitätsprüfung und reale Roboter-Verifikation für roboterfreie Datenerfassung und Training. Durch kontrollierte Experimente fand das Unternehmen heraus, dass die Kombination von zehn roboterfreien Demonstrationen mit einer realen Roboter-Demonstration eine Leistung erreicht, die mit einem vollständig aus realen Roboter-Daten aufgebauten Datensatz vergleichbar ist. Das Unternehmen veröffentlichte außerdem über 2000 Stunden multimodale Daten, die rund 3000 Aufgaben abdecken, um die Embodied-Intelligence-Forschung zu unterstützen.
Diese drei Open-Source-Technologien bilden gemeinsam ein Full-Stack-Framework, das Daten, Weltmodelle und grundlegende Robotermodelle umfasst. Wang Qian glaubt, dass der „Aha-Moment" der Embodied Intelligence näher sein könnte, als viele denken.
Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









