Ohio State University entwickelt RoboSpatial-Datensatz zur Verbesserung des räumlichen Vorstellungsvermögens von Robotern
2025-11-15 14:50
Quelle:Ohio State University
Merken

Um Maschinen bei der Verbesserung ihrer visuellen Wahrnehmung zu unterstützen und ihnen so das Verständnis der Welt zu erleichtern, haben Forscher den neuen Trainingsdatensatz RoboSpatial entwickelt. Dieser soll das räumliche Vorstellungsvermögen von Robotern verbessern. In einer neuen Studie schnitten Roboter, die mit dem RoboSpatial-Datensatz trainiert wurden, bei derselben Aufgabe besser ab als Roboter, die mit einem Basismodell trainiert wurden. Sie demonstrierten ein komplexes Verständnis räumlicher Beziehungen und die Fähigkeit, physische Objekte zu manipulieren.

Die menschliche visuelle Wahrnehmung prägt unsere Interaktion mit der Umwelt. Roboter konnten ihre Fähigkeiten in diesem Bereich bisher jedoch nur begrenzt verbessern, da es an Daten zum komplexen räumlichen Verständnis mangelte. Luke Song, Doktorand am Fachbereich Ingenieurwesen der Ohio State University, betont, dass ein tiefes räumliches Verständnis für intuitive Interaktion unerlässlich ist und ungelöste Herausforderungen im räumlichen Denken die Fähigkeit zukünftiger KI-Systeme beeinträchtigen werden, komplexe Anweisungen zu verstehen und in dynamischen Umgebungen zu agieren. „Um ein wirklich universelles Basismodell zu haben, müssen Roboter die dreidimensionale Welt um sich herum verstehen“, sagt er. „Räumliches Verständnis ist eine der wichtigsten Fähigkeiten für Roboter.“ Der RoboSpatial-Datensatz enthält über eine Million realer Innen- und Desktop-Bilder, Tausende detaillierter 3D-Scans und drei Millionen Labels mit umfangreichen räumlichen Informationen, die für Roboter relevant sind. Mithilfe dieser Ressourcen kombiniert das Framework 2D-Bilder aus der Ich-Perspektive mit vollständigen 3D-Scans derselben Szene. Dadurch lernt das Modell, Objekte mithilfe von planarer Bilderkennung oder 3D-Geometrie präzise zu lokalisieren. Im Vergleich zu bestehenden Trainingsdatensätzen testet RoboSpatial die Fähigkeiten zum räumlichen Denken anhand realer Roboteraufgaben. Zunächst wird die Umordnung von Objekten demonstriert, anschließend wird die Generalisierungsfähigkeit des Modells in neuen Szenarien des räumlichen Denkens geprüft.

Eines der Testsysteme des Teams, der Kinova-Jaco-Roboter, dient als Assistenzarm, um Menschen mit Behinderungen die Interaktion mit ihrer Umgebung zu erleichtern. Während des Trainings beantwortete er einfache räumliche Fragen korrekt, wie zum Beispiel: „Kann der Stuhl vor den Tisch gestellt werden?“ oder: „Steht die Tasse links vom Laptop?“ Luke Song erklärte, dass diese Ergebnisse zeigen, dass durch die Verbesserung der Wahrnehmungsfähigkeiten des Roboters und die Regulierung der räumlichen Umgebung sicherere und zuverlässigere KI-Systeme realisiert werden können. Obwohl in Bezug auf die Entwicklung und das Training von KI noch viele Fragen offen sind, hat RoboSpatial das Potenzial, die Grundlage für breitere Anwendungen in der Robotik zu bilden und zu weiteren spannenden Fortschritten in der räumlichen Technologie zu führen.

Weitere Informationen: Chan Hee Song et al., „RoboSpatial: Teaching Spatial Understanding for 2D and 3D Visual Language Models in Robotics“, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2025 (2025).

Diese Kurznachricht stammt aus der Übersetzung und Weiterverbreitung von Informationen aus dem globalen Internet und von strategischen Partnern. Sie dient lediglich dem Austausch mit den Lesern. Bei Urheberrechtsverletzungen oder anderen Problemen bitten wir um rechtzeitige Mitteilung, und wir werden die notwendigen Änderungen oder Löschungen vornehmen. Die Weitergabe dieses Artikels ist ausdrücklich ohne formelle Genehmigung verboten.E-Mail: news@wedoany.com