Die SLAM-Technologie (Simultaneous Localization and Mapping) ist entscheidend für Roboter, die Such- und Rettungsmissionen durchführen oder sich in komplexen Umgebungen bewegen. Herkömmliche Methoden sind jedoch bei der Verarbeitung großer Bildmengen ineffizient, was den Einsatz von Robotern in realen Katastrophenszenarien einschränkt. Forscher des MIT haben ein neues System entwickelt, das durch das Zusammenfügen von Szenen-Teilkarten eine schnelle 3D-Rekonstruktion und Echtzeit-Lokalisierung ermöglicht und somit eine effizientere Lösung für die Roboternavigation bietet.

Dieses System nutzt klassische Computer Vision und modernste KI-Modelle, um komplexe Szenen in mehrere Teilkarten zu zerlegen. Diese werden anschließend durch mathematische Transformationen ausgerichtet und zu einer vollständigen 3D-Karte zusammengefügt. Im Gegensatz zu herkömmlichen Methoden, die auf kalibrierte Kameras oder manuelle Justierungen angewiesen sind, benötigt das neue System lediglich Bilder der Bordkamera des Roboters, um innerhalb von Sekunden präzise 3D-Rekonstruktionen zu erstellen und gleichzeitig die Position des Roboters in Echtzeit zu bestimmen. Beispielsweise rekonstruierte das System in einem Test einer Büroszene mit acht Teilkarten erfolgreich ein 3D-Modell eines 55 Meter langen Kreises mit einem durchschnittlichen Fehler von unter 5 Zentimetern.
„Wir haben lernbasierte Methoden mit traditionellen Optimierungstechniken kombiniert, um ein flexibles und effizientes mathematisches Werkzeug zu entwickeln, das Deformationsprobleme in Teilgraphen lösen kann“, so Luca Caron, Leiter des Forschungsteams. Dieser Durchbruch verbessert nicht nur die Zuverlässigkeit der Roboternavigation, sondern senkt auch die Hürde für die praktische Anwendung. Das System benötigt keine spezielle Ausrüstung; es kann komplexe Szenen (wie beispielsweise das Innere einer Kirche) anhand kurzer, mit einem Mobiltelefon aufgenommener Videos rekonstruieren und bietet damit technische Unterstützung für Anwendungen im Bereich Extended Reality (XR), die Lagerverwaltung mit Industrierobotern und weitere Anwendungsszenarien.
„Standardwerkzeuge erleichtern die 3D-Rekonstruktion“, betonte Dominic Maggio, Erstautor der Studie. „Zukünftig werden wir die Systemleistung in extrem komplexen Umgebungen optimieren und den Einsatz in realen Robotern vorantreiben.“ Die Ergebnisse wurden auf dem Preprint-Server arXiv veröffentlicht und werden auf der Konferenz „Neural Information Processing Systems“ vorgestellt.
Weitere Informationen: Dominic Maggio et al., „VGGT-SLAM: Dense RGB SLAM Based on SL(4) Manifold Optimization“, arXiv (2025). Zeitschrifteninformationen: arXiv

















京公网安备 11010802043282号