de.wedoany.com-Bericht: NVIDIA und das Beijing Institute of Artificial Intelligence (BAAI) haben kürzlich zeitgleich Signale ausgesendet: KI bewegt sich von der digitalen in die physische Welt, wobei Daten, Weltmodelle und Simulationen zu den zentralen Treibern dieses Prozesses werden. NVIDIA-CEO Jensen Huang wies auf der Jahreshauptversammlung am 25. Juni 2026 darauf hin, dass KI-Rechenzentren Fabriken zur „Herstellung von Tokens" seien, wobei jeder Token in Code, Antworten, Designs, Aktionen und Dienstleistungen umgewandelt werden könne. Kunden kauften nicht nur Server, sondern KI-Fabriken, die Einnahmen generieren. Er betonte, dass physische KI die nächste Wachstumswelle sei und Roboter, Autos und Fabriken zu intelligenten Agenten in der realen Welt würden. NVIDIA werde Modelle in KI-Fabriken trainieren, mit Omniverse simulieren und dann über Plattformen wie Jetson auf physische Geräte ausrollen. Fast zeitgleich erklärte das BAAI Weltmodelle zu einer wichtigen Konsensrichtung hin zur allgemeinen Künstlichen Intelligenz (AGI) und schlug vor, vom „Vorhersagen des nächsten Wortes" zum „Vorhersagen des nächsten Zustands der Welt" überzugehen.
Der Kern von Weltmodellen besteht darin, KI die Fähigkeit zu geben, die Zeit, den Raum und die physikalischen Gesetze der physischen Welt wahrzunehmen, zu verstehen und zu schlussfolgern, wobei sie alle Modalitäten von Daten abdeckt und über aktive Interaktionsfähigkeiten verfügt. Die Stanford-Professorin Fei-Fei Li wies darauf hin, dass räumliche Intelligenz die Fähigkeit von Maschinen sei, im 3D-Raum und in der Zeit wahrzunehmen, zu schlussfolgern und zu handeln. Ihr gegründetes Unternehmen World Labs hat kürzlich eine Finanzierungsrunde in Höhe von 1 Milliarde US-Dollar abgeschlossen und wird mit 5 Milliarden US-Dollar bewertet. Fei-Fei Li urteilt: Große Modelle lehren Maschinen das Lesen und Schreiben, räumliche Intelligenz lehrt Maschinen das Beobachten und Bauen.
Der globale Markt für Weltmodelle wird schnell überfüllt, wobei die Anwendungsbereiche vom autonomen Fahren im Freien über städtische Außenräume bis hin zu Innenraumszenarien reichen. Im Bereich des autonomen Fahrens hat Momenta im April 2026 das R7-Weltmodell in Serie eingeführt, das auf über 12 Milliarden Kilometern realer Fahrdaten basiert, um dem System die Vorhersage der Welt zu ermöglichen. Li Auto veröffentlichte MindVLA-o1 und definiert autonomes Fahren als Ausgangspunkt für physische KI. Im Bereich Innenraum und Haushalt veröffentlichte Ezviz das selbst entwickelte „Ezviz Xingchen Weltmodell"; sein KI-Wischroboter erstellt eine 3D-semantische Karte des Hauses, um die Bewegungen von Haustieren und Personen vorherzusagen. Daxiao Robotics veröffentlichte in Zusammenarbeit mit der CUHK Kairos-HomeWorld, das weltweit erste Weltmodell für die Generierung ganzer Häuser und die vollständige Interaktion mit Objekten, und veröffentlichte gleichzeitig einen Open-Source-Datensatz mit 300.000 Grundrissen realer chinesischer Wohnhäuser und 5.000 Simulationsszenarien. Im Bereich Architektur und BIM investierte der globale Designsoftware-Riese Autodesk strategisch in World Labs, um physische KI vom „Verstehen von Daten" zum „Verstehen von Architektur" zu führen. Das Team von Fei-Fei Li veröffentlichte im Juni 2026 die World Tracing-Technologie, die aus einem einzigen Gebäudefoto die vollständige 3D-Geometrie rekonstruieren kann. Im Bereich Außen- und Stadtraum veröffentlichte Amap im Juni 2026 das weltweit erste native 3D-Stadtweltmodell ABot-Earth0.5, das über 190 Länder und Regionen abdeckt. Mit Satellitenbildern als Eingabe kann es in nur 10 Minuten auf einer GPU der Verbraucherklasse kilometerweite 3D-Stadtszenen generieren, zu Kosten von nur einem Prozent der herkömmlichen Methoden. Baidu integrierte die Fähigkeiten von Weltmodellen in das ERNIE 5.0 und das Apollo-System für autonomes Fahren. Google DeepMind integrierte 280 Milliarden Street View-Bilder aus 110 Ländern weltweit in das Genie-Weltmodell, sodass Benutzer auf Basis realer Orte interaktive Umgebungen generieren können. Im Bereich der räumlichen Intelligenz für Innenräume gibt es international Mappedin – die weltweit größte Indoor-Kartenplattform, die mithilfe von KI- und LiDAR-Technologie Gebäudegrundrisse in dynamische 3D-Digitalkarten umwandelt und bereits über 10 Milliarden Quadratfuß Innenraum in 86 Ländern abdeckt; NavVis – ein 2013 gegründeter deutscher Anbieter von Lösungen für räumliche Intelligenz in Innenräumen, der Unternehmen wie Daimler und Huawei über mobile Scansysteme und digitale Zwillinge bedient; VergeSense – veröffentlichte ein Large Spatial Model (LSM), das auf über 200 Millionen Quadratfuß Büroverhaltensdaten basiert, die über acht Jahre gesammelt wurden, um menschliche Verhaltensmuster vorherzusagen; Vestella Labs – ein auf physische KI spezialisiertes Unternehmen für räumliche Intelligenz, dessen Kerntechnologie unstrukturierte räumliche Informationen (wie Bilder, PDFs, CAD-Zeichnungen) automatisch in KI-verständliche räumliche Daten umwandelt. In China gibt es Shuwei Tech, das durch Crowdsourcing vor Ort und automatische technische Annotation sowie kontinuierliche Aktualisierung über ein Jahrzehnt eine Datenbank für chinesische Innenrauminformationen aufgebaut hat. Es annotiert kontinuierlich und punktgenau städtische Räume, die für Fußgänger zugänglich sind, wie komplexe Innenräume, mit multimodalen Informationen wie visuellen Daten, Text und drahtlosen Fingerabdrücken, um schließlich groß angelegte multimodale Datensätze zu generieren.
Branchendaten zeigen, dass der chinesische Markt für verkörperte Intelligenz im Jahr 2025 etwa 915 Milliarden Yuan beträgt und voraussichtlich 2026 die Marke von 1.090,4 Milliarden Yuan überschreiten wird. Der globale Markt für Indoor-Positionierung und Navigation wird 2025 auf 16,9 Milliarden US-Dollar geschätzt und soll bis 2032 72,46 Milliarden US-Dollar erreichen, mit einer durchschnittlichen jährlichen Wachstumsrate von 23,11 %. Der globale BIM-Markt wird 2025 auf etwa 9,5 Milliarden US-Dollar geschätzt und soll bis 2036 32,5 Milliarden US-Dollar erreichen. Branchenführer haben erkannt, dass die ultimative Hürde für Weltmodelle in den Daten und nicht im Algorithmus liegt. 90 % des menschlichen Lebens, der Arbeit und des Konsums finden in Innenräumen statt. Ob verkörperte Roboter in Haushalte einziehen, intelligente Haushaltsgeräte die Wohnungsaufteilung verstehen oder Unternehmen offline Geschäftsentscheidungen treffen – räumliche Intelligenz für Innenräume ist eine unvermeidliche Kernkompetenz. Dies ist der wertvollste und am schwierigsten zu beschaffende Teil der Datenbasis für Weltmodelle.

Der Wettbewerb um Weltmodelle ist im Wesentlichen bereits ein Wettbewerb um die Datenbasis, und der Kern der Datenbasis sind reale, feinkörnige und kommerzialisierbare Innenraumdaten. Wenn Jensen Huang verkündet, dass physische KI die nächste Wachstumswelle ist, wenn Amap 3D-Städte rekonstruiert, Momenta Verkehrsbedingungen vorhersagt und Ezviz Robotern ermöglicht, das Zuhause zu „verstehen", dann fordert jede dieser Richtungen reale, präzise und skalierbare räumliche Daten. KI lernt, sich die physische Welt „vorzustellen", und was diese Vorstellung nicht von der Realität abweichen lässt und Weltmodelle wirklich nutzbar macht, sind die realen Bausteine der Welt – jeder Ziegelstein, jeder Mensch, jeder Ort, jeder Ein- und Ausgang.










