de.wedoany.com-Bericht: Nvidia hat eine Reihe neuer Softwarekomponenten und wiederverwendbarer Workflows für visuelle KI-Agenten vorgestellt, die die Entwicklung, Simulation und Bereitstellung von Modellen in Edge- und Cloud-Umgebungen unterstützen sollen.
Das Toolkit mit dem Namen Metropolis Agent Skills and Blueprints umfasst Workflows für die Generierung synthetischer Daten, die Anreicherung von Videodaten, die Feinabstimmung von Modellen sowie die Videosuche und -zusammenfassung. Entwickler können diese Workflows mit der auf OpenUSD basierenden Omniverse-Plattform für Simulationen und digitale Zwillinge sowie der Metropolis-Plattform zum Erstellen und Ausführen von Video-KI-Anwendungen kombinieren.
Visuelle KI-Agenten werden in Fabriken, Lagern, Verkehrsnetzen und städtischer Infrastruktur eingesetzt, wo Betreiber Kamerabilder in automatische Warnmeldungen, Berichte und Prozessüberwachung umwandeln möchten. Nvidia positioniert die neue Software als Antwort auf ein häufiges Edge-Computing-Problem: In der Nähe von Kameras und Sensoren fallen große Datenmengen an, von denen jedoch die meisten nie in konkrete Aktionen umgesetzt werden.
Nvidia nennt drei Haupthindernisse, mit denen Organisationen beim Aufbau solcher Systeme konfrontiert sind: Mangel an repräsentativen Trainingsdaten, insbesondere für seltene Defekte oder anomale Ereignisse; der erforderliche Fachaufwand für die Feinabstimmung von Modellen nach Leistungslücken; sowie der technische Aufwand für die Integration von Videopipelines, Modellen, Metadaten, Suche, Warnmeldungen und Systemintegration in funktionsfähige Anwendungen.
Im Fertigungsbereich helfen synthetische Daten, das Problem unzureichender realer Defektbilder zu lösen. Nvidia verweist auf die Arbeit von Roboflow, das die Defektbild-Generierungsfähigkeiten von Nvidia und das Cosmos-Weltbasis-Modell in seine Plattform integriert, um Kunden wie Corning zu bedienen. Laut Nvidia ergab ein Benchmark-Test mit dem Fertigungsteam für Glasfaserkabel von Corning, dass ein Modell, das mit acht realen Defektbildern und synthetischen Daten aus der Defektbild-Generierungsfähigkeit trainiert wurde, bei der schwierigsten Defektkategorie eine durchschnittliche Präzision von 95 % und eine perfekte Trefferquote erzielte. Das Modell übertraf das nur mit realen Daten trainierte Basismodell und verkürzte ein ursprünglich auf mehrere Quartale geschätztes Projekt auf wenige Tage. Dieses Beispiel verdeutlicht den primären kommerziellen Wert synthetischer Daten in der industriellen Inspektion. Produktionslinien, die die meisten Defekte verhindern können, haben möglicherweise Schwierigkeiten, genügend Fehlerfälle zu sammeln, um die nächste Generation von Inspektionssystemen zu trainieren, was dazu führt, dass Modelle bei der Erkennung seltener, aber wichtiger Anomalien schwächeln.
Im Bereich der Stadtverwaltung sieht Nvidia einen Markt für vernetzte Video-Workflows. Linker Vision nutzt die Metropolis-Videosuch- und -zusammenfassungs-Blaupausen von Nvidia, um Video-Inferenz-Agenten in der städtischen Infrastruktur einzusetzen, während gleichzeitig der auf OpenUSD basierende Omniverse-Digitalzwilling zur Simulation von Verkehr, Wetter, Notfällen und Infrastrukturänderungen verwendet wird. Das System bündelt Aufgaben wie Suche, Zusammenfassung, Warnmeldungen, Berichte und Stream-Management in ausführbare Workflows für Agenten. Linker Vision verwendet außerdem Nvidia Cosmos zur Videodatenanreicherung und Nvidia TAO zur Modellfeinabstimmung. In Kaohsiung, so Nvidia, habe Linker Vision durch die Verwendung der Videosuch- und -zusammenfassungs-Blaupausen den Entwicklungsaufwand um 85 % reduziert und die Reaktionszeit auf Ereignisse um bis zu 80 % verkürzt. Das Unternehmen fügte hinzu, dass die neuere AI-GRID-Erweiterung der Gruppe die NemoClaw-Blaupause für sichere KI-Agenten in städtischen und Verkehrsumgebungen enthalte.
Im Bereich der Fabrikabläufe stammt ein weiteres Beispiel aus der Überwachung industrieller Workflows. Laut Nvidia verwendet der von Foxconn eingesetzte DeepHow-Echtzeit-Standardarbeitsanweisungs-Validierungsagent die Metropolis-Videosuch- und -zusammenfassungs-Blaupausen, um Videos in der Betriebsumgebung zu durchsuchen, zusammenzufassen und zu analysieren. Ziel ist es, zu bewerten, ob Arbeiten korrekt ausgeführt werden, Aktionen mit Standardverfahren zu vergleichen und Probleme zu identifizieren, bevor Fehler an nachgelagerte Stellen weitergegeben werden. Nvidia gibt an, dass Cosmos dem System hilft, menschliche Aktionssequenzen im Kontext zu interpretieren, einschließlich der Beurteilung, ob Montageschritte in der richtigen Reihenfolge ausgeführt werden. Laut Nvidia habe das DeepHow-System in der Nvidia GB300-Serverproduktionslinie die Erstausbeute um 3 % verbessert, eine Aufgabenebenen-Genauigkeit von 99 % beim Verständnis kritischer Verfahrensschritte erreicht und durch die frühzeitige Erkennung von Problemen im Prozess redundante Arbeiten reduziert.
Der breitere Markthintergrund dieser Veröffentlichung ist die Verlagerung der KI-Verarbeitung an den Rand, wo Daten entstehen, anstatt sie an eine zentrale Infrastruktur zurückzusenden. Nvidia zitiert eine Prognose von Gartner, wonach bis 2028 mehr als zwei Drittel der von Unternehmen verwalteten Daten außerhalb von Rechenzentren oder der Cloud erstellt und verarbeitet werden, und bis 2029 weltweit mehr als zwei Drittel der Unternehmen Edge-KI einsetzen werden, verglichen mit nur 10 % im Jahr 2025. Dennoch führen mehr Edge-Daten nicht automatisch zu nützlicheren Erkenntnissen. Modelle, die in der Nähe von Kameras und Maschinen laufen, müssen unter den Einschränkungen von Latenz, Stromverbrauch, Kosten und Konnektivität arbeiten und sich gleichzeitig an die Bedingungen jedes Standorts anpassen. OpenUSD steht im Zentrum von Nvidias Lösungsansatz, da es eine universelle Möglichkeit bietet, 3D-Szenen zu beschreiben und wiederzuverwenden. Die Omniverse-Bibliothek hilft Teams beim Aufbau von Workflows für Simulationen, synthetische Daten und digitale Zwillinge, um Tests unter verschiedenen Bedingungen wie Lichtverhältnissen, Wetter, Verkehrsmustern, Kamerawinkeln, Verdeckungen und seltenen Ereignissen zu skalieren.
Das neue Kit umfasst die Defektbild-Generierungsfähigkeit, die Videodaten-Anreicherungsfähigkeit, die TAO-Fähigkeit zur Modellfeinabstimmung sowie die Videosuch- und -zusammenfassungs-Fähigkeit für Warnmeldungen, Berichte und Stream-Management. Ziel ist es, Entwicklern zu ersparen, bei jeder Bereitstellung jeden Teil des Workflows von Grund auf neu aufzubauen. Diese wiederverwendbaren Workflows sollen Entwicklern helfen, Daten zu generieren, Modelle zu verbessern und visuelle KI-Agenten in der Industrie, im Verkehr und in der Stadtverwaltung einzusetzen.









