NTT stellt multimodales erklärbares KI-Rahmenwerk für Reasoning vor – visuelle Sprachmodelle erreichen Phase der vertrauenswürdigen Ausgabekalibrierung
2026-06-02 16:46
Merken

de.wedoany.com-Bericht: Die japanische NTT hat kürzlich die Einführung des multimodalen erklärbaren KI-Rahmenwerks „Rationale-Enhanced Decoding" bekannt gegeben. Es adressiert das Problem vertrauenswürdiger Ausgaben großer visueller Sprachmodelle bei der gemeinsamen Bild-Text-Inferenz und verbessert die Konsistenz zwischen der endgültigen Antwort des Modells und den zugrunde liegenden Begründungen. Die Ergebnisse werden vom 3. bis 7. Juni auf der CVPR 2026 in Denver, USA, präsentiert. Die Anwendungsrichtungen umfassen Szenarien wie Unternehmensentscheidungen, KI-Agentenkooperation, Dokumentenverständnis, visuelle Fragebeantwortung und hochzuverlässige Mensch-Maschine-Interaktion.

Große visuelle Sprachmodelle entwickeln sich von der reinen „Bildbeantwortung" hin zu komplexeren multimodalen Reasoning-Fähigkeiten. Sie können gleichzeitig Bilder, Texte, Tabellen, Bildschirmfotos, Videoclips und Geschäftsdokumente verarbeiten und befinden sich in Bereichen wie Industrieinspektion, medizinische Bildgebung, Vertragsprüfung, Fernwartung, intelligenter Kundenbetreuung und Unternehmenswissensmanagement zunehmend in der Test- und Einführungsphase. Ein zentrales Problem dieser Modelle ist jedoch, dass der generierte Zwischen-Reasoning-Prozess nicht zwangsläufig die endgültige Antwort beeinflusst. NTT weist in seiner Forschung darauf hin, dass traditionelle multimodale Chain-of-Thought-Methoden zunächst Erklärungen oder Begründungen generieren und diese dann zusammen mit dem Originalbild in das Modell einspeisen, um die endgültige Antwort zu erzeugen. Oberflächlich betrachtet liefert das Modell einen „Grund", aber die tatsächliche Ausgabe kann sich dennoch hauptsächlich auf Bildmerkmale stützen. Selbst wenn die Begründung durch irrelevante Inhalte ersetzt wird, gibt das Modell möglicherweise die ursprüngliche Antwort. Dies bedeutet, dass die sogenannte Erklärung lediglich ein zusätzlicher Text sein könnte, der nicht belegt, dass das Modell die Entscheidung tatsächlich auf Grundlage dieser Erklärung getroffen hat. Für Unternehmens-KI-Systeme, die Prüfung, Rechenschaftspflicht und Überprüfung erfordern, untergräbt dies die Vertrauenswürdigkeit multimodaler KI in kritischen Geschäftsprozessen und schränkt den Einsatz visueller Sprachmodelle in hochzuverlässigen Szenarien wie medizinischer Diagnose, Finanzrisikomanagement, Fertigungsqualitätskontrolle und komplexen Büroabläufen ein.

Der von NTT vorgeschlagene Ansatz erfordert kein erneutes Training des Modells und keine zusätzlichen Datensätze, sondern reorganisiert die Art der Ausgabeerzeugung während der Inferenzphase.

Das Rahmenwerk bildet für die visuelle Eingabe und die Begründung jeweils bedingte Verteilungen und führt dann die nächste Wortvorhersage durch eine Kombination dieser Verteilungen durch. Dadurch wird das Modell bei der Generierung der Antwort gleichzeitig durch die Bildinformationen und die Begründungsinformationen eingeschränkt. Mit anderen Worten: Die endgültige Antwort muss sowohl mit dem visuellen Inhalt als auch mit der Begründung konsistent sein, anstatt den Erklärungstext als optionalen Anhang zu behandeln. NTT beschreibt diese Methode als eine Plug-and-Play-Dekodierungstechnik, die in bestehende große visuelle Sprachmodelle integriert werden kann, um die Kosten für Rechenleistung, Daten und Bereitstellung durch zusätzliches Training zu senken. Die Forschungsergebnisse zeigen, dass diese Methode die Antwortgenauigkeit und die Treue der Begründung bei verschiedenen visuellen Sprachmodellen verbessern kann. Wenn qualitativ hochwertigere Begründungen eingegeben werden, wird die Wirkung des Rahmenwerks weiter verstärkt. Für die unternehmerische KI-Implementierung liegt der Wert dieser technologischen Route darin, von „das Modell kann antworten" zu „die Antwort des Modells kann erklärt, verifiziert und überprüft werden" überzugehen. Dies bietet eine stabilere Reasoning-Basis für Multi-Agenten-Kooperation, komplexe Dokumentenverarbeitung, visuelle Szenenanalyse und unterstützte Entscheidungsfindung.

Die industrielle Bedeutung multimodaler erklärbarer KI nimmt zu. Da KI-Agenten von einzelnen Frage-Antwort-Runden zur kontinuierlichen Ausführung von Aufgaben übergehen, geben Systeme wiederholt Bewertungsergebnisse zwischen Bilderkennung, Dokumentenverständnis, Abruf, Planung und Tool-Aufrufen weiter. Sobald die vom frontalen visuellen Sprachmodell gelieferte Begründung von der Antwort abweicht, kann die nachfolgende Agentenkette auf fehlerhaften Grundlagen weiter aufbauen. Die Ergebnisse von NTT konzentrieren sich auf die grundlegende Frage, „ob die Begründung tatsächlich an der Antwortgenerierung beteiligt ist", und tragen so dazu bei, die Informationsvertrauenswürdigkeit bei der Zusammenarbeit zwischen KI-Systemen zu erhöhen. Wenn sich das Rahmenwerk in Zukunft bei mehr Modellen, mehr Aufgaben und realen Geschäftsdaten als stabil erweist, könnte es in die Reasoning-Ebene von Unternehmens-KI-Plattformen, intelligenten Bürosystemen, branchenspezifischen großen Modellen und hochzuverlässigen visuellen Analysetools Einzug halten und zu einer wichtigen technologischen Komponente für den Übergang multimodaler KI von der Demonstration zur Produktionsbereitstellung werden.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com

Empfehlungen in Verbindung damit
Fibocom präsentiert auf der Computex ClawBox: KI-Endgeräte für lokale Verarbeitung
2026-06-02
Hakusan investiert 5 Milliarden Yen in zweites Werk, Ausbau der Glasfasersteckverbinder-Versorgung für KI-Rechenzentren
2026-06-02
Huawei aus China und MTN Sambia führen gemeinsam das Fünfband-LampSite für den kommerziellen Einsatz ein – Innenraum-5G geht von der Schließung von Funklöchern zur Gigabit-Erfahrung
2026-06-02
Array verkauft Verizon Spektrum-Assets im Wert von 1 Milliarde US-Dollar – Neuordnung der drahtlosen Netzressourcen schreitet voran
2026-06-02
Niobium aus den USA eröffnet The Fog Partnerprogramm: Cloud für vollständig homomorphe Verschlüsselung in der Entwicklertestphase
2026-06-02
ZPE Systems, eine Tochtergesellschaft von Legrand aus Frankreich, stellt den NSR 2U vor: Edge-Netzwerkgeräte auf dem Weg zu KI-Beschleunigung und integrierter Betriebsführung
2026-06-02
Bell investiert 25 Millionen US-Dollar in 5G+ Advanced-Netzwerkausbau – Großveranstaltungen treten in die Netzwerk-Slicing-Erprobungsphase ein
2026-06-02
Keysight Technologies erhält Hybrid-eCall-Zertifizierung: Notfallkommunikation im vernetzten Fahrzeug auf dem Weg zu 4G/5G-Hybridnetzen
2026-06-02
NTT stellt multimodales erklärbares KI-Rahmenwerk für Reasoning vor – visuelle Sprachmodelle erreichen Phase der vertrauenswürdigen Ausgabekalibrierung
2026-06-02
Hyland bringt Enterprise-Agenten-Kontrollplattform auf den Markt: Content-Management-Software wendet sich produktionsreifer KI-Governance zu
2026-06-02