NTT stellt multimodales erklärbares KI-Rahmenwerk für Reasoning vor – visuelle Sprachmodelle erreichen Phase der vertrauenswürdigen Ausgabekalibrierung_Weltnachrichten

NTT stellt multimodales erklärbares KI-Rahmenwerk für Reasoning vor – visuelle Sprachmodelle erreichen Phase der vertrauenswürdigen Ausgabekalibrierung

2026-06-02 16:46

Merken

de.wedoany.com-Bericht: Die japanische NTT hat kürzlich die Einführung des multimodalen erklärbaren KI-Rahmenwerks „Rationale-Enhanced Decoding" bekannt gegeben. Es adressiert das Problem vertrauenswürdiger Ausgaben großer visueller Sprachmodelle bei der gemeinsamen Bild-Text-Inferenz und verbessert die Konsistenz zwischen der endgültigen Antwort des Modells und den zugrunde liegenden Begründungen. Die Ergebnisse werden vom 3. bis 7. Juni auf der CVPR 2026 in Denver, USA, präsentiert. Die Anwendungsrichtungen umfassen Szenarien wie Unternehmensentscheidungen, KI-Agentenkooperation, Dokumentenverständnis, visuelle Fragebeantwortung und hochzuverlässige Mensch-Maschine-Interaktion.

Große visuelle Sprachmodelle entwickeln sich von der reinen „Bildbeantwortung" hin zu komplexeren multimodalen Reasoning-Fähigkeiten. Sie können gleichzeitig Bilder, Texte, Tabellen, Bildschirmfotos, Videoclips und Geschäftsdokumente verarbeiten und befinden sich in Bereichen wie Industrieinspektion, medizinische Bildgebung, Vertragsprüfung, Fernwartung, intelligenter Kundenbetreuung und Unternehmenswissensmanagement zunehmend in der Test- und Einführungsphase. Ein zentrales Problem dieser Modelle ist jedoch, dass der generierte Zwischen-Reasoning-Prozess nicht zwangsläufig die endgültige Antwort beeinflusst. NTT weist in seiner Forschung darauf hin, dass traditionelle multimodale Chain-of-Thought-Methoden zunächst Erklärungen oder Begründungen generieren und diese dann zusammen mit dem Originalbild in das Modell einspeisen, um die endgültige Antwort zu erzeugen. Oberflächlich betrachtet liefert das Modell einen „Grund", aber die tatsächliche Ausgabe kann sich dennoch hauptsächlich auf Bildmerkmale stützen. Selbst wenn die Begründung durch irrelevante Inhalte ersetzt wird, gibt das Modell möglicherweise die ursprüngliche Antwort. Dies bedeutet, dass die sogenannte Erklärung lediglich ein zusätzlicher Text sein könnte, der nicht belegt, dass das Modell die Entscheidung tatsächlich auf Grundlage dieser Erklärung getroffen hat. Für Unternehmens-KI-Systeme, die Prüfung, Rechenschaftspflicht und Überprüfung erfordern, untergräbt dies die Vertrauenswürdigkeit multimodaler KI in kritischen Geschäftsprozessen und schränkt den Einsatz visueller Sprachmodelle in hochzuverlässigen Szenarien wie medizinischer Diagnose, Finanzrisikomanagement, Fertigungsqualitätskontrolle und komplexen Büroabläufen ein.

Der von NTT vorgeschlagene Ansatz erfordert kein erneutes Training des Modells und keine zusätzlichen Datensätze, sondern reorganisiert die Art der Ausgabeerzeugung während der Inferenzphase.

Das Rahmenwerk bildet für die visuelle Eingabe und die Begründung jeweils bedingte Verteilungen und führt dann die nächste Wortvorhersage durch eine Kombination dieser Verteilungen durch. Dadurch wird das Modell bei der Generierung der Antwort gleichzeitig durch die Bildinformationen und die Begründungsinformationen eingeschränkt. Mit anderen Worten: Die endgültige Antwort muss sowohl mit dem visuellen Inhalt als auch mit der Begründung konsistent sein, anstatt den Erklärungstext als optionalen Anhang zu behandeln. NTT beschreibt diese Methode als eine Plug-and-Play-Dekodierungstechnik, die in bestehende große visuelle Sprachmodelle integriert werden kann, um die Kosten für Rechenleistung, Daten und Bereitstellung durch zusätzliches Training zu senken. Die Forschungsergebnisse zeigen, dass diese Methode die Antwortgenauigkeit und die Treue der Begründung bei verschiedenen visuellen Sprachmodellen verbessern kann. Wenn qualitativ hochwertigere Begründungen eingegeben werden, wird die Wirkung des Rahmenwerks weiter verstärkt. Für die unternehmerische KI-Implementierung liegt der Wert dieser technologischen Route darin, von „das Modell kann antworten" zu „die Antwort des Modells kann erklärt, verifiziert und überprüft werden" überzugehen. Dies bietet eine stabilere Reasoning-Basis für Multi-Agenten-Kooperation, komplexe Dokumentenverarbeitung, visuelle Szenenanalyse und unterstützte Entscheidungsfindung.

Die industrielle Bedeutung multimodaler erklärbarer KI nimmt zu. Da KI-Agenten von einzelnen Frage-Antwort-Runden zur kontinuierlichen Ausführung von Aufgaben übergehen, geben Systeme wiederholt Bewertungsergebnisse zwischen Bilderkennung, Dokumentenverständnis, Abruf, Planung und Tool-Aufrufen weiter. Sobald die vom frontalen visuellen Sprachmodell gelieferte Begründung von der Antwort abweicht, kann die nachfolgende Agentenkette auf fehlerhaften Grundlagen weiter aufbauen. Die Ergebnisse von NTT konzentrieren sich auf die grundlegende Frage, „ob die Begründung tatsächlich an der Antwortgenerierung beteiligt ist", und tragen so dazu bei, die Informationsvertrauenswürdigkeit bei der Zusammenarbeit zwischen KI-Systemen zu erhöhen. Wenn sich das Rahmenwerk in Zukunft bei mehr Modellen, mehr Aufgaben und realen Geschäftsdaten als stabil erweist, könnte es in die Reasoning-Ebene von Unternehmens-KI-Plattformen, intelligenten Bürosystemen, branchenspezifischen großen Modellen und hochzuverlässigen visuellen Analysetools Einzug halten und zu einer wichtigen technologischen Komponente für den Übergang multimodaler KI von der Demonstration zur Produktionsbereitstellung werden.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com

Japan

Diese Kurznachricht stammt aus der Übersetzung und Weiterverbreitung von Informationen aus dem globalen Internet und von strategischen Partnern. Sie dient lediglich dem Austausch mit den Lesern. Bei Urheberrechtsverletzungen oder anderen Problemen bitten wir um rechtzeitige Mitteilung, und wir werden die notwendigen Änderungen oder Löschungen vornehmen. Die Weitergabe dieses Artikels ist ausdrücklich ohne formelle Genehmigung verboten.E-Mail: news@wedoany.com