de.wedoany.com-Bericht: Kürzlich gab NTT Japan die Entwicklung einer neuen erklärbaren KI-Inferenztechnologie namens „Rationale-Enhanced Decoding“ für multimodale Basismodelle bekannt. Diese Technologie dient der Verbesserung der Ausgabezuverlässigkeit großer visuell-sprachlicher Modelle bei der Verarbeitung von Bildern und Texten. Die entsprechende Forschung wird vom 3. bis 7. Juni auf der CVPR 2026 in Denver, USA, vorgestellt.
Diese Technologie adressiert ein zentrales Problem aktueller multimodaler KI-Anwendungen: Die vom Modell generierte endgültige Antwort basiert nicht zwangsläufig auf den zuvor selbst erzeugten Begründungen. In Experimenten stellte NTT fest, dass bestehende große visuell-sprachliche Modelle zwar zunächst einen Zwischenschritt der Begründung generieren und dann auf Basis von Bild, Text und dieser Begründung eine endgültige Antwort liefern können, das Modell diese Begründungen jedoch manchmal ignoriert und die Ausgabe direkt auf die Bildinformationen stützt. Selbst wenn die Forscher die Begründung durch inhaltsfremde Angaben ersetzen, kann das Modell dennoch dieselbe Antwort wie zuvor liefern. Dies bedeutet, dass die sogenannte „Gedankenkette“ in manchen Szenarien nicht automatisch einer echten Erklärung gleichkommt und somit Anwendungen mit hohen Zuverlässigkeitsanforderungen wie medizinische Bildgebung, Unternehmensentscheidungen oder kritische Geschäftsprüfungen nur schwer unterstützen kann.
Das von NTT vorgeschlagene Rationale-Enhanced Decoding erfordert weder ein erneutes Training des Modells noch zusätzliche Datensätze. Die Methode besteht darin, während der Inferenzphase die Wahrscheinlichkeitsverteilung unter der Bedingung des visuellen Inputs und die Wahrscheinlichkeitsverteilung unter der Bedingung der Begründung getrennt zu behandeln. Durch eine kombinierte Dekodierung wird dann die endgültige Antwort generiert, sodass die Ausgabe gleichzeitig durch die Bildinformationen und die Begründung eingeschränkt wird.
Diese Eigenschaft, „kein erneutes Training zu erfordern“, macht es besonders geeignet für die Integration in bestehende große visuell-sprachliche Modelle und Unternehmens-KI-Systeme. Da KI-Agenten beginnen, Aufgaben wie Dokumentenanalyse, Videoanalyse, industrielle Inspektion, Kundendienstkooperation, Risikoprüfung und Unterstützung von Geschäftsentscheidungen zu übernehmen, benötigen Unternehmen nicht nur Antworten vom Modell, sondern müssen auch beurteilen können, ob die Antworten auf einer nachvollziehbaren und überprüfbaren Beweiskette beruhen. Wenn traditionelle multimodale Modelle nur einen oberflächlichen Begründungsprozess liefern können, aber eine Konsistenzbindung zwischen der endgültigen Antwort und der Begründung fehlt, beeinträchtigt dies die Verantwortungszuweisung und Risikokontrolle der KI in kritischen Szenarien. Die aktuelle Forschung von NTT treibt die Erklärungsfähigkeit von einer „nachträglichen Darlegung von Gründen“ weiter in Richtung einer „erzwungenen Nutzung von Gründen während des Inferenzprozesses“. Dies ist auch für die Zusammenarbeit zwischen KI-Agenten von großer Bedeutung, da bei der Kooperation mehrerer KI-Systeme nachfolgende Agenten verstehen müssen, warum ein vorheriger Agent eine Entscheidung getroffen hat, und auf Basis derselben Grundlage die Aufgabe fortsetzen müssen.
Die anschließenden Schwerpunkte der Forschung liegen auf der technischen Integration und der Anwendungsvalidierung. Wenn Rationale-Enhanced Decoding in einer größeren Anzahl multimodaler Modelle, bei mehr Bildverständnisaufgaben und in unternehmensweiten Agentensystemen stabile Ergebnisse erzielen kann, wird erklärbare KI nicht länger nur eine zusätzliche Fähigkeit für Compliance- oder Prüfungszwecke sein, sondern zu einer der grundlegenden Fähigkeiten werden, mit der multimodale KI in Produktionsprozesse Einzug hält. Für die Informations- und Kommunikationsbranche zeigt diese Art von Technologie auch, dass sich der Wettbewerb bei Unternehmens-KI von der Modellgröße und Antwortfähigkeit hin zur Konsistenz der Inferenz, der Glaubwürdigkeit von Erklärungen und der Zuverlässigkeit systemübergreifender Zusammenarbeit verlagert.
Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









