Alibaba veröffentlicht Qwen3.7-Plus: Multimodale KI-Agenten entwickeln sich vom visuellen Verständnis zur durchgängigen Ausführung_Weltnachrichten

Alibaba veröffentlicht Qwen3.7-Plus: Multimodale KI-Agenten entwickeln sich vom visuellen Verständnis zur durchgängigen Ausführung

2026-06-02 09:20

Merken

de.wedoany.com-Bericht: Am 2. Juni hat Alibaba offiziell das multimodale KI-Agentenmodell Qwen3.7-Plus veröffentlicht. Das Modell baut auf den Textfähigkeiten von Qwen3.7 auf und erweitert diese um visuell-sprachliche Fähigkeiten, während es gleichzeitig die Agentenfähigkeiten wie Codierung, Werkzeugnutzung und Produktivitäts-Workflows beibehält.

Die Kernveränderung von Qwen3.7-Plus besteht darin, das „Verstehen von Inhalten" weiter voranzutreiben hin zum „Verstehen der Benutzeroberfläche und Ausführen von Aufgaben". Die Seite des Qwen-Modells von Alibaba Cloud zeigt, dass das multimodale KI-Agentenmodell Qwen3.7-Plus sowohl Benutzeroberflächen verstehen und Anwendungen bedienen als auch Code schreiben und Ergebnisse liefern kann. Das Ziel ist die Realisierung eines durchgängigen Kreislaufs von „Sehen, Denken, Schreiben, Tun und Prüfen". Für unternehmensorientierte KI-Anwendungen konzentrierten sich multimodale Fähigkeiten in der Vergangenheit mehr auf Bereiche wie Bildverständnis, Dokumentenerkennung, Diagrammanalyse und Videoinhaltszusammenfassung, wobei das Modell hauptsächlich die Rolle des Informationslesens und der Inhaltserklärung übernahm. In der Agentenphase benötigen Unternehmen Modelle, die nach dem Verstehen des Bildschirms, der Interpretation von Webseiten, der Erkennung von Softwareoberflächen und dem Lesen von Geschäftsmaterialien weiterhin Operationen durchführen können, einschließlich des Aufrufens von Werkzeugen, der Generierung von Code, dem Ausfüllen von Formularen, dem Organisieren von Dokumenten, der Ausführung von Büroabläufen und der Überprüfung von Ergebnissen. Qwen3.7-Plus betont die Kombination von visuell-sprachlichen Fähigkeiten mit Agentenfähigkeiten, was bedeutet, dass multimodale Modelle beginnen, sich von der „Wahrnehmungsebene" auf die „Aufgabenausführungsebene" auszudehnen.

Dieses Update setzt auch die Produktausrichtung der Qwen 3.7-Serie von Alibaba auf das Zeitalter der KI-Agenten fort. Auf der Alibaba-Cloud-Seite wird vorgestellt, dass die Qwen3.7-Serie in den Bereichen Programmierung, Büroautomatisierung und autonome Ausführung langfristiger Aufgaben umfassend verbessert wurde und sich an KI-Agentenanwendungen in komplexen Szenarien richtet.

Aus technischer Umsetzungsperspektive eignet sich Qwen3.7-Plus besser für die Übernahme komplexer Aufgaben in unternehmerischen Produktivitätsszenarien. Viele Unternehmensprozesse bestehen nicht nur aus reinen Textaufgaben, sondern setzen sich aus Webseiten, Tabellen, Bildern, PDFs, Backend-Systemen, Besprechungsprotokollen, Code-Repositories und Geschäftsdatenbanken zusammen. Wenn ein Modell nur Text verarbeiten kann, ist viel manuelle Arbeit erforderlich, um Oberflächeninformationen in Anweisungen umzuwandeln; wenn es nur Bilder erkennen kann, kann es auch nicht direkt nachfolgende Operationen durchführen. Der Wert eines multimodalen KI-Agentenmodells liegt darin, visuelle Erkennung, Sprachschlussfolgerung, Codegenerierung, Werkzeugaufruf und Ergebnisüberprüfung in einem Prozess zu verbinden, sodass die KI in einer Aufgabenkette arbeiten kann, die näher an der realen Büroumgebung ist. Beispielsweise muss das Modell in Softwareentwicklungsszenarien Fehler-Screenshots lesen, Codedateien lokalisieren, die Logik ändern, Tests ausführen und Reparaturanweisungen geben; in Betriebs- und Büroszenarien muss das Modell Backend-Seiten erkennen, Daten extrahieren, Berichte erstellen, Dokumente aktualisieren und die Formatkonsistenz überprüfen. Ob diese Fähigkeiten stabil geliefert werden können, wird sich direkt auf die Geschwindigkeit auswirken, mit der KI-Agenten von Demonstrationsprodukten in unternehmerische Arbeitsabläufe integriert werden.

Qwen3.7-Plus spiegelt auch wider, dass sich der Wettbewerb bei großen Modellen im Inland von einer einzelnen Parameteranzahl und allgemeinen Frage-Antwort-Fähigkeiten hin zu multimodalen KI-Agenten, Toolchain-Anpassung und Integration in Unternehmens-Workflows verlagert. Alibaba deckt im Qwen-Modellsystem gleichzeitig Textgenerierung, visuelles Verständnis, Sprache, Bildgenerierung, Code-Agenten und vollständig multimodale Modelle ab. Dahinter steht eine Produktmatrix aus Cloud-Diensten, Entwicklerplattformen, Anwendungseingängen und Unternehmens-APIs. Für Unternehmenskunden ist die Modellfähigkeit selbst nur die erste Ebene. Die Entscheidung für eine Einführung wird tatsächlich auch von Faktoren wie Aufrufkosten, Kontextlänge, Inferenzgeschwindigkeit, Berechtigungsverwaltung, Datensicherheit, privater oder Cloud-Bereitstellung sowie der Fähigkeit, stabile Schnittstellen zu bestehenden Geschäftssystemen zu bilden, beeinflusst. Wenn Qwen3.7-Plus eine stabile Leistung beim visuellen Schnittstellenverständnis und der Werkzeugbedienung aufrechterhalten kann, wird dies Alibaba helfen, die Qwen-Fähigkeiten weiter in Szenarien wie Entwicklung, Büro, Kundenservice, Datenverarbeitung, Designzusammenarbeit und Geschäftsautomatisierung zu integrieren.

Die nachfolgenden Variablen konzentrieren sich auf die tatsächliche Aufgabenerfolgsrate, die Anpassungsfähigkeit an komplexe Schnittstellen, die Stabilität der Langzeitausführung, die Kosten für die Integration in Unternehmenssysteme und die Erweiterung des Entwickler-Ökosystems. Der Wettbewerb bei multimodalen KI-Agentenmodellen dreht sich nicht mehr nur darum, ob das Modell Fragen beantworten kann, sondern darum, ob es in realen Geschäftsprozessen kontinuierlich Aufgaben erledigen, Fehler erkennen und nutzbare Ergebnisse liefern kann. Die Veröffentlichung von Qwen3.7-Plus zeigt, dass Alibaba den Fokus der Qwen-Modelliteration weiterhin auf produktionsreife KI-Agentenanwendungen legt.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com

China

IKT Technik für künstliche Intelligenz

Diese Kurznachricht stammt aus der Übersetzung und Weiterverbreitung von Informationen aus dem globalen Internet und von strategischen Partnern. Sie dient lediglich dem Austausch mit den Lesern. Bei Urheberrechtsverletzungen oder anderen Problemen bitten wir um rechtzeitige Mitteilung, und wir werden die notwendigen Änderungen oder Löschungen vornehmen. Die Weitergabe dieses Artikels ist ausdrücklich ohne formelle Genehmigung verboten.E-Mail: news@wedoany.com