Chinas StepFun bringt das Reasoning-Modell Step 3.7 Flash auf den Markt
2026-06-15 16:45
Merken

de.wedoany.com-Bericht: Nvidia erweitert sein Portfolio um mehrere Modelle, wobei das größte Modell lediglich angekündigt wurde. Gleichzeitig stellte Microsoft auf der Build-Konferenz Anfang Juni eine Reihe von Modellen vor, die jedoch bedauerlicherweise alle Closed-Source sind, ein Schritt, der das Unternehmen weiter von OpenAI distanziert.

Das in Shanghai ansässige KI-Unternehmen StepFun hat nach der erfolgreichen Einführung des Modells 3.5 im Frühjahr nun das neue Reasoning-Modell Step 3.7 Flash veröffentlicht. Die Architektur des Modells ähnelt der des Vorgängers, wurde jedoch um einen Vision Encoder erweitert, der es ihm ermöglicht, Bilder zu verstehen. Die Reasoning-Funktion ist nun konfigurierbar, wodurch vermieden wird, dass bei einfachen Fragen sofort eine große Anzahl von Tokens anfällt; dies ist besonders für agentische Anwendungen nützlich. Wie viele chinesische Modelle unterlag auch sein Vorgänger strengen Prüfungen; die Version 3.7 hat sich kaum verändert, doch das Modell gibt im Reasoning-Bereich Fakten an, die dann in der endgültigen Antwort unterdrückt werden, was offenbar auf die in der letzten Trainingsphase implementierten Guardrails zurückzuführen ist. Abgesehen davon sind die Antworten größtenteils korrekt. Interessanterweise erfolgt das Reasoning bei deutschsprachigen Fragen größtenteils auf Deutsch, während Unterbrechungswörter wie „wait“ auf Englisch bleiben – ein Unterschied zu fast allen anderen Modellen, die ausschließlich auf Englisch argumentieren. Die Community bewertet das Modell sehr positiv, insbesondere für den Einsatz mit Coding Agents. Auf der Website von StepFun übertreffen die Daten die des alten Modells bei weitem und schlagen sogar DeepSeek V4 Flash. Die Ergebnisse von Step 3.7 Flash sind im GitHub-Repository dieses Artikels zu finden.

Das von MiniMax veröffentlichte M3-Modell wird zwar als „Open Weight“ bezeichnet, die Gewichte sind jedoch derzeit nicht auf Hugging Face herunterladbar; es kann nur direkt über MiniMax.ai oder OpenRouter getestet werden. MiniMax hat die Aufmerksamkeitsarchitektur optimiert: In der ersten Phase wird entschieden, welche Tokens wichtig sind, und in der zweiten Phase werden diese Tokens der vollständigen Aufmerksamkeitsberechnung zugeführt. MiniMax behauptet, dass M3 Prompts fast zehnmal schneller verarbeitet als M2 und die Generierung sogar 15-mal schneller ist. Derzeit gibt es keine öffentlichen Benchmarks, aber die eigenen Daten von MiniMax deuten darauf hin, dass es im Code-Bereich, sofern die Daten korrekt sind, in etwa mit den besten Modellen von Anthropic mithalten kann. Die Ergebnisse von MiniMax M3 sind im GitHub-Repository dieses Artikels zu finden.

Liquid AI verwendet für seine Liquid Foundation Models eine einzigartige Architektur, die die Token-Generierung äußerst effizient macht und eine gute Ausführung auf CPUs ermöglicht. Das neu eingeführte LFM2.5-8B-A1B hat nur eine Milliarde aktive Parameter und zielt darauf ab, mit größeren Modellen wie gpt-oss-20b, Qwen3-30B-A3B-Thinking-2507 und Gemma-4-26B-A4B-IT zu konkurrieren. Auf einem Mac Studio M2 Ultra erreicht das Modell eine Geschwindigkeit von fast 200 Token/s. Obwohl es mit großen Modellen nicht vollständig mithalten kann, eignet es sich für spezielle Anwendungen oder Agentenszenarien. Die Ergebnisse von LFM2.5-8B-A1B sind im GitHub-Repository dieses Artikels zu finden.

Nvidia hat mehrere Modellaktualisierungen veröffentlicht. Das LocateAnything-Modell kann zur Analyse von Bildern verwendet werden und gibt Begrenzungsrahmen für bestimmte Objekte aus; seine Verarbeitung ist hochgradig parallelisiert und kann sogar gescannte Dokumente analysieren, was es zur Identifizierung von GUI-Elementen und zur Steuerung eines Browsers über einen Agenten geeignet macht. Das Modell hat eine Größe von etwa 8 GB und kann auf Consumer-GPUs ausgeführt werden. Der Pixel Diffusion Decoder führt neuartige Diffusionsmodelle im Pixelraum ein, die Bedienung ist jedoch weiterhin umständlich; Checkpoints müssen von der Hugging Face-Seite heruntergeladen und mit speziellen Programmen verarbeitet werden. Das Nemotron 3 Ultra Modell verfügt über 550 Milliarden Parameter, von denen 55 Milliarden aktiv sind, und verwendet den NVFP4-Datentyp sowie eine optimierte Aufmerksamkeitsmechanik (mit vielen Mamba-Schichten) bei einer Kontextlänge von bis zu 1 Million Tokens. Allerdings hat Nemotron 3 Ultra die chinesischen Open-Source-Modelle noch nicht vollständig eingeholt. Wie bei allen Nemotron-Modellen stellt Nvidia den Großteil der Trainingsdaten und des Codes zur Verfügung, was eine hohe Transparenz bietet, die nur von den deutlich kleineren KI-Unternehmen Olmo oder den Apertus-Modellen erreicht wird. Die westliche Herkunft des Modells ist in den Antworten spürbar: Während chinesische Modelle oft zurückhaltend sind, gibt dieses Modell häufig klarere, politisch neutralere oder anderslautende Antworten. Die Ergebnisse von Nemotron 3 Ultra sind im GitHub-Repository dieses Artikels zu finden.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com