Google veröffentlicht Open-Source-Textdiffusionsmodell DiffusionGemma
2026-06-11 08:52
Merken

de.wedoany.com-Bericht: Am 10. Juni veröffentlichte Google das experimentelle Open-Source-Modell DiffusionGemma. Das Modell verwendet eine Textdiffusionsarchitektur, ist unter der Apache-2.0-Lizenz verfügbar und richtet sich an Forscher und Entwickler, die lokale schnelle Inferenz, interaktive Textgenerierung und Anwendungsszenarien mit geringer Parallelität erkunden möchten. Auf speziellen GPUs ist die Textgenerierungsgeschwindigkeit im Vergleich zu herkömmlichen autoregressiven großen Sprachmodellen um bis zu 4-mal höher.

Der technische Ansatz von DiffusionGemma unterscheidet sich von gängigen großen Sprachmodellen. Herkömmliche autoregressive Modelle generieren Token normalerweise nacheinander von links nach rechts; je länger der Text, desto deutlicher wird die Wartezeit auf den nächsten Output. DiffusionGemma hingegen versucht, einen Textrahmen auf einmal zu generieren und den Inhalt dann durch mehrere Iterationen zu korrigieren. Google hat es als Mixture-of-Experts-Modell mit insgesamt 26 Milliarden Parametern konzipiert, wobei bei der Inferenz etwa 3,8 Milliarden Parameter aktiviert werden. Nach der Quantisierung kann es an High-End- Consumer-GPUs mit 18 GB VRAM angepasst werden. Für lokale Entwickler bedeutet dies, dass das Modell nicht nur für die großflächige Bereitstellung in der Cloud gedacht ist, sondern auch auf einer einzelnen leistungsstarken Grafikkarte Aufgaben wie schnelles Bearbeiten, Code-Vervollständigung, Textneuanordnung und experimentelle Generierung übernehmen kann.

Der Geschwindigkeitsvorteil des Modells ergibt sich hauptsächlich aus dem parallelen Generierungsmechanismus. Bei jeder Vorwärtsberechnung kann DiffusionGemma 256 Token parallel generieren, sodass die Token innerhalb des Ausgabeblocks aufeinander achten und in nachfolgenden Iterationen kontinuierlich korrigiert werden können. Diese Struktur eignet sich für Inline-Bearbeitung, Code-Lückentexte, nichtlineare Textstrukturen, mathematische Grafiken und einige Aufgaben, die eine gemeinsame Kontextbeschränkung erfordern. Google gab bekannt, dass DiffusionGemma auf einer einzelnen NVIDIA H100 eine Ausgabe von über 1000 Token pro Sekunde erreichen kann; auf einer NVIDIA GeForce RTX 5090 sind es über 700 Token pro Sekunde.

Es ist jedoch kein Ersatz für Gemma 4.

Die Positionierung von DiffusionGemma durch Google ist klar: Es handelt sich um ein experimentelles Modell, das geschwindigkeitsempfindliche und interaktive lokale Workflows priorisiert. Die Gesamtqualität der Ausgabe ist geringer als beim Standard-Gemma 4. Für Anwendungen, die höchste Generierungsqualität, Stabilität und produktionsreife Ergebnisse erfordern, empfiehlt Google weiterhin die Verwendung von Standard-Gemma 4. Die Vorteile von DiffusionGemma gelten auch nicht für alle Bereitstellungsumgebungen. In Cloud-Diensten mit hoher Parallelität können autoregressive Modelle durch Batch-Verarbeitung die Rechenleistung voll ausnutzen, sodass der Nutzen der parallelen Decodierung durch Textdiffusion sinkt und möglicherweise sogar die Servicekosten steigen. Mit anderen Worten: Es eignet sich besser für Umgebungen mit niedrigem bis mittlerem Durchsatz, lokale Einzelbenutzer oder Entwicklungsexperimente und nicht als direkter Ersatz für gängige Cloud-basierte große Modellarchitekturen.

Diese Veröffentlichung ist dennoch bedeutsam für das Informations- und Kommunikations- sowie das KI-Entwicklungsökosystem. In der Vergangenheit waren Diffusionsmodelle den Nutzern eher aus der Bild- und Videogenerierung bekannt, während die Textgenerierung lange Zeit von autoregressiven Architekturen dominiert wurde. DiffusionGemma kombiniert den Textdiffusionsansatz mit dem offenen Gemma-Modellökosystem und bietet Entwicklern eine weitere geschwindigkeitsorientierte experimentelle Plattform. Mit der wachsenden Nachfrage nach lokaler KI, persönlichen Workstations, KI-PCs und Edge-Geräten benötigen Entwickler zunehmend die Möglichkeit, schnelle Generierung, sofortige Änderungen und die Verarbeitung datenschutzsensibler Aufgaben durchzuführen, ohne auf die entfernte Cloud angewiesen zu sein. Die Open-Source-Lizenz erleichtert auch Forschungseinrichtungen, Tool-Anbietern und Entwicklern die weitere Experimentierung mit Modellarchitekturen, Inferenz-Engines, Quantisierungsmethoden und Feinabstimmungsansätzen.

Die Auswirkungen auf die Industriekette werden sich auf lokale KI-Inferenz, Consumer-GPUs, Entwickler-Tools und Modell-Service-Plattformen konzentrieren. DiffusionGemma kann bereits über Hugging Face bezogen werden und ist mit Tools wie MLX, vLLM und Hugging Face Transformers kompatibel. Google arbeitet außerdem mit NVIDIA zusammen, um die Leistung über die Hardware-Stacks zu optimieren, einschließlich RTX-Consumer-Grafikkarten, RTX PRO sowie Unternehmensplattformen wie Hopper und Blackwell. Nachfolgende Meilensteine umfassen die Effektivität der Feinabstimmung durch Entwickler, den Fortschritt der Ökosystemunterstützung wie llama.cpp, die praktische Erfahrung des Modells bei Code-Vervollständigung und Echtzeit-Bearbeitung sowie die Frage, ob die Textdiffusionsarchitektur die Ausgabelücke zu qualitativ hochwertigen autoregressiven Modellen weiter schließen kann. Wenn sich dieser Ansatz weiterentwickelt, könnten lokale KI-Anwendungen schnellere Generierungsantworten erhalten und dem offenen Modellökosystem einen neuen technischen Zweig hinzufügen.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com