de.wedoany.com-Bericht: Google DeepMind hat das experimentelle offene Modell DiffusionGemma veröffentlicht, das für extrem schnelle Textgenerierung entwickelt wurde. NVIDIA hat das Modell optimiert, um es auf NVIDIA GeForce RTX GPUs, der NVIDIA RTX PRO Plattform und NVIDIA DGX Spark Systemen schneller laufen zu lassen – von lokalen PCs bis zur Cloud.

Anders als herkömmliche Modelle, die Text Wort für Wort generieren, kann DiffusionGemma mehrere Wörter parallel erzeugen, um ganze Textblöcke auszugeben. Das Modell basiert auf Gemma 4, einem Mixture-of-Experts-Modell mit 26 Milliarden Parametern, von denen pro Schritt nur 3,8 Milliarden aktiviert werden. Es kombiniert einen Diffusionskopf mit Googles Gemma 4-Architektur. In puncto Leistung kann DiffusionGemma auf lokaler Hardware die Textgenerierung im Vergleich zu einem äquivalenten autoregressiven Modell um bis zu das Vierfache beschleunigen. Als offenes Modell stellt DiffusionGemma seine Gewichte unter der großzügigen Apache 2.0-Lizenz zur Verfügung und läuft vollständig lokal auf RTX und DGX Spark, ohne Cloud-Abhängigkeit. Es wird ab sofort von Hugging Face Transformers, vLLM und Unsloth unterstützt. Nutzer können DiffusionGemma zudem kostenlos über die von NVIDIA auf build.nvidia.com gehostete API testen.
Die meisten derzeit weit verbreiteten großen Sprachmodelle (LLMs) arbeiten autoregressiv, d.h. sie generieren ein Token nach dem anderen, wobei jedes neue Wort vom vorherigen abhängt. DiffusionGemma hingegen basiert auf der Gemma 4 26B Mixture-of-Experts-Architektur und generiert Text so, wie Diffusionsmodelle Bilder erzeugen: Es beginnt mit Rauschen und verfeinert einen gesamten Textblock in einem Schritt. In jedem Schritt denkt das Modell bis zu 256 Token parallel. Für latenzempfindliche Einzelbenutzer-Workloads wie interaktive Chats, Agenten-Schleifen oder gerätegestützte Assistenten ermöglicht diese Parallelität eine Reaktionsgeschwindigkeit, die mit der Entwicklung und Iteration Schritt hält.
Herkömmliche LLMs sind bei der Generierung eines Tokens nach dem anderen oft durch die Speicherbandbreite begrenzt, sodass ein Großteil der Rechenleistung ungenutzt bleibt. DiffusionGemma hingegen verarbeitet vollständige Token-Blöcke parallel über den Transformer, und dieser rechenintensive Workload kommt den Stärken von NVIDIA GPUs zugute. Daten zeigen, dass DiffusionGemma auf einer einzelnen NVIDIA H100 Tensor Core GPU 1000 Tokens/s erreicht, auf NVIDIA DGX Spark 150 Tokens/s und auf NVIDIA DGX Station die schnellste lokale Inferenz mit einer etwa viermal höheren Geschwindigkeit als ein äquivalentes autoregressives Modell im gleichen Einzelbenutzerszenario.
Dieser Leistungsvorteil erstreckt sich über die gesamte NVIDIA-Produktpalette, einschließlich des lokalen DGX Spark Desktop-Personal-AI-Supercomputers, angetrieben vom NVIDIA GB10 Grace Blackwell Superchip mit 128 GB einheitlichem Speicher; der RTX PRO 6000 Workstation, die Entwicklern reichlich lokalen Raum bietet; der DGX Station mit schneller Inferenz von bis zu 800 Tokens/s und 748 GB kohärentem Speicher; sowie den GeForce RTX GPUs, die bald llama.cpp unterstützen werden.
Die Verwendung von Hugging Face Transformers ist der schnellste Weg, DiffusionGemma auf einer GeForce RTX 5090 oder DGX Spark zu starten. Für Inferenz mit höherem Durchsatz bietet vLLM sofortige Serviceunterstützung. Nutzer können das Modell über Unsloth und das NVIDIA NeMo Framework für spezifische Aufgaben oder Bereiche feinabstimmen. Weitere technische Details finden sich im NVIDIA Technologie-Blog und in der offiziellen Ankündigung von Google DeepMind.
Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









