Open-Source-Lösung von NVIDIA: MoE-Feintuning-Durchsatz um bis zu 3,7-fach gesteigert
2026-06-26 13:55
Merken

de.wedoany.com-Bericht: NVIDIA hat die Open-Source-Lösung NeMo AutoModel vorgestellt, die beim Feintuning von Mixture-of-Experts-Modellen (MoE) eine Steigerung des Trainingsdurchsatzes um das 3,4- bis 3,7-Fache sowie eine Reduzierung des GPU-Speicherverbrauchs um 29 % bis 32 % ermöglicht.

NeMo AutoModel ist kompatibel mit der Anwendungsprogrammierschnittstelle (API) von Hugging Face Transformers v5. Benutzer müssen lediglich eine Zeile Import-Code hinzufügen, um das Feintuning von MoE-Modellen zu beschleunigen. Auf einem einzelnen Knoten mit acht NVIDIA H100 80GB GPUs wurde am Beispiel des Modells Qwen3-30B-A3B der Durchsatz pro GPU (TPS/GPU) von 3075 auf 11340 gesteigert – eine Verbesserung um das 3,69-Fache.

Die MoE-Architektur hat sich zum Mainstream für moderne Modelle entwickelt, bringt jedoch technische Herausforderungen wie Expertenparallelisierung, Kommunikationsfusion und Kernel-Optimierung mit sich, die eine entsprechende Infrastruktur erfordern. NVIDIAs Lösung erweitert Transformers v5 um drei Technologien: Expert Parallelism (EP), DeepEP und TransformerEngine.

Die Expertenparallelisierung verteilt die Expertengewichte auf mehrere GPUs und reduziert so den Speicherdruck auf einer einzelnen GPU. Am Beispiel von 8 GPUs mit ep_size=8 sinkt der MoE-Speicherverbrauch pro GPU auf ein Achtel des ursprünglichen Werts. Für das Qwen3-Modell reduziert diese Technologie den Spitzenspeicher von 68,2 GiB auf 48,1 GiB – eine Verringerung um 29 %. Für das Nemotron-Nanomo-Modell sinkt der Speicherverbrauch von 62,1 GiB auf 42,5 GiB – eine Reduzierung um 32 %. Der freigewordene Speicher kann für das Training mit größeren Batches und längeren Sequenzen genutzt werden.

DeepEP realisiert die Fusion von Berechnung und Kommunikation. Im herkömmlichen Modus entstehen Kommunikationskosten zwischen der Token-Verteilung und der Expertenberechnung. DeepEP integriert die Token-Verteilung und -Kombination durch optimierte GPU-Kernel, sodass der Kommunikationsprozess mit der Expertenberechnung überlappt wird.

Die TransformerEngine-Kernel beschleunigen Operationen wie die fusionierte Aufmerksamkeitsmechanik, lineare Schichten und RMSNorm und wirken sowohl auf MoE-Ebenen als auch auf normale Transformer-Ebenen.

Experimente mit den Modellen Qwen3-30B-A3B und Nemotron 3 Nano 30B-A3B zeigen, dass die Lösung im Vergleich zu Transformers v5 den Trainingsdurchsatz um das 3,4- bis 3,7-Fache steigert und gleichzeitig den Speicherverbrauch um 29 % bis 32 % senkt. NVIDIA hat außerdem die Ergebnisse des vollständigen Feintunings des Modells Nemotron 3 Ultra 550B A55B in einer Umgebung mit 16 H100-Knoten und insgesamt 128 GPUs veröffentlicht: Der TPS/GPU beträgt 815, der TFLOP/s/GPU etwa 293 und der Spitzenspeicher 58,2 GiB. NVIDIA gibt an, dass Transformers v5 in diesem Maßstab aufgrund von Speichermangel nicht ausgeführt werden kann.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com