Chinesisches Team schließt vollständiges Post-Training eines Billionen-Parameter-Modells auf Basis heimischer Rechenleistung ab_Weltnachrichten

Chinesisches Team schließt vollständiges Post-Training eines Billionen-Parameter-Modells auf Basis heimischer Rechenleistung ab

2026-06-09 13:55

Merken

de.wedoany.com-Bericht: Das KI-Trainingsplattform-Projektteam des Shenzhen Hetao College hat gemeinsam mit der Harbin Institute of Technology (Shenzhen), dem Shenzhen Institute of Big Data und Huawei GTS (Global Technical Services) eine gemeinsame Forschungsinitiative zum Training großer Modelle auf Basis heimischer Rechenleistung gestartet. Auf dem heimischen Ascend 910C Rechencluster wurde innerhalb eines Monats erfolgreich das vollständige Parameter-Kontinuierungstraining und SFT (Supervised Fine-Tuning) von DeepSeek-V4-Pro stabil durchgeführt. Das Training umfasste über 1500 Schritte, die MFU (Model Flops Utilization) lag bei über 30 %, und die Effizienz der wichtigsten Trainingsoperatoren wurde um etwa 14 % gesteigert.

Dies ist die erste industrielle Praxis eines vollständigen Post-Trainings von DeepSeek-V4-Pro durch eine Drittorganisation auf Basis eines heimischen Rechenclusters. Dies markiert einen Wendepunkt, an dem die heimische KI-Infrastruktur von der Inferenzbereitstellung und leichten Feinabstimmung zur Phase des vollständigen Post-Trainings extrem großer Modelle übergeht.

DeepSeek-V4-Pro ist ein Open-Source-Flaggschiffmodell mit 1,6 Billionen Parametern, das auf der MoE-Architektur (Mixture of Experts) basiert. Es verwendet innovative Mechanismen wie CSA+HCA Mixed Sparse Attention und mHC-Verbindungen. Im Vergleich zur Vorgängergeneration DeepSeek-V3/R1 stellt es höhere Anforderungen an heimische Trainingsframeworks.

Die gemeinsame Forschungsinitiative hat den stabilen Betrieb des vollständigen Post-Trainings von DeepSeek-V4-Pro auf einem tausendkartenbasierten Ascend 910C Rechencluster erreicht. Die Modelliteration umfasste über 1500 Schritte, ohne Iterationsausfälle oder NaN-Anomalien. Die Effizienz der wichtigsten Trainingsoperatoren wurde im Vergleich zur ursprünglichen Version um etwa 14 % gesteigert, die endgültige MFU stabilisierte sich bei 34,9 %, und die Trainingszeit pro Schritt blieb stabil bei 27 Sekunden. Das Team hat gleichzeitig die vollständige Pipeline für das Kontinuierungstraining und SFT von DeepSeek-V4-Flash etabliert.

Die Ergebnisse dieses Projekts demonstrieren eine reproduzierbare und ingenieurtechnisch lieferbare Fähigkeit zum stabilen Training von Billionen-Parameter-MoE-Modellen auf heimischer Rechenleistung. Eine geschlossene Validierung in einem industriellen, automatisierten Optimierungsmodellierungsszenario wurde abgeschlossen, was zeigt, dass heimische Rechenleistung in kurzen Zyklen und zu geringen Kosten spezialisierte Verstärkungstrainings für branchenspezifische große Modelle durchführen kann.

Auf technischer Ebene wurden drei wesentliche Durchbrüche erzielt: Erstens wurde erfolgreich ein verteiltes Schema aufgebaut, das Gewichte, Gradienten, Aktivierungen und Optimiererzustände abdeckt und die Zusammenarbeit von Datenparallelismus, Tensorparallelismus, Pipelineparallelismus und Expertenparallelismus ermöglicht. Zweitens wurden die MoE-Routing- und Sparse-Attention-Operatoren optimiert und ein Mechanismus zum Lastausgleich der Experten etabliert, der Kommunikationsengpässe und Lastungleichgewichte effektiv mildert. Drittens wurde ein Langzeit-Stabilitätsüberwachungssystem mit vollständiger Indikatorvisualisierung aufgebaut, bei dem über mehrere Tage kontinuierlichen Trainings kein Loss-Außerkontrollgeraten oder NaN-Werte auftraten.

Im Rahmen der Fähigkeitsvalidierung entwarf das Projekt ein Experiment zur Verbesserung der mathematischen Modellierungsfähigkeiten großer Modelle. Das Team erstellte eine SFT-Modellierungsdaten-Produktionspipeline, die 3000 hochwertige SFT-Beispiele für mathematische Modellierungsaufgaben generierte, die 4 Zielaufgabentypen und 3 Problemformen abdeckten. Die Trainingsergebnisse zeigten: Der LM Loss des Modells konvergierte auf 0,2056, der MTP 1 Loss auf 0,2538, und die Gradientenkurve war stabil. Benchmark-Bewertungen zeigten eine umfassende Verbesserung aller vier Kernindikatoren des Modells, wobei der ORGEval WL um über 5 Prozentpunkte anstieg, was auf eine signifikant verbesserte Fähigkeit zum komplexen Denken und zur Modellierung hindeutet.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.