Huawei und China Mobile Hubei schließen kommerzielle Netzvalidierung der KI-Inferenzbeschleunigung ab_Weltnachrichten

Huawei und China Mobile Hubei schließen kommerzielle Netzvalidierung der KI-Inferenzbeschleunigung ab

2026-06-29 10:48

Merken

de.wedoany.com-Bericht: Huawei hat in Zusammenarbeit mit China Mobile Hubei erstmals in der chinesischen Telekommunikationsbranche die kommerzielle Netzvalidierung einer KI-Inferenzbeschleunigungslösung (AI Inference Acceleration Solution) abgeschlossen. Dieses Ergebnis wurde vom 24. bis 26. Juni auf der Mobile World Congress Shanghai 2026 (MWC Shanghai 2026) in Halle N1 des Shanghai New International Expo Centre (SNIEC) vorgestellt.

Huawei MWC Shanghai 2026 Veranstaltungspanorama

Mit der Weiterentwicklung von KI-Anwendungen hin zum Agentenmodell nehmen Szenarien zu, die die Verarbeitung langer Kontexte erfordern, wie z. B. Codegenerierung und mehrrundige Dialoge. Die begrenzte Kapazität von On-Chip-Speicher und DRAM führt jedoch zu einer geringeren Trefferquote des KV-Cache (Key-Value-Cache), was die Inferenzleistung beeinträchtigt.

Huawei hat eine Lösung auf Basis des OceanStor A800-Speichers, des Ascend A3 SuperPOD und des 2025 eingeführten Unified Cache Managers (UCM) entwickelt. Der UCM nutzt externen Hochleistungsspeicher, um einen PB-großen KV-Cache zu realisieren und so die Kapazitätsbeschränkungen von On-Chip-Speicher und DRAM zu überwinden. Das System verwaltet und plant den KV-Cache über den gesamten Lebenszyklus hinweg hierarchisch, erweitert das Kontextfenster für einzelne Dialoge und nutzt historische KV-Caches in mehrrundigen Dialogen wieder, wodurch redundante Berechnungen vermieden und die Inferenzkosten gesenkt werden.

Die Validierung fand in der kommerziellen Netzumgebung von China Mobile Hubei statt. Dabei wurden Modelle wie MiniMax M2.5 und GLM-5.1 mit dem vLLM-Ascend-Framework getestet, wobei lange Sequenzen von 8K bis 190K Token simuliert wurden. Die Time To First Token (TTFT) des GLM-5.1-Modells verbesserte sich um 51 % bis 93 %, und die Tokens Per Second (TPS) pro NPU stiegen um 56 % bis 372 %. Bezogen auf die Sequenzlänge stieg der TPS bei 64K um 313 % und bei 128K um 372 %. Beim MiniMax M2.5-Modell verbesserte sich der TTFT nach Anwendung des UCM um 26 % bis 62 %, der TPS stieg bei 64K um 58 % und bei 128K um 78 %. Mit zunehmender Kontextlänge wird der Beschleunigungseffekt dieser Lösung weiter verstärkt.

Ein verantwortlicher Vertreter von China Mobile Hubei erklärte, dass Hubei in einer Kernregion liege und die Latenz zu den acht nationalen Rechenzentrums-Knoten nur 10 Millisekunden betrage. In Szenarien wie KI-Agenten-Interaktion und Codegenerierung könne die Lösung den Durchsatz um über 50 % steigern und damit die Grundlage für die großflächige Bereitstellung von KI-Diensten schaffen. Michael Qiu, Präsident der globalen Abteilung für Datenspeicher-Marketing und Lösungsvertrieb bei Huawei, wies darauf hin, dass mit der Einführung von Token-Tarifen durch die Betreiber eine neue Phase der großflächigen Bereitstellung von KI-Agenten beginne und der Token-Verbrauch voraussichtlich exponentiell ansteigen werde.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.