Chinesisches Unternehmen Zhonghao Xinying veröffentlicht TPU-Chip „Xuyu“ mit einer Rechenleistung von 896 TFLOPS
2026-07-01 14:02
Merken

Am 30. Juni veröffentlichte das chinesische Unternehmen Zhonghao Xinying den neuen, vollständig selbst entwickelten Hochleistungs-TPU-KI-Spezialchip „Xuyu“ und stellte gleichzeitig die integrierte Software-Hardware-Plattform für intelligentes Rechnen „Taize 2.0“ vor. Die gemischte Gleitkomma-Rechenleistung des Einzelchips „Xuyu“ erreicht 896 TFLOPS, die 8-Bit-Inferenz-Rechenleistung 1792 TOPS, und die Nennleistungsaufnahme einer einzelnen Karte beträgt 600 W.

Die technische Ausrichtung von „Xuyu“ konzentriert sich auf das Training großer Modelle, die Beschleunigung von Inferenzen und KI-Berechnungen mit hohem Durchsatz. TPUs sind spezielle Beschleunigerchips für Tensor- und Matrixberechnungen, deren Kernaufgabe darin besteht, die Recheneffizienz von Deep-Learning-Modellen beim Training, bei Inferenzen und bei der Stapelverarbeitung zu verbessern. Im Gegensatz zu GPUs, die eine breite Abdeckung allgemeiner Berechnungen betonen, konzentrieren sich TPUs stärker auf Matrixmultiplikation, Tensoroperationen, Operator-Scheduling und die Effizienz des Datentransports in KI-Modellen. Der von Zhonghao Xinying veröffentlichte Chip „Xuyu“ steigert die gemischte Gleitkomma-Rechenleistung auf 896 TFLOPS und die 8-Bit-Inferenz-Rechenleistung auf 1792 TOPS, was auf eine Aufrüstung der Recheneinheiten und Datenpfade für große Sprachmodelle, multimodale Modelle und Szenarien mit hoher Inferenzlast hindeutet.

Dieser Chip ist die zweite TPU-Produktgeneration von Zhonghao Xinying. Die Rechenleistung von „Xuyu“ ist dreimal so hoch wie die der Vorgängergeneration „Chana“, wobei der Schwerpunkt auf der Steigerung des Rechendurchsatzes beim Modelltraining und bei Inferenzen liegt.

Der Betrieb großer Modelle hängt nicht nur von der Spitzenrechenleistung ab, sondern auch von der Speicherkapazität, dem On-Chip-Cache, der Chip-Vernetzung, der Kommunikationsbandbreite, der Operator-Bibliothek und dem Software-Framework. Langkontext-Inferenzen, mehrrundige Dialoge, Agentenaufgaben und Batch-Generierung erzeugen eine große Menge an KV-Cache, Parameteraufrufen und Zwischendatentransfers. Wenn die Speicher- und Vernetzungsfähigkeiten unzureichend sind, werden die Recheneinheiten durch den Datentransport ausgebremst. Mit der gleichzeitigen Einführung von „Taize 2.0“ rund um „Xuyu“ zeigt Zhonghao Xinying, dass sein technologischer Ansatz nicht darin besteht, den Chip isoliert auszuliefern, sondern Chip, Beschleunigerkarte, Server, Systemsoftware, Operator-Bibliothek, Cluster-Scheduling und Modellanpassung zu einer vollständigen intelligenten Rechenplattform zu integrieren. Die Fähigkeiten einer solchen Plattform wirken sich direkt darauf aus, ob KI-Modelle stabil in großen Rechenclustern betrieben werden können.

„Taize 2.0“ ist für die Bereitstellung in KI-Rechenclustern konzipiert und übernimmt eine koordinierende Software-Hardware-Rolle. Der Chip ist für die zugrundeliegende Berechnung zuständig, während die Plattform das Modell-Laden, das Aufgaben-Scheduling, das Ressourcenmanagement und den Betrieb sowie die Wartung übernimmt.

Die Anpassung an das Modell-Ökosystem ist ein weiterer wichtiger Punkt dieser Veröffentlichung. Öffentlich zugänglichen Informationen zufolge ist „Taize 2.0“ mit Tools wie PyTorch, vLLM, SGLang, DeepSpeed, Megatron-LM sowie Frameworks für verteiltes Training und Inferenz kompatibel und passt sich an große Sprachmodelle und multimodale Modelle wie Qwen, DeepSeek, GLM und MiniMAX an. Für KI-Chip-Unternehmen sind Hardware-Parameter nur die erste Ebene der Fähigkeiten. Ob Entwickler Modelle schnell migrieren können, ob die Operatoren stabil laufen, ob das Inferenz-Framework effizient aufgerufen werden kann und ob der Cluster kontinuierlich erweitert werden kann, entscheidet über die Geschwindigkeit, mit der der Chip in reale Projekte integriert wird. Zhonghao Xinying betont, dass der Chip-IP-Kern, der proprietäre Befehlssatz, die zugrundeliegende Operator-Beschleunigungsbibliothek und die gesamte Systemsoftware alle selbst entwickelt sind, mit dem Kernziel, die Anpassungskosten bei der Modellmigration und der Bereitstellung von Rechenleistung zu senken.

In den Bereichen industrielle KI, wissenschaftliches Rechnen, intelligente Rechenzentren für Regierungen und Unternehmen sowie branchenspezifische große Modellplattformen wandeln sich die Anforderungen an Rechensysteme von „Modell laufen lassen können“ hin zu „langfristig stabilem Betrieb“. Aufgaben wie Gerätezustandserkennung, industrielle Bildverarbeitung, Wissensdatenbank-Fragenbeantwortung, Optimierung von Prozessparametern, Forschungsunterstützung und vorausschauende Wartung erfordern nicht nur einen hohen Inferenzdurchsatz, sondern auch stabile Antwortzeiten, Energieverbrauchskontrolle und eine wartbare Softwareumgebung.

Mit der Veröffentlichung von „Xuyu“ tritt die TPU-Roadmap von Zhonghao Xinying in eine Phase höherer Rechenleistung ein. Der zukünftige technologische Wert wird hauptsächlich von der Massenproduktionsfähigkeit des Chips, der Effizienz der Cluster-Vernetzung, dem Reifegrad des Software-Stacks, dem Umfang der Modellanpassung und der Leistung in realen Anwendungsszenarien abhängen.

Diese Kurznachricht stammt aus der Übersetzung und Weiterverbreitung von Informationen aus dem globalen Internet und von strategischen Partnern. Sie dient lediglich dem Austausch mit den Lesern. Bei Urheberrechtsverletzungen oder anderen Problemen bitten wir um rechtzeitige Mitteilung, und wir werden die notwendigen Änderungen oder Löschungen vornehmen. Die Weitergabe dieses Artikels ist ausdrücklich ohne formelle Genehmigung verboten.E-Mail: news@wedoany.com