de.wedoany.com-Bericht: 2. Juli – Chinas Jinshanyun wird in der zweiten Jahreshälfte den Aufbau von GPU-Rechenclustern beschleunigen, um den schnell wachsenden KI-Rechenbedarf seiner Großkunden zu decken. Die entsprechende Nachfrage stammt hauptsächlich von der chinesischen Xiaomi Group und dem KI-Modellteam von Alibaba. Dabei hat sich der GPU-Rechenbedarf von Xiaomi gegenüber Jinshanyun von einem Zehntausend-Karten-Cluster zu einem extrem großen Rechencluster entwickelt; das entsprechende Investitionsbudget stieg von ursprünglich knapp 4 Milliarden Yuan auf über 10 Milliarden Yuan.
Der Kern dieser Erweiterung ist die Fähigkeit zur Auslieferung großer GPU-Cluster. Das Training und die Inferenz großer KI-Modelle stellen hohe Anforderungen an die Anzahl der Server, die GPU-Vernetzung, den Speicherdurchsatz, die Netzwerkbandbreite, die Stromversorgung, die Kühlung und die Clusterverwaltung. Der bloße Kauf von GPU-Servern führt nicht direkt zu nutzbarer Rechenleistung. Cloud-Anbieter müssen die Gesamtbereitstellung von Rechenzentrumsressourcen, Acht-Karten-Servern, Vermittlungsnetzwerken, verteiltem Speicher, Container-Orchestrierung, Trainingsplattformen, Fehlerüberwachung und Betriebssystemen abschließen, um die Hardware-Ressourcen in KI-Rechenleistungsdienste umzuwandeln, die Kunden kontinuierlich nutzen können.
Das KI-Modellteam von Alibaba hat mit Jinshanyun einen fünfjährigen Mietvertrag für Rechenleistung unterzeichnet, der über 3.000 Acht-Karten-GPU-Server umfasst. Basierend auf den zum Zeitpunkt der Unterzeichnung geltenden monatlichen Mietpreisen würde der monatliche Umsatz nach vollständiger Auslieferung etwa 300 Millionen Yuan betragen, was einem annualisierten Umsatz von über 4 Milliarden Yuan entspricht. Die Bedeutung solcher langfristigen Mietverträge für Cloud-Anbieter liegt nicht nur in der Steigerung der Umsatzaufträge, sondern auch in der Erhöhung der Planungssicherheit für den Aufbau von Rechenclustern. GPU-Cluster erfordern hohe Vorabinvestitionen und lange Bauzeiten; bei instabiler Kundennachfrage kann es leicht zu einer Unterauslastung der Geräte kommen. Langfristige Verträge ermöglichen eine klarere Planung des Bautempos, der Serverbeschaffung, der Rack-Bereitstellung und der Betriebsressourcen.
Die Aufwertung der Xiaomi-Nachfrage zeigt, dass der Rechenleistungsverbrauch in den Bereichen große Modelle, Smartphones, Automobile und AIoT-Szenarien zunimmt. Der KI-Bedarf von Xiaomi stammt nicht nur aus dem Training einzelner Modelle, sondern kann auch KI auf der Geräteseite von Smartphones, intelligente Fahrzeugcockpits, Datenverarbeitung für autonomes Fahren, Sprachinteraktion, Bildalgorithmen, IoT-Gerätekoordination und interne Forschungs- und Entwicklungsplattformen umfassen. Die Aufwertung von einem Zehntausend-Karten-Cluster zu einem extrem großen Rechencluster bedeutet, dass Aufgaben wie Training, Feinabstimmung, Inferenz und Datenverarbeitung sich von projektbezogenen Anforderungen zu langfristigen Infrastrukturanforderungen entwickeln.
Jinshanyun hat zuvor bereits mehrere Upgrades auf der Ebene der intelligenten Rechenplattform und der KI-Plattform durchgeführt. Seine intelligente Rechenplattform „Jinshanyun Xingliu“ wurde von einer Ressourcenverwaltungsplattform zu einer One-Stop-KI-Trainings- und Inferenzplattform aufgewertet, die heterogene Ressourcenverwaltung, Trainingsaufgabenmanagement, Inferenzdienste und Modell-APIs abdeckt. Für Kunden großer Modelle sind die zugrunde liegenden GPUs nur die Basis; was die Nutzungseffizienz wirklich beeinflusst, ist, ob Ressourcen schnell zugewiesen werden können, ob Aufgaben stabil laufen, ob Fehler automatisch behoben werden können und ob die Trainings- und Inferenzprozesse nahtlos ineinandergreifen.
Der Aufbau von GPU-Rechenclustern wird auch die Nachfrage nach einer Reihe von Kommunikations- und Rechenzentrumsgeräten ankurbeln. Über 3.000 Acht-Karten-GPU-Server entsprechen einer großen Anzahl von Hochgeschwindigkeitsnetzverbindungen, Switches, optischen Modulen, Netzwerkkarten, Speichergeräten, Racks, Stromverteilungs- und Kühlsystemen (Flüssigkeits- oder Luftkühlung). Je größer die Rechenleistung, desto wichtiger ist die Netzwerkarchitektur; das Training großer Modelle erfordert die Zusammenarbeit mehrerer Maschinen und Karten. Wenn die Netzwerklatenz und -bandbreite unzureichend sind, wird die GPU-Auslastung beeinträchtigt, was letztendlich die tatsächliche Trainingseffizienz der Kunden senkt.
Die Aufgabe der Expansion von Jinshanyun in der zweiten Jahreshälfte wird sich auf das Auslieferungstempo konzentrieren. Das Budget von Xiaomi in Höhe von über 10 Milliarden Yuan entspricht einem größeren, langfristigen Rechenpool, während der Fünfjahresvertrag von Alibaba einem Servercluster entspricht, der klar eingeplant werden kann. Für Cloud-Anbieter geht es in der nächsten Phase darum, die Ankunft der GPU-Server, die Rack-Installation im Rechenzentrum, die Netzwerkkonfiguration, die Plattformintegration und die Kundenabnahme nahtlos zu verbinden. Nur wenn der Rechencluster stabil ausgeliefert wird, kann er tatsächlich in Einnahmen aus Training, Inferenz und Cloud-Diensten umgewandelt werden.









