US-Tech-Giganten beschleunigen Entwicklung eigener KI-Chips: AWS steigert Leistung pro Watt um das Vierfache
2026-06-30 09:49
Merken

de.wedoany.com-Bericht: Mit dem Aufkommen des Zeitalters der „Agenten-KI", die über eigenständige Entscheidungs- und Handlungsfähigkeit verfügt, verlagert sich der Schwerpunkt des globalen KI-Infrastrukturmarktes rasant von groß angelegtem „Training" hin zur für den eigentlichen Dienst erforderlichen „Inferenz". In diesem Prozess gewinnen die Energieeffizienz von Rechenzentren und die Gesamtbetriebskosten (TCO) an Bedeutung gegenüber der absoluten Leistung einzelner Chips. Um die Marktdominanz von Nvidia zu brechen, beschleunigen Hardwarehersteller weltweit, Technologiegiganten sowie südkoreanische heimische K-AI-Halbleiterunternehmen ihre Aktivitäten.

Der sprunghafte Anstieg des Rechenbedarfs und die Monopolstellung von Nvidia-GPUs setzen Unternehmen unter Kostendruck und veranlassen globale Technologiegiganten, eigene, auf ihre Rechenzentren und Dienste optimierte KI-Halbleiter zu entwickeln. Diese Unternehmen streben den Aufbau einer Full-Stack-Infrastruktur an, die Chips, Serverarchitektur, Netzwerke und Software umfasst, um in der realen Betriebsumgebung die „Token-Ökonomie" und „Energieeffizienz" zu maximieren. Google Cloud hat seinen eigenen KI-Halbleiter TPU auf die sechste Generation „Trillium" aufgerüstet, dessen Rechenleistung und HBM-Kapazität im Vergleich zur Vorgängergeneration deutlich gesteigert wurden. Er wird für das Training und die Inferenz des großen Modells „Gemini" eingesetzt und über die Google Cloud Platform (GCP) externen Kunden zur Verfügung gestellt. Microsoft (MS) hat zur Optimierung des Preis-Leistungs-Verhältnisses seiner Azure-Cloud-Infrastruktur die maßgeschneiderte KI-Beschleunigerserie „Maia" eingeführt. Dieser Chip basiert auf der Chipdesign-Partnerschaft mit OpenAI und zielt darauf ab, die Betriebskosten für Azure OpenAI-Dienste (wie ChatGPT) zu senken. Meta führt die selbst entwickelten Trainings- und Inferenzbeschleuniger „MTIA" (Meta Training and Inference Accelerator) ein. Dieser Chip ist für Werbeempfehlungsalgorithmen und Feed-Sortierungs-Engines optimiert, bewältigt groß angelegte Berechnungen mit geringem Stromverbrauch und wurde auf die Service-Inferenz seiner Open-Source-Sprachmodellreihe „Llama" ausgeweitet.

Unter den Technologiegiganten verfolgt AWS eine zweigleisige Strategie: Einerseits wird das Ökosystem eigener Chips ausgebaut, andererseits die Zusammenarbeit mit Nvidia aufrechterhalten. Das AWS-Beschleunigergeschäft hat bereits einen Umfang von mehreren Milliarden US-Dollar erreicht und ist zu einer Kernebene der Infrastruktur geworden. Über 50 % der Token in seinem vollständig verwalteten generativen KI-Dienst „Amazon Bedrock" werden auf der Infrastruktur seiner eigenen Beschleunigerchips „Trainium" und „Inferentia" ausgeführt. Der „Trainium2", der mit 16 Chips ausgestattet ist und Modelle mit bis zu einer Billion Parametern verarbeiten kann, bietet ein um 30-40 % besseres Preis-Leistungs-Verhältnis als vergleichbare Allzweck-GPU-Instanzen. Der entsprechende Quartalsumsatz stieg um 150 %, und es wurden Produktionspartner gewonnen, darunter der in Zusammenarbeit mit Anthropic aufgebaute Trainingscluster „Project Rainier" sowie Unternehmen wie Apple, Uber und Databricks. Der dedizierte Inferenzchip „Inferentia" bietet im Vergleich zu bestehenden Instanzen einen bis zu 2,3-mal höheren Durchsatz und bis zu 70 % niedrigere Inferenzkosten. AWS hat den für agentenbasierte KI- und Videogenerierungs-Workloads optimierten „Trainium3" eingeführt, dessen Leistung pro Watt im Vergleich zur Vorgängergeneration um bis zu das Vierfache gesteigert wurde. Erste Benchmarks zeigen Kosteneinsparungen von bis zu 50 % im Vergleich zum Training auf Allzweck-GPUs. Der „EC2 Trn3 UltraServer", der bis zu 144 Trainium3-Chips kombiniert, bietet eine Rechenleistung von 362 FP8 PFLOPs und 20,7 TB HBM3e-Speicher. In Verbindung mit dem auf Elastic Fabric Adaptern (EFA) basierenden nicht blockierenden Petabit-Netzwerk „EC2 UltraCluster 3.0" arbeiten Hunderttausende von Chips wie ein einziger Beschleuniger zusammen. Die 2026 neu eingeführte Funktion „Neuron Agentic Development" ermöglicht es KI-Codierungsagenten, bestehende Modelle automatisch auf Trainium zu portieren und eine numerische Konsistenzprüfung durchzuführen, wodurch die Hürde für den Hardwarewechsel beseitigt wird.

Darüber hinaus reduzieren die Technologiegiganten durch Open-Source-Softwareallianzen ihre Abhängigkeit von Nvidias „CUDA". AWS fördert das Open-Source-„Neuron SDK", das auf dem offenen Standard XLA basiert und mit Branchenstandard-Frameworks wie PyTorch, JAX, vLLM und Hugging Face integriert ist. Dies ermöglicht Entwicklern die Nutzung dieser Bibliotheken mit minimalen Code-Änderungen. Der globale Beschleunigermarkt bewegt sich von einem einzigen Monopol universeller Hardware in eine Ära der Architekturvielfalt. Der Wettbewerb der Technologiegiganten bei selbst entwickelten Siliziumchips und der Effizienz der Full-Stack-Infrastruktur wird durch den Anstieg agentenbasierter KI- und hochkapazitiver Mediengenerierungs-Workloads noch intensiver werden.

(Quelle: Pixabay)

Lee Soo-ji, AWS Solutions Architect, wies im Hinblick auf die KI-Infrastrukturstrategie darauf hin, dass AWS mit der Investition in eigene KI-Siliziumchips nicht nur bestimmte Hardware ersetzen wolle, sondern Kunden ein besseres Preis-Leistungs-Verhältnis und eine breitere Auswahl biete, um einen positiven Kreislauf für beschleunigtes Rechnen zu schaffen. Nur wenn mehrere Architekturen gleichzeitig auf dem Markt existieren, könnten durch Wettbewerb Preissenkungen und Leistungsverbesserungen erreicht werden. Bei der Bewertung der KI-Infrastruktur sei das entscheidende Kriterium ein organisch integriertes Full-Stack-System – vom Beschleunigerchip über die ihn unterstützende Serverarchitektur, das Netzwerk zur Verbindung großer Cluster bis hin zur Software und den verwalteten Diensten, die das Hardwarepotenzial maximieren –, um die TCO zu senken. In der nächsten Generation der KI-Umgebung wird das Management der „Token-Ökonomie" und der „Energieeffizienz" über das Überleben von Unternehmensgeschäften entscheiden. Da agentenbasierte KI je nach Aufgabenplanung, Orchestrierung und Echtzeit-Reaktionsanforderungen ständig wechselnde Rechencharakteristiken aufweist und die Rechenzentrumsenergie eine begrenzte Ressource ist, wird die Leistung pro Watt, also die Energieeffizienz, zum zentralen Wettbewerbsvorteil von Unternehmen.

Diese Kurznachricht stammt aus der Übersetzung und Weiterverbreitung von Informationen aus dem globalen Internet und von strategischen Partnern. Sie dient lediglich dem Austausch mit den Lesern. Bei Urheberrechtsverletzungen oder anderen Problemen bitten wir um rechtzeitige Mitteilung, und wir werden die notwendigen Änderungen oder Löschungen vornehmen. Die Weitergabe dieses Artikels ist ausdrücklich ohne formelle Genehmigung verboten.E-Mail: news@wedoany.com