Qualcomm stellt auf dem Investorentag 2026 den KI250-Beschleuniger auf Basis von HBC vor
2026-07-01 13:53
Merken

de.wedoany.com-Bericht: Qualcomm kündigt den Einstieg in die KI-Infrastruktur für Rechenzentren an. Das Unternehmen präsentierte auf dem Investorentag 2026 die KI250-Serie von Beschleunigern, die auf einer Near-Memory-Computing-Architektur basieren. Diese Technologie stapelt DRAM, um einheitliche Rechen- und Speichermodule zu bilden, und zielt darauf ab, eine höhere Inferenzeffizienz als aktuelle GPUs zu bieten.

Qualcomm-Präsentationsfolie, die HBC-Technologiemodule und ein leuchtendes Chip-Grafik auf der Bühne zeigt.

Qualcomm nennt die Technologie High Bandwidth Computing (HBC). Tony Pialis, Executive Vice President für Rechenzentren, erklärte in der Investorenpräsentation, dass HBC die Leistungsvorteile von SRAM mit der Dichte und Speicherkapazität von HBM-Stapeln vereint. Die KI250-Serie soll im Rahmen des Dragonfly-Racksystems im nächsten Jahr auf den Markt kommen, was einen deutlichen Wandel in Qualcomms KI-Infrastrukturstrategie markiert. Obwohl die Snapdragon-Prozessoren bereits über eine integrierte NPU verfügen, hatte Qualcomm im Rechenzentrumsbereich bisher Schwierigkeiten, eine vergleichbare Marktaufmerksamkeit wie Nvidia, AMD oder sogar Startups wie Cerebras zu erlangen.

Im Vergleich zu den GPUs der beiden Branchenriesen sind die KI-Beschleuniger von Qualcomm derzeit nicht überlegen, doch das Unternehmen sucht nach Wegen, im Rechenzentrumsbereich Fuß zu fassen. Die KI250-Einzelkarte gibt eine Speicherkapazität von 768 GB und eine effektive Speicherbandbreite von bis zu 133 TB/s an. Zum Vergleich: Nvidias Groq 3 LPU bietet nur 500 MB SRAM und 150 TB/s Bandbreite. Qualcomm räumt ein, dass diese Zahlen auf dem Begriff „effektiv" beruhen, da das auf KI200 basierende Dragonfly-System eine gesamte „effektive" Speicherbandbreite von 414 TB/s für alle 56 Chips beansprucht, aber um diesen Wert allein mit 8800 MT/s LPDDR5x zu erreichen, wäre ein 6720 Bit breiter Bus erforderlich, den das Unternehmen mit ziemlicher Sicherheit nicht hat. Qualcomm besteht darauf, dass dies die „reine physikalische Bandbreite der LPDDR-Schnittstelle" darstellt, lehnt jedoch eine Erklärung ab, wie es das erreicht, wofür Nvidia acht HBM3e-Stapel benötigt.

Qualcomms Marketingmaterialien zeigen, dass die KI250 mit der Umstellung auf HBC die 18-fache effektive Bandbreite der KI200 bieten wird, und die kommende KI300 die 54-fache Bandbreite. Diese „effektiven" Multiplikatoren sind tatsächlich ein Merkmal der HBC-Architektur. Durch die Verlagerung eines Teils der XPU-Recheneinheiten unter den DRAM kann der Stromverbrauch des Chips erheblich gesenkt werden. Herkömmliche Rechenzentrums-GPUs sind auf den Datenaustausch zwischen HBM und dem Rechen-Die angewiesen, was selbst bei fortschrittlichen Verpackungstechnologien wie TSMCs CoWoS einen erheblichen Stromverbrauch verursacht. HBC hingegen stapelt DRAM direkt über einem Teil der Logik und verwendet Through-Silicon Vias (TSVs) zur Verbindung, wodurch der Weg vom Rechnen zum Speicher drastisch verkürzt wird. Pialis verglich dies damit, im Gebäude zu arbeiten, in dem man wohnt – man muss sich nur auf und ab bewegen, ohne Autobahnen und teure Silizium-Zwischenlagen nutzen zu müssen.

Der Vorteil der Ausführung bandbreitenintensiver Operationen auf dem Basis-Die liegt in der Reduzierung der Datenübertragung zwischen HBC und SoC, was die Speicherbandbreite effektiv vergrößert. Qualcomm wird wahrscheinlich nicht den gesamten KI-Software-Stack auf HBC ausführen, da die höhere Speicherbandbreite hauptsächlich der Dekodierungsphase zugutekommt, in der alle aktiven Gewichte des Modells autoregressiv Token für Token aus dem Speicher fließen. Die Dekodierung ist nicht rechenintensiv, daher vermeidet die teilweise oder vollständige Ausführung der Dekodierung in HBC die thermischen Einschränkungen, die durch das Vergraben von Recheneinheiten unter mehreren DRAM-Schichten entstehen. Qualcomm gibt an, dass die KI250 als eigenständiger KI-Beschleuniger oder in einer getrennten Inferenzarchitektur verwendet werden kann, bei der GPUs oder andere Qualcomm-Komponenten die Prompt-Verarbeitung übernehmen, während die KI250 die speicherintensiven Dekodierungsoperationen beschleunigt. Qualcomm hat in der Ankündigung der KI250 keine Spitzen-FLOPS-Werte genannt; auf Anfrage lehnte das Unternehmen die Angabe von Details ab.

Obwohl Qualcomm einer der ersten Chipdesigner ist, die Near-Memory oder HBC propagieren, ist diese Technologie für Nvidia oder AMD nicht unerreichbar. Gerüchten zufolge arbeiten sowohl Nvidia als auch AMD mit HBM-Lieferanten und TSMC zusammen, um kundenspezifische Basis-Dies zu entwickeln, die die Leistung der nächsten Chip-Generation verbessern sollen. Qualcomm erklärt, dass sein HBC „LPDDR-Speicher in einer speziell entwickelten Near-Memory-Computing-Architektur verwendet, die Rechenleistung und hochgradig beschleunigte Speicherbandbreite in einem 3D-gestapelten Siliziumdesign kombiniert. HBC ist eine einzigartige Architektur, die darauf abzielt, den KI-Datenbewegungsengpass zu bewältigen, indem sie Rechenleistung und Speicher näher zusammenbringt, die Effizienz der Speicherbandbreite verbessert und die Energieeffizienz von KI-Inferenz-Workloads steigert. HBM hat mehr DRAM-Stapel, verwendet 2,5D-Zwischenlagen für mehr Leitungen und führt keine Berechnungen auf dem Basis-Logik-Die durch." Das KI-Chip-Startup d-Matrix entwickelt ebenfalls Beschleuniger, die 3D-gestapelten DRAM nutzen, um die In-Memory-Computing-Fähigkeiten zu erweitern.

Während des Investorentags gab Qualcomm gleichzeitig die Übernahme des KI-Software-Startups Modular bekannt. Modular wurde von Tim Davis und Chris Lattner gegründet, wobei Letzterer der Schöpfer von LLVM, Clang, der Programmiersprache Swift und der Compiler-Infrastruktur für mehrschichtige Zwischendarstellungen (MLIR) ist. Bei Modular entwickelte Lattner mit seinem Team Mojo, eine low-level Programmier-Schnittstelle für GPUs, die eine leistungsstarke Alternative zu Nvidias CUDA oder AMDs HIP- und ROCm-Stack bietet. Das Kernkonzept ist, dass Benutzer in der Lage sein sollten, leistungsstarke KI-Anwendungen zu schreiben, ohne sich um die zugrunde liegende Hardware kümmern zu müssen. Für Qualcomm bietet Mojo die Möglichkeit, den CUDA-Graben zu umgehen – Kunden müssen sich nicht für eine Plattform entscheiden, sondern können Anwendungen entwickeln und auf jeder verfügbaren Rechenressource ausführen. Modular hat auch eine Service-Plattform namens Max entwickelt, ähnlich wie SGLang oder vLLM, die austauschbar auf AMD- oder Nvidia-Hardware läuft und aufgrund der Konstruktion auf Mojo theoretisch kaum manuelle Optimierung erfordert.

Sollte die Übernahme in diesem Jahr ohne Eingreifen der Aufsichtsbehörden abgeschlossen werden, sollte dieses Produkt Qualcomm dabei helfen, in einer Umgebung zu konkurrieren, in der Software wichtiger wird als Hardware. Qualcomm plant, später in diesem Jahr die KI200-Serie von Racks auf den Markt zu bringen, ab 2027 die erste HBC-basierte KI250 und für 2028 die zweite HBC-Plattform. Das Unternehmen hat zuvor auch Informationen über seinen neuen Rechenzentrums-CPU veröffentlicht.

Diese Kurznachricht stammt aus der Übersetzung und Weiterverbreitung von Informationen aus dem globalen Internet und von strategischen Partnern. Sie dient lediglich dem Austausch mit den Lesern. Bei Urheberrechtsverletzungen oder anderen Problemen bitten wir um rechtzeitige Mitteilung, und wir werden die notwendigen Änderungen oder Löschungen vornehmen. Die Weitergabe dieses Artikels ist ausdrücklich ohne formelle Genehmigung verboten.E-Mail: news@wedoany.com