de.wedoany.com-Bericht: KI-Großmodelle entwickeln sich mit atemberaubender Geschwindigkeit weiter. Die Steigerungsrate von Speicher und Bandbreite kann mit dem rasanten Wachstum der Modelle nicht Schritt halten. Dies ist das als „Speicherwand“ bekannte Problem, das die Branche seit langem plagt. Erschwerend kommt hinzu, dass die derzeit vorherrschende 2.5D-Gehäusetechnologie (z. B. TSMC CoWoS) eine reine planare Erweiterung darstellt, bei der die Ressourcen für Platzierung und Verdrahtung begrenzt sind und die Integrationsdichte gering ist. In Szenarien mit hoher KI-Rechenleistung kann die Chipfläche nicht weiter verkleinert werden.
Wenn die laterale Skalierung nicht mehr möglich ist, wird die „nach oben wachsende“ 3D-Stapeltechnologie zur unvermeidlichen Wahl. Für chinesische KI-Chips aus heimischer Produktion bietet die 3D-Stapeltechnologie angesichts der industriellen Realität eingeschränkter Kapazitäten fortschrittlicher Fertigungsprozesse und einer stockenden Versorgung mit hochwertigem HBM einen praktikablen Weg, um „Raum gegen Leistung“ zu tauschen und teilweise Prozessbeschränkungen zu umgehen.
01 Gehäusetechnologie: Vom „planaren Fliesenlegen“ zum „dreidimensionalen Stockwerkbau“
Im Bereich der Advanced Packaging ermöglicht die 2.5D-Gehäusetechnologie durch die Integration mehrerer Bare Dies auf einem Silizium-Interposer eine Hochgeschwindigkeitsverbindung und Kurzstreckenkommunikation zwischen den Chips. Der Silizium-Interposer nutzt in der Regel die Through-Silicon-Via (TSV)-Technologie für vertikale Verbindungen, was eine hohe Dichte und hohe Leistungsfähigkeit der Verbindungen bietet und die Gesamtsystemleistung erheblich steigern kann.
Die 3D-Stapeltechnologie erhöht die Funktionalität und Integrationsdichte, senkt die Gehäusekosten und trägt durch die Verkürzung der Verbindungslängen zur Steigerung der Betriebsgeschwindigkeit bei, indem Chips oder Gehäuse gestapelt werden, beispielsweise unter Verwendung von TSV- oder Hybrid-Bonding-Techniken. Durch 3D-Stapelung können Funktionseinheiten, die in einem 2.5D-Gehäuse ursprünglich auf verschiedenen Chips nebeneinander angeordnet waren – wie Rechenlogik, Speicherarrays und I/O-Schnittstellen – in der vertikalen Dimension physisch übereinander gestapelt und elektrisch verbunden werden, wodurch die physikalischen Grenzen der planaren Integration überwunden werden.
Die 3D- und 3.5D-Gehäusetechnologien nutzen das 3D-Stapelverfahren. Die 3D-Gehäusetechnologie stapelt mehrere Bare Dies vertikal und ermöglicht die Kommunikation zwischen den Schichten mittels fortschrittlicher Verbindungstechniken wie TSVs und Micro-Bumps, wodurch die physikalischen Beschränkungen der traditionellen planaren Integration überwunden werden. Diese Architektur verkürzt die elektronischen Übertragungswege drastisch, reduziert signifikant Übertragungsverzögerungen und Stromverbrauch und erreicht gleichzeitig eine extrem hohe Verbindungsbandbreite und Gehäusedichte. Die 3.5D-Gehäusetechnologie baut auf der 3D-Vertikalstapelung auf und führt zusätzlich einen 2.5D-Silizium-Interposer für die laterale Erweiterung ein, wodurch eine „dreidimensionale + planare“ Verbundarchitektur entsteht.
Die derzeit in China vorherrschenden KI-Chips, wie die von Cambricon, Kunlunxin, Biren Technology und Iluvatar CoreX, nutzen grundsätzlich die 2.5D-Gehäusetechnologie, um GPU/AI-Rechenchiplets und HBM-Speicher nebeneinander zu verbinden und über Silizium-Interposer und RDL (Re-Distribution Layer) ein hochdichtes Verbindungsnetzwerk aufzubauen. Die Bandbreite dieser externen Speicherlösungen liegt jedoch typischerweise nur bei 1–4 TB/s, und aufgrund der begrenzten planaren Fläche haben Integrationsdichte und Verbindungsbandbreite nahezu ihre physikalischen Grenzen erreicht.
02 Internationale Giganten: 3D-Stapelung und 3.5D sind in die Massenproduktion übergegangen
Internationale Halbleiterriesen haben bereits frühzeitig in 3D/3.5D investiert, einige Produkte befinden sich bereits in der Auslieferungsphase der Massenproduktion.
Im Jahr 2023 veröffentlichte AMD die Instinct MI300-Serie von KI-Beschleunigern, ein Chip-Produkt, das die 3.5D-Gehäusetechnologie nutzt und in Massenproduktion geht. AMD beschreibt seine Technologie als die Verschmelzung von 3D-gestapelten GPU- und I/O-Chips durch Hybrid-Bonding, kombiniert mit einem standardmäßigen 2.5D-Gehäuse. AMDs 3.5D-Gehäuselösung vereint TSMCs CoWoS (2.5D-Silizium-Interposer) und SoIC (3D-Hybrid-Bonding)-Technologien. Dabei werden GPU/CPU-Chips mittels Cu-Cu-Hybrid-Bonding vertikal auf I/O-Chips gestapelt und dann über den CoWoS-Silizium-Interposer nebeneinander mit HBM3-Speicher verbunden.
Im Dezember 2024 stellte Broadcom erstmals die branchenweit erste 3.5D XDSiP (eXtreme Dimension System in Package)-Gehäuseplattform vor. Diese kombiniert 2.5D-Technologie mit einer 3D-IC-Integration unter Verwendung der Face-to-Face (F2F)-Technologie. Kern der Plattform ist die Face-to-Face (F2F)-Stapeltechnologie, die eine bumplose Hybrid Copper Bonding (HCB)-Verbindung nutzt, um die obersten Metallschichten der übereinanderliegenden Chips direkt zu verbinden. Im Vergleich zur herkömmlichen Face-to-Back (F2B)-Technologie benötigt F2F keine TSVs, ermöglicht eine siebenfache Erhöhung der Signalverbindungen, senkt den Stromverbrauch an der Chip-zu-Chip-Schnittstelle um 90 % und reduziert die Latenzzeiten zwischen Rechen-, Speicher- und I/O-Komponenten innerhalb des 3D-Stapels. Im Jahr 2026 wurde der branchenweit erste auf XDSiP basierende 2nm-kundenspezifische Computing-SoC an Fujitsu für KI-Supercomputer-Cluster ausgeliefert.
Intels EMIB 3.5D-Gehäusetechnologie kombiniert EMIB 2.5D (eingebettete Siliziumbrücke für laterale Verbindungen) mit Foveros Direct 3D (Hybrid-Bonding für vertikales Stapeln) und unterstützt die flexible Integration verschiedener Chip-Heterogenitäten bei Kompatibilität mit dem UCIe-Branchenstandard. Intels Data Center GPU Max Series SoC ist der bisher komplexeste in Massenproduktion gefertigte heterogene Chip, der mit EMIB 3.5D entwickelt wurde und über 100 Milliarden Transistoren, 47 aktive Module und 5 Prozessknoten umfasst.
Die kürzlich vorgestellte HBC-Technologie von Qualcomm verwendet eine innovative, dedizierte Near-Memory-Computing-Architektur, die Rechenleistung und ultraschnellen Speicherbandbreite durch eine 3D-gestapelte Siliziumlösung vereint und so den Datenübertragungsengpass bei KI-Berechnungen adressiert. Der AI250, der mit der ersten Generation der HBC-Technologie ausgestattet ist, erreicht eine branchenführende Bandbreite von 133 TB/s pro Karte, was einer 18-fachen Steigerung der effektiven Speicherbandbreite im Vergleich zum AI200 mit LPDDR5X entspricht. Der AI300 mit der zweiten Generation der HBC-Technologie erzielt einen weiteren sprunghaften Leistungsanstieg und bietet eine 54-fach höhere effektive Speicherbandbreite als der AI200.
03 Chinesische KI-Chip-Hersteller setzen kollektiv auf 3D-Stapelung
Angesichts der führenden Position internationaler Giganten bei 3D-Stapelung und 3.5D-Gehäusen sowie der Beschränkungen bei fortschrittlichen Fertigungsprozessen und der Versorgung mit hochwertigem HBM in China, erforschen chinesische KI-Chip-Hersteller aktiv die vertikale Integration von Speicher- und Recheneinheiten mittels 3D-Stapeltechnologie.
Die Zixuan-Architektur der Unisplendour-Gruppe basiert auf 3D-DRAM und stellt eine neuartige 3.5D-heterogene Integrationslösung dar, die eine Speicherbandbreite von 30 TB/s erreicht. Im PNM-Near-Memory-Computing-Modus reduziert sich die Speicherzugriffslatenz auf bis zu 1/18. Simulationen zeigen, dass der Token-Durchsatz bei gleicher Rechenleistung 1,5- bis 2-mal höher ist als bei Nvidias B200-Serie, und eine skalierte Massenproduktion basierend auf der chinesischen Lieferkette ist möglich.
Der nächste KI-Chip von TsingMicro verwendet ein 3.5D-heterogenes Stapelverfahren, das eine dreidimensionale vertikale Stapelung von rekonfigurierbaren Rechenchiplets und DRAM-Speicherchiplets ermöglicht. Durch diese vertikale Integration von „Rechenchiplet + Speicherchiplet“ wird unter den Bedingungen eingeschränkter fortschrittlicher Prozesse ein Leistungssprung durch Architekturinnovation erzielt. Der zweite 3D-rekonfigurierbare Chip des Unternehmens setzt bahnbrechend auf eine 3D-Speicher-in-Rechner-Architektur plus eine Vier-Chip-Chiplet-Integrationstechnologie. Er wandelt das traditionelle 2D-planare Einspur-Übertragungsmodell in eine dreidimensionale Architektur mit „4 Rechenspuren + 4 Speicherebenen“ um, was die Datendurchsatzeffizienz und Rechendichte erheblich steigert und deutliche Vorteile in Bezug auf Leistung, Energieeffizienz und Flexibilität bietet.
Der 3D-TokenPU-Chip A4E von Suanmiao Technology, der für die Inferenz großer Modelle entwickelt wurde, hat am 15. Juni offiziell das Tape-Out erreicht. Damit wird ein spezialisierter Prozessor für große Modelle realisiert, der auf der heimischen chinesischen Lieferkette basiert und eine 3D-Hybrid-Stapelarchitektur verwendet. Das Produkt der ersten Generation, der A4E, stapelt 8 Speicherwafer vertikal auf einem Rechenlogik-Wafer. Durch TSV- und Bump-Technologie wird eine mikrometerfeine Verbindung hergestellt, die die traditionelle „Millimeter“-Übertragungsdistanz zwischen Chips um zwei Größenordnungen verkürzt. Dies führt zu einer enormen Speicherzugriffsbandbreite von 16 TB/s und mildert effektiv das Problem des Datenhungers.
Intellifusion hat angekündigt, dass der in Entwicklung befindliche Inferenzchip eine 3D-gestapelte Speicherarchitektur einführt: Diese soll eine höhere Bandbreite und geringere Zugriffslatenz bieten, die „Speicherwand“ durchbrechen und die Inferenzeffizienz steigern.
Lingchuan Technology, hervorgegangen aus der Abteilung für heterogenes Computing und Chip-Entwicklung der Kuaishou Group, hat den Tape-Out ihres nächsten Chips im April dieses Jahres abgeschlossen. Der Chip nutzt eine in China entwickelte 3D-Stapeltechnologie und führt eine neuartige 3D-Near-Memory-Architektur ein, die speziell für branchenkritische Herausforderungen wie Wärmeableitung, Kohärenz und Zuverlässigkeit optimiert wurde. Der erste Chip, der SL200, wurde bereits in fast 100.000 Stück verkauft und in Unternehmen wie Kuaishou, Alibaba Cloud, Baidu Cloud und Bilibili eingesetzt. Er deckt 99,7 % der Live-Transcodierungsdienste von Kuaishou ab und versorgt stabil 700 Millionen Nutzer.
04 3D-Stapelung: Die Kluft zwischen Labor und Massenproduktion überwinden
Trotz der vielversprechenden Aussichten der 3D-Stapelung ist ihr technischer Schwierigkeitsgrad weitaus höher als bei herkömmlichen Gehäusen.
An erster Stelle steht das Wärmemanagement und die Kühlung. In einer traditionellen 2D-planaren Architektur kann die vom Bare Die erzeugte Wärme direkt zur darüberliegenden Wärmeverteilungsplatte und zum Kühlkörper geleitet werden. In einer 3D-Architektur muss die Wärme jedoch zahlreiche Hindernisse überwinden und vertikal durch mehrere Siliziumschichten, TSV-Arrays, Polymer-Undertfill-Material und Micro-Bump-Schnittstellen dringen. Bei 2.5D-Integrationsstrukturen können herkömmliche Luftkühlsysteme bei einer Gesamtleistung von etwa 300 Watt noch funktionieren; sobald das System jedoch auf eine echte 3D-Vertikalstapelung umstellt und die Gesamtverlustleistung des Gehäuses 350 Watt übersteigt, versagt die Luftkühlung vollständig, und der Einsatz von Flüssigkeitskühlungssystemen und leistungsfähigen Wärmeleitmaterialien wird zwingend erforderlich.
Zweitens sind da der Hybrid-Bonding-Prozess und die Ausbeute. Die bumplose Hybrid Copper Bonding (HCB)-Technologie erfordert Verbindungsabstände von <10 μm oder sogar 1 μm, was extrem hohe Anforderungen an die Oberflächenplanarität (CMP), die Bonding-Genauigkeit und die thermische Ausdehnungsanpassung stellt. Unterschiede in den Materialien von Siliziumbrücke und Substrat können zu thermischen Fehlanpassungen führen, die mechanische Spannungen und Risse verursachen. Der 3D-Stapelprozess ist komplex, und die Verbesserung der Ausbeute hängt von der kontinuierlichen Verbesserung der Bonding-Genauigkeit ab.
Drittens sind EDA-Tools und Design-Koordination ein Problem. Die Datenmenge im 3D-Design explodiert, was eine tiefgreifende Zusammenarbeit zwischen IC-Designern und Gehäuseingenieuren erfordert. Vorhandene EDA-Tools haben Schwierigkeiten, die multidimensionale Optimierung von thermischen, Signal- und Stromversorgungsintegritätsaspekten gleichzeitig zu bewältigen. Es besteht ein dringender Bedarf an der Entwicklung von thermisch-elektrisch-mechanischen Co-Design-Plattformen. Derzeit bieten die drei internationalen führenden EDA-Unternehmen einige Tool-Unterstützung für das Design von 3D-gestapelten Chips. Im Gegensatz dazu gibt es in China nur wenige spezialisierte EDA-Unternehmen, die vollständige Design-Toolchains für 3D-gestapelte Chips anbieten. Einige Unternehmen können punktuelle Tools für die Simulationsphase von 3D-gestapelten Chips bereitstellen, aber es gibt in China immer noch große Lücken bei Tools für Platzierung und Verdrahtung, Multi-Chip-Verifikation und Multi-Die-DFT-Tests.
Viertens sind Test und Zuverlässigkeit eine Herausforderung. Die Komplexität und hohe Dichte der 3D-Chip-Stapelgehäusetechnologie machen Test und Zuverlässigkeit zu einer großen Herausforderung. Es müssen neue Testmethoden und -geräte entwickelt werden, um die Qualität und Zuverlässigkeit des Gehäuses sicherzustellen. Gleichzeitig sind langfristige Zuverlässigkeitsbewertungen des Gehäuses erforderlich, um seinen stabilen Betrieb unter verschiedenen Umgebungsbedingungen zu gewährleisten.
Schließlich sind da die Montagekomplexität und die Lieferkette. Die physische Montage erfordert das präzise Ausrichten von Bare Dies mit unterschiedlichen Dicken und thermischen Ausdehnungskoeffizienten, was intensive thermomechanische Qualifizierungsarbeiten erfordert. Das Datenvolumen für Design und Analyse übersteigt das von Standardgehäusen bei weitem. Dies führt auch zu relativ hohen Herstellungskosten für die 3D-Chip-Stapelgehäusetechnologie. Es ist notwendig, die Fertigungsprozesse kontinuierlich zu optimieren und die Herstellungskosten zu senken, damit die 3D-Chip-Stapelgehäusetechnologie breiter in realen Produkten eingesetzt werden kann.
Im Post-Moore-Zeitalter nehmen die Grenzerträge der Transistorverkleinerung ab, und Advanced Packaging ist zum Schlüssel für „More than Moore“ geworden. Für chinesische KI-Chips ist es angesichts der industriellen Realität eingeschränkter Importe fortschrittlicher Fertigungsprozesse und hochwertiger HBM schwierig, allein durch die Nachahmung der 2.5D+HBM-Route internationaler Giganten eine differenzierte Wettbewerbsfähigkeit aufzubauen. Von der Zixuan-Architektur von Unisplendour bis zum 3.5D-heterogenen Stapelverfahren von TsingMicro beweisen chinesische Hersteller: Wenn die planare Skalierung an ihre physikalischen Grenzen stößt, könnte das „Wachstum nach oben“ – die Neudefinition der Chip-Integration in drei Dimensionen – der Schlüssel sein, um die „Speicherwand“ und die „Flächenwand“ zu durchbrechen und in der globalen KI-Rechenleistungs-Konkurrenz eine entscheidende Wende zu schaffen.









