Chinesischer Hersteller Longsys betreibt 397B-Modell auf AMD Ryzen AI-Plattform
2026-06-21 11:14
Merken

de.wedoany.com-Bericht: AMD hat kürzlich seine Ryzen AI Halo-Plattform zu einem Preis von 4.000 US-Dollar auf den Markt gebracht, was Diskussionen über einen Vergleich mit dem etwas teureren Nvidia DGX Spark-Produkt auslöste. Der Speicher- und Arbeitsspeicherhersteller Longsys ist noch einen Schritt weiter gegangen und hat demonstriert, wie auf dieser Plattform ein KI-Modell mit 397 Milliarden Parametern lokal ausgeführt werden kann. Die Demonstration nutzte einen 16-Kern-Ryzen AI Max+ 395-Prozessor mit 128 GB Arbeitsspeicher und erreichte durch die eigene SPU- und iSA-Konfiguration eine Echtzeit-Datenkomprimierung. Dadurch konnte das Gerät mit nur 128 GB Unified Memory (davon 96 GB für die GPU nutzbar) ein Modell ausführen, das normalerweise 200–250 GB Videospeicher benötigt.

AMD Ryzen AI

Es wird vermutet, dass es sich bei dem Modell um eine angepasste Version von Alibabas Qwen 3.5 397B (A17B) handelt, die auf dem Mixture-of-Experts (MoE)-Ansatz basiert. Selbst bei INT4-Quantisierung übersteigt der Speicherbedarf den verfügbaren Arbeitsspeicher des Demonstrationsgeräts bei weitem. Longsys gibt an, dass die Methode Experten-Entladung, intelligentes Cache-Management und prädiktive Prefetching-Algorithmen nutzt, um inaktive Experten vom DRAM in einen großen, schnellen Speicherpuffer auszulagern. Die KI-Chips können diese bei Bedarf wieder laden. Dieser Ansatz zielt darauf ab, die Herausforderungen der großen Parameteranzahl von MoE-Sprachmodellen, der schnellen Ausweitung des KV-Caches und der I/O-Latenz zu bewältigen. Das Unternehmen behauptet, durch die Nutzung der Cache-Ebene den DRAM-Bedarf zu senken und in Speicherlaufwerken mit bis zu 128 GB die doppelte Datenmenge unterbringen zu können. Bemerkenswerterweise lieferte Longsys keine Details zur Rechenleistung, gemessen in Tokens pro Sekunde; die Ryzen AI-Chips sind in dieser Hinsicht im Vergleich zu den meisten modernen KI-GPU-Produkten relativ begrenzt. Dennoch zeigt dieser Ansatz, Speicher als Arbeitsspeicher zu betrachten, dass durch die Nutzung schneller Speicher Speicherbeschränkungen umgangen werden können, sodass Spitzenmodelle, die normalerweise teure KI-Hardware erfordern, auf handtellergroßen Geräten laufen.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com