de.wedoany.com-Bericht: Intel und AMD haben kürzlich die vollständige Spezifikation der ACE-CPU-Erweiterung veröffentlicht, die darauf abzielt, die Effizienz und Energieeffizienz von x86-Prozessoren bei der Ausführung bestimmter KI-Aufgaben zu verbessern. Diese Erweiterung bietet eine bessere technische Lösung für die Ausführung solcher Aufgaben auf der CPU.

Die meisten aktuellen KI-Modelle laufen auf GPUs, aber nicht alle KI-Aufgaben sind für diese Hardware geeignet. Bei kleineren Modellen oder latenzempfindlichen Einzelbenutzeroperationen kann die Ausführung auf der CPU den Overhead der Datenübertragung zwischen CPU und GPU vermeiden. Gleichzeitig fehlt in vielen Szenarien eine GPU oder es ist nur eine integrierte Grafikeinheit mit begrenzter Leistung vorhanden. Der ACE-Standard erreicht dies, indem er einen technischen Standard bereitstellt, der vorhandene AVX10-Register nutzt und dedizierte Siliziumschaltungen für die Matrixmultiplikation hinzufügt. Seine Hauptvorteile sind eine höhere Energieeffizienz, vereinfachte Entwicklungs- und Optimierungsprozesse sowie die Unterstützung von 512-Bit-Eingaben, was die Integration von ACE in bestehende Designs erleichtert.
Die Matrixmultiplikation ist eine grundlegende Operation für KI-Workloads, bei der Multiplikations-Additions-Schleifen auf Datentabellen ausgeführt werden. Obwohl sie auf den meisten CPUs ausgeführt werden kann, ist die Geschwindigkeit begrenzt und der Stromverbrauch hoch. Im Vergleich zu AVX10 kann ACE bei gleicher Anzahl von Eingabevektoren 16-mal mehr Operationen ausführen. Dies entspricht nicht einer 16-fachen Beschleunigung, da dies von der Implementierung abhängt, aber Intel und AMD werden voraussichtlich in zukünftigen Designs mehr Siliziumschaltungen für diese Aufgabe bereitstellen, um die Leistung zu verbessern. Da jeder ACE-Befehl mehr Arbeit leistet als eine äquivalente AVX10-Schleife, wird der Befehls-Overhead reduziert und möglicherweise eine sofort bessere Speicherbandbreitennutzung erzielt.
Die Vorteile von ACE beschränken sich nicht nur darauf, die gleiche Arbeit mit weniger Befehlen zu erledigen. Der Standard ist implementierungsunabhängig, was bedeutet, dass maschinelle Lern-Frameworks und ihre zugrunde liegenden Bibliotheken (wie PyTorch, TensorFlow) nur einen Codepfad schreiben müssen, anstatt mehrere Varianten basierend auf dem AVX-Unterstützungsgrad der zugrunde liegenden Hardware zu erstellen. ACE unterstützt nativ die meisten in maschinellen Lernoperationen verwendeten Datentypen, darunter INT8, INT32, FP8, FP16, FP32 und BF16, und kann nativ das MX-Block-Skalierungsformat des Open Compute Project verwenden, eine Fähigkeit, die AVX10 nicht bietet. Entwickler können auch bestimmte NPU-spezifische Workloads zurück auf die CPU verlagern, wobei ACE ein einheitliches Ziel über die x86-Hardware hinweg bietet und so die Komplexität durch Hardwareunterschiede vermeidet.
Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









