WEKA bestätigt Long-Context-Inferenz in Oracle Cloud mit 10-fachem Durchsatz_Weltnachrichten

WEKA bestätigt Long-Context-Inferenz in Oracle Cloud mit 10-fachem Durchsatz

2026-06-10 11:31

Merken

de.wedoany.com-Bericht: Das US-amerikanische KI-Daten- und Speicher-Infrastruktur-Unternehmen WEKA gab am 9. Juni 2026 bekannt, dass seine NeuralMesh-Plattform in Kombination mit Augmented Memory Grid produktionsnahe Benchmark-Tests auf der Oracle Cloud Infrastructure (OCI) abgeschlossen hat. Die Ergebnisse zeigen, dass die Lösung ohne zusätzliche GPUs oder Cluster-Knoten die Anzahl gleichzeitiger Benutzer in Long-Context-Inferenz-Szenarien um etwa das 10-fache, den Token-Durchsatz um etwa das 10-fache und die Anzahl der pro GPU generierten Token um etwa das 7-fache steigern kann. Die Tests wurden auf einem 9-Knoten-OCI-Bare-Metal-H100-Cluster mit einem Kontextfenster von 100.000 Token durchgeführt.

Die Tests konzentrierten sich auf unternehmenskritische Long-Context-Inferenz. WEKA gab bekannt, dass NeuralMesh in Kombination mit Augmented Memory Grid die Anzahl gleichzeitiger Benutzer von etwa 600 in einer reinen DRAM-Konfiguration auf über 5.000 steigerte. Der Token-Durchsatz erreichte mit der Lösung etwa 2 Millionen Token pro Sekunde, während die DRAM-Baseline unter 200.000 Token pro Sekunde lag. In einem einstündigen Test mit 2.400 Benutzern bediente Augmented Memory Grid etwa 5 Milliarden Token, die DRAM-Baseline etwa 700 Millionen Token.

Die Testumgebung bestand aus 9 OCI-Bare-Metal-H100-Knoten, jeder mit 8 H100-GPUs, insgesamt 72 GPUs. Laut Oracle-Technikblog verfügte jeder Knoten außerdem über 16 Gen4-NVMe-Laufwerke und zwei 200-Gb-RDMA-Netzwerkkarten. Augmented Memory Grid erweiterte den verfügbaren NVMe-Cache auf 287 TiB, während die Baseline-Umgebung über etwa 8,64 TiB DRAM verfügte. Jeder simulierte Benutzer wurde mit 100.000 Token Eingabe und 100 Token Antwort konfiguriert, um den Cache-Druck in langen Dokumenten, mehrrundigen Sitzungen und Agentenaufgaben zu simulieren.

Der Schlüssel bei solchen Tests liegt nicht nur in der Anzahl der GPUs. Long-Context-Inferenz erzeugt während der Ausführung kontinuierlich KV-Caches. Wenn das Kontextfenster auf 100.000 Token skaliert wird, beeinflussen Cache-Kapazität und Trefferquote den Durchsatz, die Latenz und die GPU-Auslastung. In einer reinen DRAM-Konfiguration kommt es nach Cache-Sättigung leicht zu Cache-Verdrängung und wiederholter Prefill-Berechnung. Für Such-, Zusammenfassungs-, Code-Assistenz- und mehrrundige Agentenanwendungen führt dies zu höheren Servicekosten und weniger stabilen Antwortzeiten.

Der Ansatz von Augmented Memory Grid besteht darin, den KV-Cache vom lokalen GPU-Speicher und DRAM zu entkoppeln und in ein clusterweites, leistungsstarkes Token-Repository zu verlagern. WEKA erläutert auf der OCI-Produktseite, dass die Lösung auf NeuralMesh und NeuralMesh Axon basiert und über RDMA und GPUDirect Storage kontinuierlich Key-Value-Cache-Daten zwischen GPU-Speicher und Flash-Speicher überträgt, wobei die OCI-Bare-Metal-GPU-Infrastruktur genutzt wird, um die Cache-Ebene ohne zusätzliches physisches DRAM zu erweitern.

Laut Oracle-Technikblog wechselten die Tests von der frühen TTFT-Validierung zu produktionsrelevanten Lasttests, die gleichzeitige Dichte, anhaltenden Durchsatz, Cache-Persistenz und Servicestabilität unter hoher Last abdeckten. Der Blog zeigt auch, dass die Tests eine Standard-vLLM-Service-Baseline mit HBM+DRAM mit der Cache-Erweiterungslösung mit Augmented Memory Grid verglichen. Die Ergebnisse zeigen, dass die Baseline-Antwortzeiten nach Erreichen der DRAM-Cache-Grenze schwankten, während die Cache-Erweiterungslösung bei höherer Parallelität ein stabileres Service-Level beibehielt.

WEKA gab an, dass NeuralMesh with Augmented Memory Grid bereits für Kunden verfügbar ist und über den Oracle Cloud Marketplace bereitgestellt wird, wobei OCI der erste Cloud-Startpartner ist. Für Kunden, die Unternehmens-KI-Anwendungen bereitstellen, weisen diese Ergebnisse auf ein reales Problem hin: Angesichts des rasanten Anstiegs der Nachfrage nach Long-Context-Inferenz ist die Skalierung der Rechenleistung nicht die einzige Option. Cache-Erweiterung, Datenpfade und Cluster-Scheduling beeinflussen gleichermaßen die Kosten pro Token und die Online-Servicekapazität.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.