de.wedoany.com-Bericht: Lenovo hat die AION-Initiative angekündigt, die durch direkte Inferenz auf der CPU die Betriebseffizienz steigert, Betriebskosten senkt und die Abhängigkeit von GPUs reduziert.

Ricardo Bloj, Präsident von Lenovo Brasilien, erklärte, dass die AION-Initiative angesichts des wachsenden Bedarfs an Rechenleistung, des begrenzten GPU-Angebots und der hohen Kosten die Positionierung des Unternehmens für die zukünftige Entwicklung klar definiert. Der Kernansatz der Initiative besteht darin, KI-Workloads entsprechend den Anforderungen jeder Anwendung zu optimieren, um die Betriebseffizienz zu steigern und die vorhandene Infrastruktur optimal zu nutzen. Bloj erläuterte, dass AION die Vision des Unternehmens von einer flexiblen Hybrid-Architektur stärkt, mit dem Ziel, Kunden nicht nur Infrastruktur bereitzustellen, sondern ihnen auch beim Aufbau effizienter und skalierbarer KI-Umgebungen zu helfen. Er fügte hinzu, dass Unternehmen mit vorhandenen Ressourcen KI-Projekte beschleunigen, die Time-to-Market verkürzen, die Betriebseffizienz steigern und die Rendite ihrer Infrastrukturinvestitionen erhöhen können.
Das Konzept ermöglicht es, leichtere oder verteilte Inferenz-Workloads direkt auf der CPU auszuführen, sodass GPU-Ressourcen für rechenintensivere Schlüsselanwendungen gebündelt werden können. Neben der Entschärfung der GPU-Kosten- und Versorgungsprobleme adressiert AION auch die allgemeine Herausforderung der unzureichenden CPU-Auslastung in Rechenzentren. Unternehmen können mit vorhandenen CPU-Ressourcen KI-Projekte starten, ohne vollständig auf die Beschaffung spezieller Hardware angewiesen zu sein.
Auf technischer Ebene nutzt die Initiative die Multi-Core-Eigenschaften des Intel Xeon 6 für massive parallele Ausführung, die mehrere Inferenzanfragen gleichzeitig verarbeiten kann. Dies erhöht die Servicekapazität jedes Servers in Unternehmensanwendungen, KI-APIs, Transaktionssystemen und Chatbots erheblich. Laut Lenovo zeigen erste Testergebnisse von AION eine First-Token-Time (FTTT) von 0,3 Millisekunden und eine Antwortgenerierungsrate von 11 Token pro Sekunde bei CPU-Inferenz, ohne Verwendung einer GPU. Bloj erklärte, dass das Projekt demonstriert, wie eine intelligente Kombination verschiedener Technologien den Zugang zu Künstlicher Intelligenz auf nachhaltige und effiziente Weise erweitern kann.









