de.wedoany.com-Bericht: Das aus dem Massachusetts Institute of Technology hervorgegangene KI-Unternehmen Liquid AI hat kürzlich ein neues Modell namens LFM2.5-8B-A1B vorgestellt. Dieses Modell verfügt über insgesamt 8 Milliarden Parameter, aktiviert jedoch bei jeder Inferenz nur 1,5 Milliarden Parameter, sodass die tatsächlich genutzte Rechenleistung weniger als ein Fünftel der Gesamtparameter beträgt. Das Modell wurde speziell für Edge-Szenarien wie Smartphones, PCs, Roboter und leichte Serversysteme entwickelt und konkurriert nicht mit großen Cloud-Modellen.
In den letzten zwei Jahren hat die Branche zur Ausführung großer Modelle auf IoT-Geräten üblicherweise Methoden wie Quantisierung, Pruning und Distillation eingesetzt, um ursprünglich für die Cloud entwickelte große Modelle zu komprimieren und auf Edge-Geräten bereitzustellen. Liquid AI verfolgt einen anderen technischen Ansatz, dessen Kern darin besteht, die „Fressweise" des Modells zu ändern, sodass das Modell bei einfachen Aufgaben weniger Ressourcen verbraucht und nur bei komplexen Aufgaben mehr Rechenleistung abruft. Konkret hängt die Energie, die das Modell bei jeder Inferenz verbraucht, direkt vom Schwierigkeitsgrad der eingegebenen Aufgabe ab. Dies wird durch den spärlichen Aktivierungsmechanismus des Mixture-of-Experts (MoE)-Modells erreicht: Das System weckt bei einer eingegebenen Aufgabe nur die relevantesten Expertenmodule, während der Rest inaktiv bleibt.
An der Edge verschiebt sich die zentrale Einschränkung der Intelligenz von Rechenkosten zu Energiekosten. Die Energie (gemessen in Joule), die ein eingebetteter Chip pro Inferenz verbraucht, ist begrenzt und festgelegt. Methoden wie Quantisierung, Pruning und Distillation können zwar das Modellvolumen verkleinern, ändern jedoch nicht das Muster, dass das Modell bei jeder Inferenz alle Parameter durchlaufen muss, was unter strengen Batteriebeschränkungen nicht nachhaltig ist. Der technische Ansatz von Liquid AI besteht darin, die verbrauchte Rechenleistung dynamisch an den Schwierigkeitsgrad der eingegebenen Aufgabe anzupassen, also eine „eingabeadaptive Berechnung" zu erreichen. Diese Idee stammt aus der Forschung am Fadenwurm Caenorhabditis elegans, der nur 302 Neuronen besitzt, dessen Intelligenz jedoch auf der dynamischen Änderung der synaptischen Verbindungsstärke zwischen den Neuronen beruht, nicht auf einer Anhäufung von Größe.
Das LFM2.5-Modell behält effiziente Basisoperatoren bei und fügt den spärlichen MoE-Aktivierungsmechanismus hinzu. Die zugrunde liegende Logik von insgesamt 8 Milliarden Parametern und der Aktivierung von nur etwa 1,5 Milliarden Parametern pro Inferenz liegt genau darin. Der technische Ansatz von Liquid AI hat sich von frühen Continuous-Time-Dynamic-Netzwerken zur aktuellen spärlichen Aktivierungsarchitektur weiterentwickelt, wobei der gemeinsame Kern darin besteht, dass der Rechenaufwand mit der Eingabe variiert. Darüber hinaus befasst sich dieser technische Zweig auch mit der Robustheit des Modells nach der Bereitstellung. Im Gegensatz zu statischen Modellen modellieren flüssige neuronale Netze durch kontinuierliche Zeitgleichungen und adaptive Zeitkonstanten, sodass ihr interner Zustand „fließen" und sich in Echtzeit an den Rhythmus des Eingangssignals anpassen kann. Mehrere Demonstrationen des MIT Computer Science and Artificial Intelligence Laboratory (MIT CSAIL) haben gezeigt, dass von solchen Netzen gesteuerte Agenten auch in unbekannten Umgebungen stabil navigieren und auf Umweltveränderungen reagieren können. Im Vergleich zu Methoden, die auf OTA-Fernaktualisierungen zur Bereitstellung neuer Modelle angewiesen sind, kann diese von Natur aus robuste Architektur vor unbekannten, noch nicht aufgetretenen Störungen schützen.
Im Zeitalter der Edge-Intelligenz verlagert sich der industrielle Wert von den beiden Enden der Modelle und Chips hin zur Kooperationsebene zwischen ihnen. Das von Liquid AI vorgestellte LFM-Modell wurde bereits in der Architekturentwicklung auf Hardware-Kompatibilität optimiert. Das Unternehmen gibt an, dass es nahtlos auf GPUs, CPUs oder NPUs läuft und heterogene Geräte wie Wearables, Roboter, Smartphones, PCs und Autos abdeckt. Das Unternehmen ging im Januar dieses Jahres eine Partnerschaft mit AMD ein und schloss innerhalb von zwei Wochen die lokale Anpassung und Bereitstellung eines 2,6B-Modells (2,6 Milliarden Parameter) auf dessen Ryzen AI-Prozessoren ab. Die Kernfähigkeit hinter dieser Effizienz ist die technische Fähigkeit, unter extremen Hardware-Beschränkungen schnell die optimale Operatorkombination und den geringsten Speicherverbrauch zu erreichen.
Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









