Microsoft Research veröffentlicht Memora: Token-Verbrauch um 98 % reduziert_Weltnachrichten

Microsoft Research veröffentlicht Memora: Token-Verbrauch um 98 % reduziert

2026-07-01 15:02

Merken

de.wedoany.com-Bericht: Microsoft Research hat ein Langzeitspeichersystem namens Memora entwickelt, das KI-Agenten skalierbarere und zuverlässigere Gedächtnisfähigkeiten bieten soll, indem es den Speicherinhalt von der Abrufmethode entkoppelt.

KI-Gehirn auf einem Computerbildschirm

Da KI-Agenten über Wochen oder Monate hinweg Kontextgedächtnis aufrechterhalten müssen, anstatt nur einzelne Sitzungen zu verarbeiten, führen herkömmliche Gedächtnismethoden leicht zu Informationsfragmentierung und langsameren Abrufen. Microsoft Research gibt an, dass Memora durch die Entkopplung von Speicherinhalt und Abrufmethode den Kontext-Token-Verbrauch um bis zu 98 % reduzieren kann, während die Genauigkeit im Vergleich zum vollständigen Kontext erhalten oder sogar übertroffen wird.

Derzeit stehen KI-Langzeiteinsätze vor Engpässen bei Gedächtnissystemen. Moderne große Sprachmodelle beginnen jede Sitzung von Grund auf; lange Gespräche erfordern das wiederholte Lesen der gesamten Historie, neue Informationen werden als Rohtext oder Zusammenfassungen gespeichert, und wichtige Details können verloren gehen.

Bestehende Lösungen haben jeweils ihre Grenzen. Das Mem0-System extrahiert atomare Fakten aus Gesprächen, die Retrieval-Augmented Generation (RAG)-Methode indiziert Textabschnitte, und graphbasierte Gedächtnissysteme (wie Zep, GraphRAG) bauen Strukturen über Entitätsbeziehungen auf. Diese Methoden geraten jedoch in zwei Extreme: Systeme mit fragmentiertem Inhalt (wie RAG, Mem0) bewahren Details, verlieren aber die narrative Kohärenz; grobkörnige Abstraktionssysteme komprimieren Erfahrungen, verlieren aber Randbedingungen und numerische Details; graphbasierte Systeme erfordern eine strenge Ontologie und der Abruf hängt vom Inhalt selbst ab.

Die Memora-Architektur löst diese Probleme, indem sie den gespeicherten Inhalt von der Abrufmethode entkoppelt. Jeder Gedächtniseintrag besteht aus zwei Teilen: Die primäre Abstraktion ist ein Satz von 6 bis 8 Wörtern, der den grundlegenden Inhalt des Gedächtnisses erfasst; der Gedächtniswert enthält den reichhaltigen Inhalt selbst. Neue Informationen zum selben Thema werden in bestehende Gedächtniseinträge integriert, um Fragmentierung zu vermeiden. Darüber hinaus führt das System Hinweisanker ein, kurze, kontextbewusste Tags, die aus jedem Gedächtniswert extrahiert werden und alternative Zugriffspfade zum selben Gedächtnis bieten.

Memora enthält außerdem einen strategiegesteuerten Retriever, der nicht auf einmal die Top-k ähnlichen Elemente zurückgibt, sondern die Abfrage über Hinweisanker iterativ verfeinert, relevante, aber nicht ähnliche Gedächtnisse präsentiert und entscheidet, wann er stoppt. Sanchit Vir Gogia, Chefanalyst bei Greyhound Research, sagte, Memora lehne den Abkürzungsweg ab, der Abruf mit Gedächtnis gleichsetzt, trenne die reichhaltigen Details des Gedächtnisses vom Suchgriff und mache den Abruf zu einer Navigationshandlung.

Microsoft hat Memora an zwei Benchmarks evaluiert: LoCoMo (durchschnittlich 600 Gesprächsrunden) und LongMemEval (mit 115.000 Token Kontext). Die Testergebnisse zeigen, dass Memora bei LoCoMo eine LLM-Bewertungsgenauigkeit von 86,3 % und bei LongMemEval von 87,4 % erreicht, und damit RAG, Mem0, Nemori, Zep, LangMem und die vollständige Kontextinferenz übertrifft. Die Anzahl der pro Gespräch gespeicherten Gedächtniseinträge (344) beträgt etwa die Hälfte von Mem0 (651), während der Token-Verbrauch im Vergleich zur vollständigen Kontextinferenz um bis zu 98 % reduziert wird.

Gogia wies darauf hin, dass ein geringerer Token-Verbrauch nicht direkt niedrigeren Infrastrukturkosten entspricht. Die Kontextreduzierung in den Benchmarks bedeute nicht, dass die Unternehmensrechnungen um 98 % sinken; die tatsächlichen Kosten umfassen auch Gedächtnisaufbau, Indizierung, Speicherung und Prüfprotokolle. Der stärkste strategische Abrufmodus von Memora benötigt etwa fünf bis sechs Sekunden pro Abfrage, während der einfachere semantische Modus weniger als eine Sekunde benötigt; die Einsparungen bei den Prompt-Token werden teilweise durch Abrufverzögerungen und zusätzliche Inferenz ausgeglichen.

Memora ist derzeit ein aktives Projekt von Microsoft Research; der zugehörige Forschungscode wurde auf GitHub veröffentlicht. Gogia empfiehlt IT-Führungskräften, Memora als Architekturforschung und nicht als produktionsreife Software zu betrachten und Vorsicht walten zu lassen, bis der Code vollständig verifizierbar, wartbar und unterstützbar ist. Darüber hinaus müssen Unternehmen Governance- und Compliance-Richtlinien entwickeln, um ein sicheres Management und die Prüfbarkeit von KI-Gedächtnissen zu gewährleisten, einschließlich der Festlegung, wer Gedächtnisse schreiben oder lesen darf, wie lange Gedächtnisse bestehen bleiben und wie Prüfer Gedächtnisse rekonstruieren können, um den Anforderungen des EU-KI-Gesetzes und des indischen Digital Personal Data Protection Act zu entsprechen.

Amerika

IKT Technik für künstliche Intelligenz

Diese Kurznachricht stammt aus der Übersetzung und Weiterverbreitung von Informationen aus dem globalen Internet und von strategischen Partnern. Sie dient lediglich dem Austausch mit den Lesern. Bei Urheberrechtsverletzungen oder anderen Problemen bitten wir um rechtzeitige Mitteilung, und wir werden die notwendigen Änderungen oder Löschungen vornehmen. Die Weitergabe dieses Artikels ist ausdrücklich ohne formelle Genehmigung verboten.E-Mail: news@wedoany.com

Vorheriger Artikel：Die drei großen deutschen Mobilfunkanbieter stellen MMS-Dienst ein

Nächster Artikel：NASA und AWS ermöglichen 4K-Video-Livestream der Artemis-2-Mondumrundung