Unter der Leitung von Professor Song Hyun-oh vom Fachbereich Informatik und Ingenieurwesen der Seoul National University entwickelte das Team erfolgreich die neue KI-Technologie KVzip. Diese Technologie komprimiert intelligent den Dialogspeicher von Chatbots, die auf großen Sprachmodellen (LLMs) basieren. Solche Chatbots werden häufig für Aufgaben mit langem Kontext eingesetzt, beispielsweise für ausführliche Dialoge und die Zusammenfassung von Dokumenten. Die Forschungsergebnisse wurden auf dem Preprint-Server arXiv veröffentlicht und geben der Entwicklung effizienter und skalierbarer KI-Dialogsysteme neue Impulse.

Der Dialogspeicher dient als temporärer Speicher für Sätze, Fragen und Antworten während der Interaktion mit Chatbots und generiert kohärente, kontextbezogene Antworten. Die KVzip-Technologie komprimiert diesen Speicher effektiv, indem sie redundante oder irrelevante Informationen entfernt. Dadurch können Chatbots ihre Genauigkeit beibehalten, den Speicherverbrauch reduzieren und die Reaktionsgeschwindigkeit erhöhen. Herkömmliche Speicherkomprimierungsverfahren basieren häufig auf der Abfrageoptimierung, was die Leistung bei der Bearbeitung neuer Fragen beeinträchtigt. KVzip hingegen reduziert die Speichergröße von Dialogen mit langem Kontext effektiv, indem es die für die Kontextrekonstruktion notwendigen Informationen beibehält und gleichzeitig die Genauigkeit bewahrt. In verschiedenen Anwendungsfällen erreicht KVzip eine 3- bis 4-fache Reduzierung des Speicherverbrauchs und eine etwa doppelt so hohe Reaktionsgeschwindigkeit, ohne die Genauigkeit zu beeinträchtigen. Diese Technologie wurde erfolgreich in gängigen Open-Source-Sprachverarbeitungssystemen wie Llama 3.1, Qwen 2.5 und Gemma 3 implementiert und hat sich als skalierbar erwiesen.
KVzip ist in NVIDIAs Open-Source-Bibliothek KVPress für KV-Caching und -Komprimierung integriert und ermöglicht so eine einfache Implementierung. Zukünftig wird KVzip voraussichtlich in großen Unternehmen in Sprachlernmanagementsystemen weit verbreitet sein. Dadurch werden Speicherverbrauch und Antwortzeiten reduziert, Server können mehr gleichzeitige Nutzer und längere Konversationen verarbeiten, und die Betriebskosten sinken deutlich. Professor Song Hyun-oh erklärte: „KVzip ermöglicht die Wiederverwendung komprimierter Speicher unter Beibehaltung der wichtigsten Informationen.“ Hauptentwickler Dr. Kim Jang-hyun ergänzte: „KVzip lässt sich nahtlos in reale Sprachlernanwendungen integrieren und gewährleistet so eine höhere Qualität und Geschwindigkeit bei langfristigen Interaktionen.“
Weitere Informationen: Jang-Hyun Kim et al., „KVzip: Abfrageunabhängige Key-Value-Caching-Komprimierung und Kontextrekonstruktion“, arXiv (2025). Deokjae Lee et al., „Q-Palette: Ein fraktionaler Bitquantisierer für optimale Bitzuweisung zur effizienten Implementierung von LLM“, arXiv (2025). Seungyong Moon et al., „Sprachmodelle für eine bessere Suche durch geführtes Reinforcement Self-Training Learning“, arXiv (2024). Jang-Hyun Kim et al., „Großskalige Zielursachenermittlung basierend auf simuliertem Datenlernen“, arXiv (2024). Zeitschrifteninformationen: arXiv















