de.wedoany.com-Bericht: Forscher von Xiaomi haben das Framework HarnessX vorgestellt, das darauf abzielt, das Leistungsproblem von KI-Agenten in Unternehmen zu lösen, das durch den technischen Engpass des „Harness“ (der Kopplung) verursacht wird. Das Framework behandelt KI-Harnesses als komponierbare Objekte und verbessert deren Code autonom, wodurch die Leistung von KI-Systemen in Bereichen wie Softwareentwicklung und Webinteraktion gesteigert wird.
Derzeit sind die meisten Harnesses für KI-Anwendungen statisch und handgefertigt und besitzen nicht die Fähigkeit, sich auf Basis von Ausführungsdaten automatisch zu verbessern. Dies ist ein entscheidender Faktor, der KI-Agenten daran hindert, komplexe langfristige Aufgaben zu bewältigen. Die traditionelle Harness-Entwicklung steht vor drei großen Herausforderungen: Erstens sind sie statisch und müssen manuell neu geschrieben werden; zweitens führt die Verflechtung der Architektur dazu, dass Anpassungen an einer Komponente andere Teile beschädigen können; drittens werden Harness und Basismodell isoliert optimiert, und Ausführungspfade werden oft verworfen.
HarnessX löst diese Engpässe durch eine „einheitliche Harness-Gießerei“. Die Kerninnovation besteht darin, den Harness als „First-Class-Objekt“ zu behandeln, d. h. als eine unabhängig serialisierbare, modulare und austauschbare Entität, wodurch die Modellkonfiguration von der Harness-Konfiguration getrennt wird. Diese Methode zerlegt das Agentenverhalten in Komponenten wie Kontextzusammenstellung, Gedächtnisverwaltung, Tool-Ökosystem, Kontrollfluss und Beobachtbarkeit, wobei jedes Verhalten als ein „Prozessor“ in die Lebenszyklus-Hooks des Harness eingefügt wird.

Um die modulare Struktur automatisch zu optimieren, führt HarnessX AEGIS ein, eine pfadgesteuerte Evolutions-Engine. Diese Engine behandelt die Harness-Anpassung als ein Problem des bestärkenden Lernens und entwirft eine vierstufige Pipeline mit Verdauungsapparat, Planer, Evolver sowie Kritiker und Tor, um pathologische Phänomene wie Reward Hacking, katastrophales Vergessen und unzureichende Exploration zu bekämpfen. Der Verdauungsapparat komprimiert Ausführungspfade zu strukturierten Zusammenfassungen, der Planer analysiert die Zusammenfassungen, um strukturelle Änderungen zu erkunden, der Evolver generiert Code-Änderungen und Tests auf Code-Ebene, und Kritiker und Tor dienen dazu, Reward Hacking und katastrophales Vergessen zu verhindern.

HarnessX realisiert auch die Koevolution von Harness und Modell. Durch den Cross-Harness-GRPO-Algorithmus (Group Relative Policy Optimization) werden Ausführungspfade, die auf verschiedenen Harness-Versionen generiert wurden, als bestärkendes Lernsignal für das Modell zusammengeführt, sodass das Modell fortgeschrittene Strategien wie die Verwendung neuer Tools verinnerlichen kann.

Praktische Tests wurden auf fünf Benchmarks durchgeführt, die Softwareentwicklung, mehrstufige Kundendienstgespräche, Webnavigation, offenes mehrstufiges Denken und verkörperte Planung umfassen. Bei den Tests war ein von Claude Opus 4.6 angetriebener Meta-Agent für die Analyse von Logs und das Schreiben von Code verantwortlich, während die Aufgabenagenten von Claude Sonnet 4.6, GPT-5.4 und dem Open-Weight-Modell Qwen3.5-9B übernommen wurden. Die Ergebnisse zeigten, dass dynamisch evolvierte Harnesses in 14 von 15 Modell-Benchmark-Kombinationen die Leistung verbesserten, mit einer durchschnittlichen absoluten Leistungssteigerung von +14,5 %. Das schwächste Open-Weight-Modell Qwen3.5-9B profitierte am meisten, mit einem Leistungssprung von +44,0 % auf dem ALFWorld-Benchmark für verkörperte Planung und +18,2 % auf dem SWE-bench Verified-Benchmark für Softwareentwicklung. Wenn die mit den evolvierten Harnesses generierten Daten zum Training des Basismodells verwendet wurden, brachte dies eine zusätzliche durchschnittliche Leistungssteigerung von +4,7 %.

HarnessX ist derzeit auf leistungsstarke geschlossene Frontier-Modelle (wie Claude Opus) als Meta-Agenten angewiesen, um den Harness-Code neu zu schreiben. Die Fähigkeit von Open-Weight-Modellen als Meta-Agenten muss noch getestet werden. Darüber hinaus kann das Framework die Gesamtfähigkeiten nicht verbessern, wenn das zugrunde liegende Modell selbst keine komplexen Arbeitsabläufe ausführen kann. Dennoch planen die Forscher, den Code in zukünftigen Updates zu veröffentlichen. HarnessX bietet Praktikern einen neuen Ansatz, der auf die Optimierung der Harness-Entwicklung abzielt, anstatt nur auf die Modellerweiterung zu setzen.
Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









