JD.com und Forschungseinrichtungen stellen gemeinsam RLSD-Technologie vor, um die Trainingskosten für KI-Inferenzmodelle zu senken
2026-04-29 15:15
Merken

de.wedoany.com-Bericht: Die hohen Kosten für das Training von KI-Inferenzmodellen bereiten Unternehmensteams seit langem Probleme. Forscher von JD.com haben in Zusammenarbeit mit mehreren akademischen Einrichtungen ein neues Trainingsparadigma namens RLSD vorgeschlagen, das darauf abzielt, mit weniger Rechenressourcen maßgeschneiderte Inferenzagenten zu erstellen. Die Technologie kombiniert bestärkendes Lernen mit Selbstdestillation und löst damit Probleme wie spärliche Signale oder hohen Rechenaufwand bei herkömmlichen Methoden.

rlvr

In Experimenten erreichten die mit RLSD trainierten Modelle eine durchschnittliche Genauigkeit von 56,18 % bei mehreren visuellen Inferenz-Benchmarks und übertrafen damit das Basismodell sowie die Standard-RLVR-Methode. Yang Chenxu, Mitautor der Studie, erklärte, RLSD entkopple die Aktualisierungsrichtung von der -stärke, verwende überprüfbare Belohnungssignale zur Bestimmung der Richtung und erziele durch Selbstdestillation ein feingliedriges Token-für-Token-Feedback. Dies vermeide Informationslecks und erhalte die Trainingsstabilität.

RLSD erfordert nur einen zusätzlichen Vorwärtsdurchlauf und konvergiert etwa doppelt so schnell wie herkömmliche Methoden. Es eignet sich für Aufgaben mit überprüfbaren Belohnungen, wie Code-Kompilierung oder mathematische Verifikation, und kann flexibel privilegierte Informationen nutzen. Die Technologie lässt sich leicht in bestehende Open-Source-Frameworks integrieren und bietet Unternehmen einen neuen Ansatz, um Modelle mit internen Daten zu optimieren.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com