alphaXiv setzt auf das chinesische Open-Source-Modell GLM-5.2 als Ersatz für das eingeschränkte Claude-Modell
2026-06-23 09:18
Merken

de.wedoany.com-Bericht: In der Demonstration des automatischen Forschers von alphaXiv kam erstmals das chinesische Open-Source-Modell GLM-5.2 zum Einsatz, das die aufgrund von US-Beschränkungen nicht mehr zugänglichen Spitzenmodelle von Anthropic – Claude Fable 5 und Mythos 5 – ersetzt. Das alphaXiv-Team stellte klar, dass es sich hierbei lediglich um eine eigene Demonstrationsaktivität handelt, nicht um einen unabhängigen Test. Die Wahl des Open-Source-Alternativs begründet sich darin, dass Spitzenmodelle der Forschung vorenthalten werden und die Open-Source-Community daher nach Alternativen sucht.

In der gezeigten Ausführung führte GLM-5.2 eigenständig einen Vergleich zweier Trainingsansätze für verstärkendes Lernen durch – einen vollständig asynchronen Ansatz und einen kombinierten synchronen Ansatz. Das Experiment lief auf zwei Knoten mit jeweils acht H100-Beschleunigern, basierend auf dem SkyRL-Framework und dem Harbor-Code-Wettbewerbsaufgabenset. Das Team beschrieb, dass der Agent selbstständig Umweltprobleme (libnuma-Abhängigkeit) behob, alle Durchläufe absolvierte und abschließende Vergleichsdaten zu Durchsatz und Belohnungsstabilität zusammenstellte.

Die automatische Forscherfunktion von alphaXiv dient der Lösung von Reproduzierbarkeitsproblemen von Paper-Code. Wenn Nutzer im Paper-Link „arxiv“ durch „autoarxiv“ ersetzen, stellt der Agent automatisch das Repository bereit, repariert die Umgebung, führt minimale Reproduzierbarkeitsprüfungen durch und bewertet die Kosten einer vollständigen Reproduktion. Dieser Prozess umfasst ingenieurtechnische Schritte – Aufbau und Verifikation fremden Codes – nicht wissenschaftliche Entdeckungen. Für privaten Code gibt es die separate Plattform OpenResearch.sh.

GLM-5.2 stammt von Z.ai (ehemals Zhipu AI) aus China. Es ist ein Open-Source-Modell mit MoE-Architektur, etwa 750 Milliarden Parametern, wobei pro Token etwa 40 Milliarden Parameter aktiviert werden, einer Kontextlänge von 1 Million Token und unter der MIT-Lizenz. Das Team wies darauf hin, dass die entscheidende Eigenschaft des Modells nicht seine Benchmark-Ergebnisse seien, sondern dass seine Open-Source-Gewichte nicht von Aufsichtsbehörden zurückgezogen werden können – eine Garantie für Werkzeuge, die vorhersehbaren Zugriff benötigen.

Das alphaXiv-Team räumte ein, dass GLM-5.2 keine visuellen Fähigkeiten besitzt: Während andere Modelle Trends direkt aus Diagrammen von WandB (Experiment-Tracking-Dienst) ablesen, schreibt GLM numpy-Code, um Rohzahlen zu analysieren – für einfache Durchläufe ausreichend, bei komplexen Aufgaben jedoch hinderlich. Das Team erklärte, dass das Modell in der aktuellen Phase noch keine echte Forschung betreibe; seine Stärke liege in der Lösung von Implementierungsproblemen und der Reproduktion bestehender Arbeiten. Die hier beschriebene autonome Forschung beziehe sich auf den ingenieurtechnischen Zyklus von Experimenten, nicht auf wissenschaftliche Entdeckungen.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com