Elon Musk kündigt interne Tests von Grok 4.5 bei SpaceX und Tesla an
2026-06-29 08:56
Merken

de.wedoany.com-Bericht: Das neue große Sprachmodell Grok 4.5 des US-amerikanischen KI-Unternehmens xAI hat die Phase interner Tests bei SpaceX und Tesla erreicht. Am 28. Juni gab Elon Musk bekannt, dass Grok 4.5 auf dem V9-Basismodell mit 1,5 Billionen Parametern basiert und in der ergänzenden Trainingsphase Daten von Cursor integriert wurden. Erste Evaluierungen zeigen, dass die Leistung des Modells nahe an die des Flaggschiffmodells Claude Opus von Anthropic heranreicht oder diese sogar übertreffen könnte. Derzeit wird Grok 4.5 durch bestärkendes Lernen kontinuierlich optimiert, und der dazugehörige Grok Build-Testbenchmark wird ebenfalls weiterentwickelt.

Die Besonderheit dieser internen Tests liegt darin, dass die Testszenarien direkt in den beiden hochkomplexen Ingenieurunternehmen SpaceX und Tesla stattfinden. SpaceX umfasst Raketen, Satelliten, das Starlink-Netzwerk, Fertigungstechnik und Missionsmanagement; Tesla umfasst Fahrzeugentwicklung, Fabrikproduktion, autonomes Fahren, Energiesysteme und Robotik. Die Platzierung des neuen Modells in diesen realen Ingenieurumgebungen bedeutet, dass xAI nicht nur die Leistung des Modells bei allgemeinen Frage-Antwort-Aufgaben, Codegenerierung und Reasoning-Evaluierungen prüfen muss, sondern auch beobachten muss, ob es mit technischen Dokumenten, Forschungs- und Entwicklungsaufgaben, automatisierten Prozessen und komplexer geschäftlicher Zusammenarbeit umgehen kann.

Die Verwendung des V9-Basismodells mit 1,5 Billionen Parametern für Grok 4.5 zeigt, dass xAI weiterhin auf der Route großer Basismodelle voranschreitet. Die Parameteranzahl an sich ist nicht gleichbedeutend mit der endgültigen Leistungsfähigkeit, aber große Basismodelle bieten eine höhere Kapazität für Reasoning, Programmierung, Wissensintegration und die Generalisierung über mehrere Aufgaben hinweg. Was die Produktleistung tatsächlich beeinflusst, sind auch die Qualität der Trainingsdaten, die Nachbearbeitungsstrategie, Methoden des bestärkenden Lernens, die Fähigkeit zur Werkzeugnutzung, die Kontextverarbeitungskapazität und die Effizienz des Online-Inferenzsystems. Musks Betonung, dass das bestärkende Lernen das Modell noch deutlich verbessert, deutet darauf hin, dass Grok 4.5 noch nicht den endgültigen Veröffentlichungsstatus erreicht hat.

Die Integration von Cursor-Daten in das ergänzende Training ist der industriell bedeutsamste Teil dieser Nachricht. Cursor ist eines der derzeit von Entwicklern häufig genutzten KI-Programmiertools. Die entsprechenden Daten könnten dem Modell helfen, reale Entwicklungsabläufe, Code-Kontexte, Debugging-Pfade und Formen der ingenieurtechnischen Zusammenarbeit besser zu verstehen. Der Wettbewerb bei großen Modellen hat sich von der Frage „Kann Code geschrieben werden?" zur Phase „Kann an der Softwareentwicklung teilgenommen werden?" entwickelt. Ein gutes Programmiermodell muss Projektstrukturen, Funktionsabhängigkeiten, Testrückmeldungen, Fehlerprotokolle und die Intention mehrfacher Änderungen verstehen. Wenn Grok 4.5 mit solchen Daten ergänzend trainiert wird, könnte dies seine Fähigkeiten bei der Codegenerierung und der Bearbeitung technischer Aufgaben stärken.

Der Vergleich mit Claude Opus zeigt auch, dass xAI Grok 4.5 in die Wettbewerbsreihe der Spitzenmodelle einordnet. Claude Opus gilt seit langem als eines der Modelle mit starken Fähigkeiten in anspruchsvoller Textlogik, Codeanalyse und der Bearbeitung komplexer Aufgaben. Musks Formulierung „nahe an, möglicherweise sogar übertrifft" ist noch eine frühe interne Einschätzung und bedeutet nicht, dass öffentliche Drittanbieter-Benchmarks bereits einen Sieg bestätigt haben. Für externe Entwickler und Unternehmenskunden muss die tatsächliche Wettbewerbsfähigkeit von Grok 4.5 noch auf umfassendere öffentliche Evaluierungen, API-Leistung, Long-Context-Aufgaben, Programmieraufgaben und Ergebnisse bei mehrstufigen Agentenaufgaben warten.

Die Verbesserung des Grok Build-Testbenchmarks ist ebenfalls beachtenswert. Spitzenmodelle werden nicht mehr nur durch traditionelle Prüfungsfragen und einstufige Frage-Antwort-Evaluierungen bewertet. Immer mehr Modellunternehmen beginnen, interne Benchmarks für reale Aufgaben zu entwickeln. Wenn Grok Build auf Szenarien der Softwareerstellung, Produktgenerierung, technischen Ausführung oder Agentenentwicklung abzielt, könnte es zu einem wichtigen Werkzeug für xAI werden, um die praktische Leistungsfähigkeit des Modells zu messen. Ob das Modell in komplexen Aufgaben stabil Schritte zerlegen, Werkzeuge aufrufen, Code schreiben, Fehler finden und sich kontinuierlich verbessern kann, wird darüber entscheiden, ob es in betriebliche Produktionsabläufe integriert werden kann.

Musk verriet außerdem, dass SpaceX in den verbleibenden Monaten dieses Jahres jeden Monat ein völlig neu trainiertes Modell veröffentlichen wird. Sollte dieses Tempo eingehalten werden, würde dies bedeuten, dass xAI und das zu Musk gehörende Ingenieursystem versuchen, die Iteration von Basismodellen mit höherer Frequenz durchzuführen. Anders als bei reinen Nachbearbeitungen oder kleinen Versionsupdates erfordert das Training eines neuen Modells von Grund auf erhebliche Rechenleistung, Daten, Trainingstechnik und Evaluierungssysteme. Die monatliche Veröffentlichung neuer Modelle ist eine große Herausforderung und wird auch die technischen Fähigkeiten von xAI in Bezug auf Trainingscluster, Datenpipelines, Modellarchitekturen und Veröffentlichungsprozesse auf die Probe stellen.

Die internen Tests von Grok 4.5 bei SpaceX und Tesla könnten auch die Art und Weise beeinflussen, wie KI in Musks Ökosystem eingesetzt wird. Tesla kann die Modellfähigkeiten in den Bereichen Konstruktion, Fertigungsoptimierung, Kundendienst, interne Softwareentwicklung und Roboterentwicklung testen; SpaceX kann das Modell in Missionsdokumentation, Satellitennetzwerken, technischer Simulation und der Koordination komplexer Abläufe einsetzen. Sollten die internen Tests stabile Ergebnisse liefern, könnte Grok 4.5 anschließend tiefer in die Forschungs-, Entwicklungs- und Betriebssysteme der zu Musk gehörenden Unternehmen integriert werden, und nicht nur als Chatbot für normale Nutzer dienen.

Dies spiegelt auch die Verschiebung des Wettbewerbs bei KI-Spitzenmodellen hin zu „Modellfähigkeit + reales Szenario + technischer Kreislauf" wider. OpenAI, Anthropic, Google, Meta und xAI kämpfen alle um leistungsstärkere Modelle, aber wer das Modell in reale Organisationen einbetten und Produktivitätssteigerungen erzielen kann, wird eher langfristige kommerzielle Vorteile erlangen. Die Entscheidung von Grok 4.5, zunächst interne Tests bei SpaceX und Tesla durchzuführen, ist im Kern ein Stresstest des Modells in komplexen Ingenieurunternehmen, um zu überprüfen, ob es die Fähigkeit besitzt, in wertschöpfungsintensive Produktionsszenarien einzusteigen.

Die weiteren Beobachtungspunkte konzentrieren sich auf drei Aspekte: Erstens, wann Grok 4.5 für externe Nutzer oder Entwickler geöffnet wird; zweitens, ob die öffentlichen Evaluierungen die frühe Behauptung stützen können, es sei „nahe an oder besser als Opus"; drittens, ob die internen Tests bei SpaceX und Tesla in wiederverwendbare unternehmensweite KI-Fähigkeiten umgewandelt werden können. Mit dem Fortschritt des bestärkenden Lernens und des Grok Build-Benchmarks wird die Frage, ob Grok 4.5 von einem internen Testmodell zu einem Hauptkonkurrenten auf dem Spitzen-KI-Markt werden kann, der wichtigste Beobachtungspunkt für xAI in der nächsten Phase sein.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com