OpenAI veröffentlicht GPT-5.5, Agentenprogrammierung übertrifft Claude Opus 4.7
2026-04-24 14:35
Merken

de.wedoany.com-Bericht: OpenAI hat am 23. April Ortszeit offiziell sein neues Flaggschiff-Sprachmodell GPT-5.5 mit dem internen Codenamen „Spud“ veröffentlicht und gleichzeitig die höherwertige Version GPT-5.5 Pro vorgestellt. Dies ist das erste vollständig neu trainierte Basismodell von OpenAI seit GPT-4.5 und wird nun an ChatGPT- und Codex-Nutzer der Stufen Plus, Pro, Business und Enterprise ausgerollt. Die API-Bereitstellung erfolgt nach Abschluss zusätzlicher Sicherheitsbewertungen. Greg Brockman, Mitbegründer und Präsident von OpenAI, bezeichnete das Modell bei der Vorstellung als „das intelligenteste und intuitivste Modell, das es je gab“, wobei der Kernfortschritt in einem grundlegenden Paradigmenwechsel vom „Beantworten von Fragen“ zum „selbstständigen Erledigen von Aufgaben“ liegt.

GPT-5.5 wird als wegweisendes Produkt für den Eintritt der Künstlichen Intelligenz in das „Zeitalter der Agenten“ positioniert. Brockman erklärte, das Besondere an diesem Modell sei, „dass es mit weniger Anweisungen mehr Arbeit erledigen kann. Es kann ein unklares Problem analysieren und genau herausfinden, was als Nächstes zu tun ist, und legt damit den Grundstein dafür, wie Computerarbeit in Zukunft funktionieren wird.“ OpenAI macht deutlich, dass GPT-5.5 als „neue Intelligenz für echte Arbeit und agentengesteuerte Prozesse“ konzipiert ist, mit Fokus auf Verbesserungen in den Bereichen Agentenprogrammierung, Computernutzung, Wissensarbeit und frühe wissenschaftliche Forschung.

Die Programmierfähigkeiten von GPT-5.5 zeigen die stärksten Verbesserungen. Im Terminal-Bench 2.0-Benchmark, der komplexe Kommandozeilen-Workflows misst, erreicht GPT-5.5 82,7 %, GPT-5.4 75,1 %, Anthropics Claude Opus 4.7 69,4 % und Googles Gemini 3.1 Pro 68,5 % – GPT-5.5 liegt damit mehr als 13 Prozentpunkte vor der Konkurrenz. In OpenAIs internem Expert-SWE-Benchmark, der langfristige Programmieraufgaben mit einer geschätzten mittleren Bearbeitungszeit von 20 Stunden bewertet, erreicht GPT-5.5 73,1 %, eine Steigerung um 4,6 Prozentpunkte gegenüber GPT-5.4 mit 68,5 %. Im OSWorld-Verified-Benchmark erreicht GPT-5.5 78,7 % und übertrifft damit Claude Opus 4.7 mit 78,0 %. Im GDPval-Benchmark, der die berufliche Wissensarbeit in 44 Berufen bewertet, erzielt GPT-5.5 84,9 % und liegt damit vor Claude Opus 4.7 mit 80,3 % und Gemini 3.1 Pro mit 67,3 %. Im Tau2-bench Telecom-Benchmark für Kundendienst-Workflows erreicht GPT-5.5 98,0 %. Bemerkenswert ist, dass GPT-5.5 in allen Bewertungen mit weniger ausgegebenen Token auskommt und somit einen Durchbruch bei „stärker und sparsamer“ erzielt.

In Bezug auf die Effizienz hält GPT-5.5 in realen Produktionsumgebungen die gleiche Token-Latenz wie GPT-5.4 aufrecht, während die für dieselbe Codex-Aufgabe benötigten Token deutlich reduziert werden. Dieser Effizienzsprung ist auf die enge Zusammenarbeit von OpenAI mit Nvidia zurückzuführen – GPT-5.5 und Nvidias GB200- und GB300-NVL72-Systeme wurden von Anfang an gemeinsam optimiert, wobei einige heuristische Algorithmen von KI selbst geschrieben wurden, was die Token-Generierungsgeschwindigkeit um über 20 % verbessert. Im Coding Agent Index von Artificial Analysis belegt GPT-5.5 mit 60 Punkten den ersten Platz, jeweils 3 Punkte vor Claude Opus 4.7 und Gemini 3.1 Pro Preview, und erreicht das höchste Intelligenzniveau bei halben Kosten im Vergleich zur Konkurrenz in derselben Klasse.

Die API-Preise von GPT-5.5 betragen 5 USD pro Million Token für die Eingabe und 30 USD pro Million Token für die Ausgabe, etwa das Doppelte der Preise von GPT-5.4. GPT-5.5 Pro kostet 30 USD pro Million Token für die Eingabe und 180 USD für die Ausgabe. OpenAI gibt an, dass die Nutzung der ausgegebenen Token um etwa 40 % gesunken ist, sodass die Netto-Stückkosten im Vergleich zu GPT-5.4 nur um etwa 20 % gestiegen sind. Umgerechnet auf das gleiche Intelligenzniveau kann GPT-5.5 die gleiche Gesamtpunktzahl wie Claude Opus 4.7 bei nur einem Viertel der Betriebskosten erreichen. In ChatGPT und Codex unterstützt der Kontextfenster 400K bis 1M Token, und Codex hat einen Schnellmodus hinzugefügt, der für den 2,5-fachen Preis die 1,5-fache Generierungsgeschwindigkeit bietet. Derzeit hat Codex 4 Millionen wöchentlich aktive Nutzer, ein Anstieg von 33 % gegenüber 3 Millionen vor zwei Wochen. 85 % der internen Mitarbeiter von OpenAI nutzen Codex wöchentlich.

Die Cybersicherheitsfähigkeiten sind ein weiterer Schwerpunkt, der GPT-5.5 in den Fokus der Branche rückt. Im praxisnahen Penetrationstest-Benchmark des Sicherheitsunternehmens XBOW zeigte GPT-5.5 herausragende Leistungen. GPT-5.0 übersah 40 % der bekannten Schwachstellen, Claude Opus 4.6 reduzierte dies auf 18 %, und GPT-5.5 drückt es weiter auf 10 % herunter. Unter reinen Black-Box-Testbedingungen übertrifft die Leistung von GPT-5.5 die Ergebnisse von GPT-5.0 unter White-Box-Bedingungen mit Quellcode. OpenAI hat es im Rahmen seines Preparedness Framework als „High“-Risikostufe für Cybersicherheit eingestuft und die bisher strengsten Netzrisiko-Klassifikatoren und mehrfache Sicherheitsmaßnahmen implementiert, um potenzielle böswillige Nutzung aktiv zu unterbinden – ein Grund für die verzögerte API-Veröffentlichung im Vergleich zu ChatGPT.

Die Veröffentlichung von GPT-5.5 erfolgt in einer Phase verschärfter Konkurrenz zwischen den führenden KI-Laboren. Das Modell erscheint nur sechs Wochen nach GPT-5.4. Anthropics Claude Mythos Preview liegt zwar bei den meisten absoluten Benchmarks vor GPT-5.5, verfolgt jedoch eine streng limitierte Veröffentlichungsstrategie und ist nur für etwa 40 Institutionen zugänglich, mit API-Preisen von 25 USD bis 125 USD – etwa das Fünffache von GPT-5.5. GPT-5.5 hingegen wird allen zahlenden Nutzern zugänglich gemacht und setzt mit einer Strategie der „Demokratisierung modernster Fähigkeiten“ auf eine differenzierte Wettbewerbsposition gegenüber Anthropic.

Im Bereich der wissenschaftlichen Forschung zeigt GPT-5.5 deutliche Fortschritte. Mark Chen, Chief Research Officer von OpenAI, erklärte, dass das Modell in wissenschaftlichen und technischen Arbeitsabläufen einen „bedeutsamen Durchbruch“ erzielt hat. Im GeneBench-Benchmark für mehrstufige genetische Datenanalyse erreicht GPT-5.5 25,0 %, GPT-5.5 Pro 33,2 %, ein deutlicher Anstieg gegenüber GPT-5.4 mit 19,0 %. Im FrontierMath Tier 4, dem derzeit schwierigsten Mathematik-Benchmark, erreicht GPT-5.5 35,4 %, GPT-5.5 Pro 39,6 %, und übertrifft damit Claude Opus 4.7 mit 22,9 %.

Der Unternehmensmarkt wird zum Hauptschlachtfeld für GPT-5.5. OpenAI gab bekannt, dass die Zahl der zahlenden Geschäftskunden von ChatGPT 9 Millionen erreicht hat, mit über 900 Millionen wöchentlich aktiven Nutzern und über 50 Millionen zahlenden Abonnenten. Leigh-Ann Russell, Chief Information Officer der Bank of New York Mellon, erklärte, dass GPT-5.5 eine sprunghafte Verbesserung bei Antwortqualität und Halluzinationsresistenz zeigt, und die Bank testet GPT-5.5 in über 220 KI-Anwendungsszenarien. OpenAIs internes Finanzteam hat mit GPT-5.5 bereits 24.771 K-1-Steuererklärungen mit insgesamt 71.637 Seiten geprüft und die Aufgabe zwei Wochen früher als im Vorjahr abgeschlossen. Brockman bestätigte, dass GPT-5.5 der Kernmotor der von OpenAI entwickelten „Super-App“ sein wird. Der Wandel vom „Gesprächswerkzeug“ zur „Agenten-Engine“ definiert die Grenzen der Mensch-Maschine-Zusammenarbeit neu.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com