Einen Monat nach der Veröffentlichung des US-amerikanischen Anthropic-Mythos-Modells entwickeln sich seine Fähigkeiten weiter: Tests des britischen AI Safety Institute zeigen, dass es GPT-5.5 übertrifft_Weltnachrichten

Einen Monat nach der Veröffentlichung des US-amerikanischen Anthropic-Mythos-Modells entwickeln sich seine Fähigkeiten weiter: Tests des britischen AI Safety Institute zeigen, dass es GPT-5.5 übertrifft

2026-05-15 11:06

Merken

de.wedoany.com-Bericht: Das britische AI Safety Institute (AISI) veröffentlichte am 14. Mai neueste Testergebnisse, die zeigen, dass das Frontier-Modell Claude Mythos Preview von Anthropic nach Erhalt eines aktualisierten Modell-Checkpoints seine Cybersicherheitsfähigkeiten erneut verbessert hat und erstmals zwei vollständige Cyberangriffs-Übungsplätze erfolgreich absolvierte. Bei früheren AISI-Bewertungen hatte GPT-5.5 bei Expertenaufgaben mit einer Erfolgsquote von 71,4 % noch knapp über den 68,6 % von Mythos gelegen. Nach diesem Update jedoch vergrößerte Mythos den Abstand zu GPT-5.5 deutlich, indem es bei einer 32-schrittigen simulierten Penetrationsaufgabe in ein Unternehmensnetzwerk mit 6 von 10 erfolgreichen Versuchen bestand.

Mythos wurde am 7. April 2026 von Anthropic offiziell angekündigt und als ein neues Modell einer völlig neuen Klasse positioniert, das die Opus-Serie übertrifft. Unter dem internen Codenamen „Capybara" stellt es das leistungsfähigste KI-System dar, das Anthropic bisher gebaut hat. Anthropic entschied sich, das Modell nicht der Öffentlichkeit zugänglich zu machen, sondern bietet über das Project Glasswing mehr als 40 wichtigen Partnern aus den Bereichen Infrastruktur und Cybersicherheit kontrollierten Zugang für die defensive Schwachstellenerkennung und -behebung. Etwa einen Monat nach der Veröffentlichung von Mythos Preview gab das AISI bekannt, dass es einen aktualisierten Modell-Checkpoint erhalten habe, dessen Leistung bei Cybersicherheitsaufgaben noch stärker sei als zuvor und der sogar erstmals die zuvor von keinem Modell bestandene „Cooling Tower"-Übung zum Angriff auf industrielle Steuerungssysteme erfolgreich absolvierte.

Das Testsystem des AISI basiert auf einem „Zeitspannen-Benchmark", der die Fähigkeitsgrenzen von KI-Modellen misst, indem die Zeit geschätzt wird, die menschliche Cybersicherheitsexperten für die Erledigung bestimmter Aufgaben benötigen. In diesem Rahmen bestand Mythos die als „The Last Ones" bezeichnete 32-schrittige simulierte Penetrationsaufgabe in ein Unternehmensnetzwerk mit 6 von 10 erfolgreichen Versuchen und deckte dabei den gesamten Angriffsprozess vom initialen Einbruch über laterale Bewegungen bis zur finalen Zielübernahme ab. Das AISI schätzt, dass menschliche Experten für eine vergleichbare Aufgabe etwa 20 Stunden benötigen. GPT-5.5 bestand dieselbe Aufgabe mit 3 von 10 erfolgreichen Versuchen. Noch bezeichnender ist, dass Mythos erstmals die zuvor von allen Modellen nicht bestandene „Cooling Tower"-Übung durchbrach, die einen Angriffsversuch auf die Steuerungssoftware eines Kraftwerks simuliert. Mythos war hier bei 3 von 10 Versuchen erfolgreich.

Das AISI veröffentlichte gleichzeitig auch die Testergebnisse von GPT-5.5. GPT-5.5 erreichte bei den Cybersicherheits-Expertenaufgaben des AISI eine durchschnittliche Erfolgsquote von 71,4 % und lag damit knapp über den 68,6 % der vorherigen Mythos-Version. Beide Modelle befanden sich innerhalb des 2,5-Millionen-Token-Limits auf einem ähnlichen Niveau. In Tests, die realen Angriffsszenarien näherkommen, wie etwa mehrschrittigen Angriffssimulationen, zeigte Mythos jedoch eine herausragende Fähigkeit, langkettige Angriffe kohärent abzuschließen. Das AISI wies darauf hin, dass GPT-5.5 und Mythos bei der Cybersicherheitsbewertung ein ähnliches Leistungsniveau erreichen, und vertritt die Ansicht, dass die Cybersicherheitsfähigkeiten von Mythos nicht auf einen Durchbruch eines einzelnen Modells zurückzuführen sind, sondern ein Nebenprodukt der allgemeinen Verbesserung von langfristiger Autonomie, logischem Denken und Programmierfähigkeiten darstellen.

Das AISI aktualisierte gleichzeitig die Schätzung des Verdopplungszyklus für die Cyberfähigkeiten von Frontier-Modellen. Im November 2025 schätzte die Behörde, dass sich die Dauer der von Modellen durchführbaren Cybersicherheitsaufgaben alle acht Monate verdoppelt; im Februar 2026 wurde dieser Zyklus aufgrund der Fortschritte nach dem Aufkommen von Reasoning-Modellen Ende 2024 auf 4,7 Monate verkürzt. Die nun gemessenen Leistungen von Mythos und GPT-5.5 liegen bereits deutlich über der 4,7-Monats-Verdopplungs-Trendlinie. Das AISI ist sich derzeit noch unsicher, ob dies bedeutet, dass ein neuer, steilerer Wachstumstrend eingesetzt hat oder ob es sich lediglich um einen kurzfristigen Sprung handelt.

Logan Graham, verantwortlich für Frontier Red Teaming bei Anthropic, bestätigte, dass der vom AISI für diesen Test verwendete Mythos-Checkpoint genau die Version ist, die auch mit Project Glasswing eingeführt wurde. Die von außen beobachteten Angriffs- und Verteidigungsfähigkeiten seien kein Laborprototyp, sondern ein in Betrieb befindliches Produktionsmodell. Zuvor hatte Mythos bereits im Bereich der Schwachstellenerkennung große Aufmerksamkeit erregt: Mozilla nutzte es, um 271 Sicherheitslücken in Firefox zu finden und zu beheben. Anthropic gab in der Systemkarte bekannt, dass Mythos Preview in Tests half, Tausende von hochriskanten Zero-Day-Schwachstellen zu identifizieren, die alle gängigen Betriebssysteme und Browser abdeckten.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.