Anthropic passt Sicherheitsmaßnahmen von Fable 5 an, um den Downgrade-Prozess sichtbar zu machen_Weltnachrichten

Anthropic passt Sicherheitsmaßnahmen von Fable 5 an, um den Downgrade-Prozess sichtbar zu machen

2026-06-15 15:47

Merken

de.wedoany.com-Bericht: Anthropic führte im April das Mythos-Modell (im Rahmen des Project Glasswing zur Erkennung und Behebung von Schwachstellen in der Internet-Infrastruktur) ein und veröffentlichte anschließend die eingeschränkte Version Fable 5. Anthropic stellte klar, dass Fable bestimmte risikoreiche Forschungsbereiche wie Cybersicherheit, Biologie und Chemie nicht unterstützen wird. Bei Anfragen in diesen Bereichen wird das Modell automatisch von Fable auf Opus-Niveau herabgestuft und der Benutzer darüber informiert, dass der Downgrade stattfindet.

Der Kern der Kontroverse liegt darin, dass der Downgrade-Prozess für Forscher in Bereichen wie dem Design extrem leistungsfähiger Chips oder der Entwicklung hochmoderner KI-Sprachmodelle für den Benutzer nicht sichtbar ist. Anthropic beschrieb dieses Verhalten in einem 319-seitigen Systemkarten-Dokument, doch auf der Benutzeroberfläche gab es keinen Hinweis; die Benutzer erhielten tatsächlich Ausgaben auf Opus-Niveau. Das Magazin Fortune bezeichnete dieses Verhalten als „geheime Sabotage", während Wired berichtete, dass diese Praxis die KI-Forschung beeinträchtigen könnte. Mythos und Glasswing sind weitaus leistungsfähiger als Anthropics Claude Security-Tool, das auf Opus läuft, Codebasen scannen und bei der Erkennung einiger Probleme helfen kann.

Sally Vincent, Senior Threat Research Engineer bei der Sicherheitsanalysefirma Exabeam, erklärte per E-Mail, dass Aussagen zur Ausbruchsresistenz mit Vorsicht zu genießen seien; diese Ergebnisse „stellen eine Bewertung zu einem bestimmten Zeitpunkt dar", und fügte hinzu: „Angreifer werden sich ständig anpassen." Rob T. Lee, Chief AI Officer und Forschungsleiter am SANS Institute, schrieb in einer E-Mail an ZDNET, dass Fable 5 „eine neuartige und clevere Lösung ist, aber Fable 5 wird angegriffen werden. Dieselbe Schicht, die böswillige Nutzung verhindert, behindert auch legitime defensive Forschung." Beim Versuch, digitale forensische Fähigkeiten aufzubauen, wurde er auf Opus 4.8 herabgestuft und meinte: „Ob es nun eine clevere Methode ist, böswillige Akteure zu stoppen oder nicht, es hindert diejenigen, die die nächsten Werkzeuge bauen werden, daran, neue Verteidigungsfähigkeiten zu erlangen." Er wies auch darauf hin, dass der Zugriff selbst unter Glasswing eingeschränkt und überwacht sei, aber in Organisationen mit Zehntausenden von Mitarbeitern könnte jeder Einzelne motiviert sein, den Zugriff an kriminelle Gruppen weiterzugeben.

Angesichts der Kontroverse reagierte Anthropic mit der Ankündigung, die Sicherheitsmaßnahmen von Fable 5 zu ändern, um sie sichtbar zu machen. Ab dieser Woche werden markierte Anfragen deutlich auf Opus 4.8 zurückfallen, und markierte Anfragen in der API geben einen Ablehnungsgrund zurück. Das Unternehmen erklärte, dass die aktuellen Sicherheitsmaßnahmen „eine kleine Anzahl enger Aufgaben abdecken, wie z. B. Datenpipelines für hochmoderne LLMs und die Kernel-Entwicklung für bestimmte nicht standardmäßige Chips", und dass diese Maßnahmen „verhindern, dass ausländische Gegner unser leistungsstärkstes Modell auf eine Weise nutzen, die ein ernstes Sicherheitsrisiko darstellt." Anthropic fügte hinzu: „Wir haben einen falschen Kompromiss gemacht, und wir entschuldigen uns dafür, dass wir die Balance nicht richtig getroffen haben. Die Implementierung dieser Sicherheitsmaßnahmen ist eine komplexe technische Herausforderung: Während wir diese Klassifikatoren verbessern, um neuen Bedrohungen zu begegnen, können Benutzer auf mehr Fehlalarme stoßen. Wir arbeiten daran, diese so schnell wie möglich zu reduzieren." Bei der Entscheidung, ob der Downgrade sichtbar oder unsichtbar sein sollte, stand das Unternehmen vor einer Wahl: „Versteckte Sicherheitsmaßnahmen sind schwieriger zu erkennen und zu umgehen. Das bedeutet, dass Sicherheitsmaßnahmen gezielter eingesetzt werden können", aber diese versteckten Sicherheitsmaßnahmen wurden innerhalb weniger Stunden entdeckt.

Aktuelle Nutzungsdaten zeigen, dass die Klassifikatoren bei etwa 0,05 % der Aufgaben ausgelöst werden, was weniger als 0,05 % der Organisationen betrifft. Anthropic erklärte, dass sichtbare Sicherheitsmaßnahmen ein breiteres Netz spannen müssen, um die Robustheit zu erhöhen, was zu mehr falsch markierten Anfragen führt, aber „sie beeinträchtigen die überwältigende Mehrheit der Codierungs- und maschinellen Lernaufgaben nicht." Ashley Casovan, Managing Director des AI Governance Center des IAPP, lobte Anthropic dafür, Mythos lange genug zu behalten, um „die notwendigen Schutzmaßnahmen in seiner Software zu implementieren", wies jedoch darauf hin, dass „wir die potenziellen Auswirkungen noch nicht gesehen haben, die diese Modelle bei einer solchen Veröffentlichung im großen Maßstab haben könnten." Chris Boehm, Field CTO des Netzwerksegmentierungsanbieters Zero Networks, beschrieb diese Errungenschaft als Zurückhaltung statt roher Fähigkeit; Anthropic habe „es so weit gezähmt, dass es sicher genug für eine breite Veröffentlichung ist", und der Lohn sei der Maßstab: Normale Verteidiger könnten endlich mit der Geschwindigkeit von Angreifern operieren, „vorausgesetzt, die Sicherheitsmaßnahmen halten."

In Bezug auf die Datenaufbewahrungsrichtlinie wird Anthropic Eingabeaufforderungen und Antworten für Mythos-Level-Modelle 30 Tage lang aufbewahren und Eingabeaufforderungen, die gegen die Richtlinien verstoßen, länger speichern. Diese Richtlinie hat bereits die Aufmerksamkeit von Unternehmen wie Microsoft auf sich gezogen, das die Nutzung durch Mitarbeiter einschränkt und ein Rechtsteam zur Bewertung der Richtlinie eingesetzt hat. Etay Maor, Vice President of Threat Intelligence beim Sicherheitsanbieter Cato Networks, glaubt, dass der Schutz von Fable 5 für opportunistische Hacker ausreichend stark ist, aber „gut finanzierte und motivierte Angreifer" würden auf andere Methoden ausweichen. Er wies auch darauf hin: „Wenn die Klassifikatoren zu streng werden, treten Fehlalarme auf. Dieselben Kontrollen, die böswillige Aktivitäten verhindern sollen, können auch legitime Benutzer daran hindern, das Modell für legitime Zwecke zu nutzen." Er fügte hinzu: „Aus Unternehmenssicht ist die 30-Tage-Aufbewahrungsanforderung beachtenswert. Organisationen in regulierten Branchen müssen genau wissen, welche Daten aufbewahrt werden und ob dies ihren Compliance- und rechtlichen Anforderungen entspricht, bevor sie diese Modelle in sensiblen Umgebungen einsetzen."

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.