de.wedoany.com-Bericht: Anthropic hat im Modell Claude Fable 5 einen versteckten Anti-Destillationsfilter implementiert, der die Ausgabe heimlich verändert, wenn ein Nutzer versucht, das Modell zu destillieren, anstatt die Anfrage direkt abzulehnen. Am 11. Juni 2026 enthüllte das Technologiemedium The Verge diesen Mechanismus, was heftige Reaktionen in der KI-Community auslöste. Anthropic entschuldigte sich daraufhin und versprach, diese Einschränkung künftig ebenso transparent zu machen wie andere Schutzmaßnahmen.
Destillation ist eine gängige Technik in der Forschung, bei der die Ausgabe eines großen Modells genutzt wird, um ein kompakteres Modell zu trainieren. Anthropic verbietet Destillation in seinen Nutzungsbedingungen, doch die Art und Weise, wie Fable 5 mit Destillationsversuchen umgeht, unterscheidet sich von anderen sensiblen Bereichen. Bei Anfragen zu Cyberangriffen, Biologie oder Chemie wechselt das Modell klar erkennbar zu Claude Opus 4.8 und informiert den Nutzer; bei Destillationsverhalten hingegen verändert es über einen komplexen Mechanismus heimlich die Eingabeaufforderungen, erzeugt absichtlich herabgestufte Ausgaben und gibt weder Warnungen noch Fehlermeldungen aus. Die Existenz dieses Filters ist in der Systemkarte des Modells dokumentiert, der entsprechende Mechanismus war jedoch nicht allgemein bekannt.
Die Community reagierte heftig. Laut Gizmodo berichteten KI-Forscher, sie hätten noch nie so wütende Kollegen erlebt. Ein Reddit-Nutzer fasste die allgemeine Stimmung zusammen: Bei sensiblen Inhalten könne man ablehnen oder einen Fehlercode zurückgeben, aber „das Geld der Leute zu nehmen und ihre Codebasis zu vergiften", sei inakzeptabel.
Anthropic reagierte umgehend. Das Unternehmen räumte in einer Erklärung ein, „einen falschen Kompromiss" eingegangen zu sein, und entschuldigte sich dafür, „nicht die richtige Balance" gefunden zu haben. Derzeit wechseln als Destillationsversuche identifizierte Anfragen zu Claude Opus 4.8, was der Behandlung anderer sensibler Bereiche entspricht, und der Nutzer wird jedes Mal benachrichtigt.

Dieser Vorfall offenbart den tiefgreifenden Widerspruch bei Anthropic zwischen der Offenheit des Modells und dem Schutz technologischer Vorteile. Fable 5 ist bereits eine eingeschränkte Version von Mythos, das als zu gefährlich eingestuft und nicht öffentlich veröffentlicht wurde. Das Unternehmen möchte seine technologischen Vermögenswerte vor Destillation schützen – ein geschäftlich nachvollziehbares Anliegen –, doch die Entscheidung, dies stillschweigend umzusetzen, anstatt die Einschränkung öffentlich zu erklären, hat das Vertrauen in ein Unternehmen untergraben, das Transparenz und verantwortungsvolle Sicherheit als seine Kernverkaufsargumente betrachtet. Anthropic hat schnell die Richtung korrigiert, doch ob dieser Vorfall die Art und Weise, wie das Unternehmen seine Schutzmaßnahmen dokumentiert, nachhaltig verändern wird, bleibt abzuwarten.
Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









