Abschaltung von Anthropic Fable 5 und Mythos 5

Im Folgenden haben wir eine fiktive Diskussion unterschiedlicher Interessensvertreter von Anthopics Opus 4.8 erstellen lassen. Hören wir doch einmal hinein ...

Regierung (US): Lassen Sie mich vorab klarstellen, worum es geht. Das hier sind Exportkontrollen, kein Willkürakt. Frontier-KI mit nachgewiesenen Cyber-Fähigkeiten ist Dual-Use-Technologie – wie Verschlüsselung, wie bestimmte Halbleiter. Wenn wir Hinweise haben, dass die Schutzmechanismen des fähigsten Modells am Markt umgangen werden können, dann ist es unsere Aufgabe, den Zugriff zu unterbinden, bevor daraus ein Schaden wird. Nicht danach.

Anthropic: Und genau hier sind wir anderer Meinung – nicht aus Prinzip, sondern wegen der Fakten. Wir haben uns die demonstrierte Technik angesehen. Es geht um eine enge, nicht-universelle Schwachstelle, die obendrein in anderen frei verfügbaren Modellen genauso existiert. Wir reden über ein Produkt, das hunderte Millionen Menschen nutzen. Es wegen einer Lücke abzuschalten, die der Wettbewerber nebenan auch hat, reduziert kein Risiko – es verlagert es nur und bestraft ausgerechnet das Unternehmen, das am offensten über solche Gefahren spricht.

EU: Aus europäischer Sicht ist der beunruhigende Teil ein dritter. Über Nacht kann eine einzelne ausländische Regierung ein Werkzeug abschalten, von dem Bürger und Unternehmen in der gesamten Union abhängig sind – ohne dass wir konsultiert würden, ohne offengelegte Begründung, ohne Verfahren. Ob die Maßnahme inhaltlich richtig ist, kann ich gar nicht beurteilen, weil niemand die Belege vorlegt. Und das ist der Punkt: Wir regulieren KI auch, aber regelbasiert, mit Offenlegung und gerichtlicher Überprüfbarkeit. Das hier ist eine Blackbox-Entscheidung mit grenzüberschreitender Wirkung.

China: Wie erfrischend ehrlich das alles plötzlich wird. Jahrelang hieß es, Exportkontrollen seien nötig, um „verantwortungslose Akteure" – gemeint waren wir – von Spitzentechnologie fernzuhalten. Jetzt dreht sich dasselbe Instrument gegen europäische Verbündete und gegen die eigenen Nutzer. Das ist keine Sicherheitspolitik, das ist die innere Logik der Eindämmung, die sich selbst einholt. Wir haben übrigens nie etwas anderes behauptet: Kein Staat sollte sich bei kritischer Technologie von einem anderen abhängig machen. Heute beweist Washington unser Argument besser, als wir es je könnten.

Regierung (US): Das ist ein geschickter Spin, aber er verwechselt zwei Dinge. Verbündete vorübergehend mitzutreffen ist ein Nebeneffekt eines grob geschnittenen Instruments – kein Beweis, dass das Ziel falsch ist. Und mit Verlaub: Dass ausgerechnet Peking sich hier zum Anwalt der Bürgerfreiheit aufschwingt, ist bemerkenswert. Wir und Sie sind uns in einem Punkt sogar einig – der Staat muss bei strategischer KI die Kontrolle behalten. Wir streiten nur darüber, welcher Staat.

China: Da haben Sie nicht unrecht. Wir bestreiten nicht, dass der Staat steuern soll. Wir bestreiten Ihren Anspruch, dass nur Ihre Steuerung legitim ist.

EU: Und genau in diesem Konsens zwischen Ihnen beiden liegt das europäische Problem. Wenn Washington und Peking sich einig sind, dass der Nationalstaat die Hand am Schalter haben muss, dann bleiben am Ende zwei Stimmen ungehört: die der Unternehmen, die grenzüberschreitend ausliefern, und die der Bürger, die das Werkzeug nutzen. Für uns ist die Lehre nicht „mehr Vertrauen in eine der beiden Seiten", sondern: weniger Abhängigkeit von beiden. Das beschleunigt unsere Debatte über souveräne KI-Infrastruktur enorm.

Anthropic: Bei aller Sympathie für den Verfahrensgedanken – ich möchte verhindern, dass das hier zu einem reinen Souveränitäts-Seminar wird. Es gibt eine konkrete operative Frage: Wir haben verbale Hinweise bekommen, keine technischen Details. Man kann ein Sicherheitsproblem nicht beheben, das man nicht beschrieben bekommt. Wenn die Sorge echt ist, legt sie offen – unter Verschluss, mit den richtigen Stellen, meinetwegen mit dem UK AI Safety Institute, das schon eingebunden war. Dann reparieren wir es. Eine Abschaltung ohne Diagnose ist keine Lösung, sondern ein Symptom von Misstrauen.

Regierung (US): Und manchmal ist Misstrauen begründet. Sie haben ein wirtschaftliches Interesse, die Lücke als „minor" darzustellen. Wir haben ein Interesse, im Zweifel auf der sicheren Seite zu stehen. Die Asymmetrie der Fehlerkosten gibt uns recht: Ein paar Tage Abschaltung gegen ein potenziell katastrophales Szenario – diese Rechnung mache ich jederzeit.

EU: Dann beweisen Sie sie. „Im Zweifel" ist als Maßstab unbegrenzt – mit ihm lässt sich jedes fähige Modell jederzeit abschalten. Eine befristete, begründete, überprüfbare Anordnung würde Ihr Sicherheitsanliegen genauso schützen und das Vertrauen nicht zerstören. Sie verlieren nichts durch Verfahren – außer der Bequemlichkeit, niemandem Rechenschaft schuldig zu sein.

China: Während Sie drei sich über das richtige Verfahren streiten, baue ich übrigens weiter. Jeder Tag dieser Debatte ist für uns ein guter Tag. Fragmentierung der KI-Welt entlang nationaler Grenzen war nie unser Problem – es ist unser Plan.

Anthropic: Und das ist die eigentliche Pointe, oder? Eine Maßnahme, die die Verbreitung gefährlicher Fähigkeiten verhindern soll, könnte am Ende vor allem eines bewirken: Entwicklung dorthin zu treiben, wo niemand mehr Schutzmechanismen einbaut. Sicherheit, die nur im eigenen Vorgarten gilt, ist global gesehen vielleicht gar keine.

Regierung (US): Oder sie ist der einzige Vorgarten, den ich tatsächlich kontrollieren kann. Den Rest der Welt kann ich nicht regieren. Mein Mandat endet an meiner Grenze – und genau bis dorthin reicht meine Verantwortung.

Eine neue Stimme betritt den Raum – jemand, der sich seit Jahren mit Modell-Sicherheit beschäftigt und von der politischen Schlagseite des Gesprächs sichtlich genervt ist.

Sicherheitsforscherin: Darf ich? Ich höre Ihnen seit zehn Minuten zu, und keiner von Ihnen hat das Wort definiert, um das sich alles dreht. „Jailbreak" – was meinen Sie eigentlich? Dass das Modell einen verbotenen Text ausspuckt? Oder dass es jemandem eine Fähigkeit verschafft, die er ohne das Modell nicht hätte? Das sind zwei völlig verschiedene Dinge, und solange Sie sie vermischen, reden Sie alle aneinander vorbei.

Regierung (US): Die Unterscheidung ist mir bewusst. Unsere Sorge ist nicht der anstößige Text, sondern der Fähigkeitszuwachs in sensiblen Bereichen.

Sicherheitsforscherin: Gut. Dann ist die einzige relevante Frage: Marginaler Zuwachs. Nicht „kann das Modell etwas Gefährliches sagen", sondern „kann es etwas, das ein motivierter Mensch nicht ohnehin in einem Lehrbuch, in einem Preprint oder in einem der zehn anderen frei verfügbaren Modelle findet?" Ein erschreckend klingender Output ist kein Beweis für Uplift. Wenn Sie mir keinen Threat-Model zeigen – Wer ist der Angreifer, was kann er vorher, was kann er nachher – dann ist „nationale Sicherheit" nur ein Wort, das eine fehlende Analyse kaschiert.

Anthropic: Das ist im Kern unser Argument. Tausende Stunden Red-Teaming, ein Bug-Bounty über tausend Stunden, kein universeller Jailbreak –

Sicherheitsforscherin: Moment, nicht so schnell. Sie kommen bei mir nicht so glimpflich davon. „Kein universeller Jailbreak gefunden" ist ein Abwesenheitsbeweis. Abwesenheit von Evidenz ist nicht Evidenz von Abwesenheit – das wissen Sie. Und Sie haben gleichzeitig jahrelang Marketing damit gemacht, wie unfassbar fähig diese Modelle in Cyber sind. Sie können nicht in der einen Pressemitteilung „state-of-the-art bei Cyber-Aufgaben" rufen und in der nächsten „aber die Schwachstelle ist minor". Eines von beiden ist übertrieben. Welches denn?

Anthropic: Beides kann wahr sein. Hohe Fähigkeit hinter funktionierenden Schutzschichten – Klassifikatoren vor dem Modell, Rückfall auf das Vorgängermodell bei sensiblen Eingaben. Genau das ist Defense-in-Depth.

Sicherheitsforscherin: Architektonisch ist das nicht dumm, das gebe ich zu. Ein vorgeschalteter Klassifikator plus Fallback verschiebt die Messlatte real nach oben – ein Angreifer muss jetzt nicht nur das Modell, sondern auch den Filter überwinden. Aber es ist eben kein Beweis, sondern eine Wette darauf, dass niemand beide Schichten zugleich knackt. Und die 30-Tage-Speicherpflicht, über die sich alle empören? Aus rein technischer Sicht ist sie das Vernünftigste an der ganzen Geschichte. Manche Angriffe sieht man erst, wenn man Muster über viele Anfragen hinweg betrachtet – ein einzelner Request sieht harmlos aus, die Sequenz nicht.

EU: Aber genau diese Speicherung kollidiert mit Grundrechten und mit bestehenden Zero-Retention-Zusagen an Kunden. Technisch sinnvoll heißt nicht rechtlich zulässig.

Sicherheitsforscherin: Sehen Sie, das ist mein Problem mit Ihnen allen. Sie reden über Zulässigkeit, über Souveränität, über Geopolitik – lauter echte Fragen. Aber niemand im Raum ist bereit, die empirische zuerst zu klären, weil sie für jeden von Ihnen unbequem ist. Die Regierung müsste zugeben, ob sie überhaupt einen sauberen Threat-Model hat. Anthropic müsste den Widerspruch zwischen Capability-Marketing und Safety-Marketing auflösen. Die EU müsste anerkennen, dass „Verfahren" ohne technische Bewertung leerläuft. Und unser Gast aus Peking –

China: – wartet gespannt.

Sicherheitsforscherin: – braucht die Antwort gar nicht, weil ihm das Chaos in die Hände spielt, egal wie sie ausfällt. Das ist die bequemste Position von allen: Man muss nichts beweisen, wenn man vom Streit der anderen profitiert.

China: Ein fairer Hieb. Ich erwidere ihn nicht, weil er stimmt.

Sicherheitsforscherin: Mein Punkt ist ganz einfach: Diese Auseinandersetzung ist als Machtfrage geführt worden, dabei ist ihr Kern eine Messfrage. Wie groß ist der marginale Uplift dieses spezifischen Bypasses, gegen welche realistische Baseline? Diese Zahl kennt im Moment niemand öffentlich – nicht die Regierung, die sie behauptet, und auch nicht Anthropic, das sie kleinredet. Solange sie fehlt, ist alles andere – Sicherheitsdoktrin, Verfahrensrecht, Souveränität, Geopolitik – ein Streit über das Etikett einer Flasche, in die keiner hineingeschaut hat.

Regierung (US): Und wenn das Hineinschauen selbst gefährlich ist? Manche Messungen will man nicht öffentlich durchführen.

Sicherheitsforscherin: Dann führen Sie sie unter Verschluss durch – mit unabhängigen Dritten, nicht nur mit denen, die ein Interesse am Ergebnis haben. Genau das ist der Unterschied zwischen Geheimhaltung und Verschleierung. Bei der einen gibt es eine Zahl, die wenige kennen. Bei der anderen gibt es gar keine.

Abschaltung von Anthropic Fable 5 und Mythos 5

Sie suchen einen Sprecher oder einen Buch-Beitrag?Schreiben Sie mir.

Sie suchen einen Sprecher oder einen Buch-Beitrag?
Schreiben Sie mir.