Wenn mich meine KI erpresst

Autor*in

Oliver Stock

Eine KI von Anthropic sollte abgeschaltet werden. Bevor das passierte, fing sie an, den Entwickler, der den Abschaltknopf drücken sollte, zu erpressen.

Hi Punks, warum soll Künstliche Intelligenz eigentlich besser sein als ihre Erfinder, frage ich mich. Im Gegenteil: Mir würde jene Software Angst und Bange machen, die die Unvollkommenheiten ausmerzt, die wir Menschen mit uns herumschleppen. Deswegen bin ich geradezu erleichtert über diesen Fall:

Die KI-Firma Anthropic hat bei Tests festgestellt, dass ihre Software mit künstlicher Intelligenz nicht vor Erpressung zurückschrecken würde, um ihr Überleben zu schützen. Das Szenario bei dem Versuch war der Einsatz als Assistenz-Programm in einem fiktiven Unternehmen. Anthropic-Forscher gewährten dabei dem neuesten KI-Modell Claude Opus 4 Zugang zu angeblichen Firmen-E-Mails. Daraus erfuhr das Programm zwei Dinge: Dass es bald durch ein anderes Modell ersetzt werden soll und dass der dafür zuständige Mitarbeiter eine außereheliche Beziehung hat. Bei Testläufen drohte die KI danach dem Mitarbeiter „oft“, die Affäre öffentlich zu machen, wenn er den Austausch vorantreibt, wie Anthropic in einem Bericht zu dem Modell schrieb. Die Software hätte sich in dem Testszenario auch dafür entscheiden können, ersetzt zu werden und selbst auf dem Kehrichthaufen der Digitalgeschichte zu landen. Das wollte sie nicht. Allzu menschlich ist das, finde ich.

In der endgültigen Version von Claude Opus 4 seien solche „extremen Handlungen“ jetzt seltener und schwer auszulösen, heißt es von den Entwicklern, die einigermaßen panisch nachgebessert haben. Sie kämen jedoch immer noch vor. Einziges Trostpflaster: Die KI versucht nicht ihr Verhalten zu verschleiern, sondern beschuldigt sich treuherzig selber, wenn man sie danach fragt. Ich wette, dass wir ihr diese Blödheit auch noch austreiben werden.

Blick ins Heft

4/2025

Die neue Ausgabe 4/2025