Tech & Trends KI-Firewall gegen Atombomben: Anthropic baut digitale Schutzbarriere

KI-Firewall gegen Atombomben: Anthropic baut digitale Schutzbarriere

Anthropic entwickelt mit US-Behörden einen KI-Filter gegen nukleare Bedrohungen. Die neue Technologie blockiert gefährliche Anfragen zu Atomwaffen mit 95% Genauigkeit und setzt neue Standards für KI-Sicherheit.

Der Albtraum von Sicherheitsexperten klingt simpel: Ein Terrorist fragt einen KI-Chatbot nach detaillierten Anleitungen zum Bau einer Atombombe – und bekommt sie. Was bislang wie ein düsteres Zukunftsszenario klang, wird durch fortschrittliche KI-Systeme zunehmend realistisch.

Genau dieses Risiko adressiert nun Anthropic mit einem bahnbrechenden Sicherheitstool.

Digitale Firewall gegen nukleare Bedrohungen

Anthropic, das KI-Unternehmen hinter dem ChatGPT-Konkurrenten Claude, hat in Zusammenarbeit mit der US-Regierung einen Sicherheitsmechanismus entwickelt, der verhindert, dass seine KI-Modelle für die Entwicklung von Atomwaffen missbraucht werden können. Laut „Semafor“ entstand das Tool in einjähriger Kooperation mit der National Nuclear Security Administration (NNSA).

Der als „Classifier“ bezeichnete Filter kann potenziell gefährliche Konversationen – etwa Anfragen zum Bau von Atomreaktoren – automatisch erkennen und blockieren. Mit zunehmender Leistungsfähigkeit von KI-Modellen müssen genau beobachtet werden, ob sie Nutzern gefährliches technisches Wissen vermitteln könne, das die nationale Sicherheit bedrohen könnte, erklärt Anthropic laut „Webpronews“. Das Projekt entstand aus „Red-Teaming“-Übungen mit dem US-Energieministerium, die 2024 begannen.

Technologie mit 95% Trefferquote

Der entwickelte Classifier funktioniert ähnlich wie ein E-Mail-Spam-Filter und identifiziert Bedrohungen in Echtzeit. Wie „Firstpost“ berichtet, kann das System mit fast 95-prozentiger Genauigkeit erkennen, ob ein Nutzer in böswilliger Absicht mit dem KI-Bot kommuniziert.

Konkret identifizierte der Filter in Tests 94,8% der Anfragen zu Atomwaffen korrekt, während 5,2% der Anfragen fälschlicherweise als gefährlich eingestuft wurden. Das Besondere: Der Classifier unterscheidet zwischen harmlosen Anfragen – etwa von Studierenden oder Forschenden – und potenziell schädlichen Konversationen, die zur Waffenverbreitung beitragen könnten. Dies ermöglicht legitime wissenschaftliche und bildungsbezogene Nutzung, während gleichzeitig Missbrauch verhindert wird.

Seite 1 / 2
Nächste Seite