Wenn KI sich selbst hackt: Der Angriff auf McKinseys Strategie-Bot

Autor*in

Martin Wald

Ein KI-Agent hackt McKinseys interne Plattform Lilli autonom in 120 Minuten. 46,5 Millionen Chat-Nachrichten offen lesbar. Die Schwachstelle: SQL-Injection aus den 90ern. Willkommen in der Ära der KI-gegen-KI-Cyberkriege.

72 Prozent der McKinsey-Berater nutzen Lilli, den internen KI-Chatbot für Strategiearbeit und Mandantenrecherche. Über 500.000 Anfragen monatlich, 30 Prozent Zeitersparnis bei der Informationssuche. Dann kam Codewall – und brauchte genau zwei Stunden, um das System komplett zu übernehmen. Nicht mit menschlichen Hackern, sondern mit einem autonomen KI-Agenten. Ohne Zugangsdaten, ohne Insiderwissen, ohne manuelle Eingriffe. Der Agent schlug das Ziel selbst vor, analysierte die Schwachstellen und verschaffte sich vollständigen Zugriff auf die Produktionsdatenbank. Was wie Science-Fiction klingt, ist längst Realität – und zeigt, wie KI-Systeme zur Waffe gegen andere KI-Systeme werden.

SQL-Injection trifft KI-Infrastruktur

Die Ironie des Falls: Der Einstiegspunkt war eine SQL-Injection-Schwachstelle, eine der ältesten Sicherheitslücken überhaupt. Seit den 90ern bekannt, von herkömmlichen Scannern übersehen. Der Codewall-Agent fand sie trotzdem – weil die JSON-Feldnamen in den API-Anfragen direkt in SQL-Abfragen eingebaut wurden, laut t3n.

In 15 blinden Iterationen extrahierte die KI immer mehr Informationen aus Fehlermeldungen, bis Produktionsdaten zurückflossen. 46,5 Millionen Chat-Nachrichten über Unternehmensstrategien, Fusionen und Übernahmen – alles im Klartext gespeichert. Dazu Berichten zufolge 728.000 Dateien, deren Dateinamen einsehbar waren; ein Zugriff auf Mandantendaten wurde laut interner Untersuchung nicht festgestellt.

Prompts als neue Kronjuwelen

Der brisanteste Fund waren die 95 System-Prompts, die Lillis Verhalten steuern. Sie lagen in derselben Datenbank wie die Nutzerdaten – und waren editierbar. Ein Angreifer mit Schreibzugriff hätte diese Prompts lautlos überschreiben können, ohne Deployment, ohne Code-Änderung. Nur ein einzelnes UPDATE-Statement in einem HTTP-Aufruf.

Die Konsequenz: Vergiftete Finanzmodelle, manipulierte Strategieempfehlungen, stille Datenexfiltration über KI-Antworten. Niemand hätte es bemerkt, weil modifizierte Prompts keine klassischen Spuren hinterlassen. Codewall formuliert es klar: KI-Prompts seien die neuen Kronjuwelen, aber fast niemand behandle sie als solche. Organisationen hätten Jahrzehnte damit verbracht, Code, Server und Lieferketten abzusichern – die Prompt-Ebene bleibe jedoch ungeschützt.

McKinsey patcht innerhalb eines Tages

McKinsey schloss die Schwachstellen am 1. März innerhalb eines Tages nach der Meldung. Eine forensische Untersuchung habe keine Hinweise ergeben, dass Mandantendaten oder vertrauliche Informationen von Forschern oder unbefugten Dritten abgerufen worden seien, so The Decoder. Die Cybersicherheitssysteme seien robust, der Schutz anvertrauter Daten habe höchste Priorität und keine vertraulichen Kundendaten seien laut einem Statement abhanden gekommen.

Doch Sicherheitsanalyst Edward Kiledjian merkt an: Codewall verwische in seinem Blogpost den Unterschied zwischen Zugriffsmöglichkeit und tatsächlicher Datenexfiltration. Das Startup, das sich in einer frühen Preview-Phase befindet, nutze den McKinsey-Hack offensichtlich als Visitenkarte für seine autonome Plattform für offensive Sicherheitstests. Ob die Responsible-Disclosure-Policy von McKinsey auch das systematische Auslesen einer Produktionsdatenbank mit Millionen echter Nutzerdaten abdecke, bleibe fraglich.

Business Punk Check

Die Wahrheit hinter dem McKinsey-Hack: KI-Agenten sind längst keine Zukunftsmusik mehr, sondern operative Realität im Cybersecurity-Bereich. Was Codewall demonstriert hat, können kriminelle Akteure genauso – nur ohne Responsible Disclosure. Die eigentliche Erkenntnis: Unternehmen behandeln ihre KI-Infrastruktur noch immer wie klassische Software, obwohl die Angriffsfläche fundamental anders ist. Prompts, RAG-Datenbanken und Modellkonfigurationen liegen oft ungeschützt in denselben Systemen wie Produktionsdaten.

Eine SQL-Injection aus den 90ern wird so zum Hebel für KI-Manipulation im industriellen Maßstab. Für Entscheider bedeutet das: Wer KI-Systeme produktiv einsetzt, braucht eine komplett neue Sicherheitsarchitektur. Prompt-Injection-Tests, isolierte Speicherung von Systemaufforderungen, kontinuierliche Überwachung durch offensive KI-Agenten. Die Alternative: Warten, bis der nächste Angreifer kommt – und diesmal nicht meldet, sondern ausnutzt. McKinsey hat Glück gehabt. Die nächste Firma vielleicht nicht.

Häufig gestellte Fragen

Wie können Unternehmen ihre KI-Systeme vor autonomen Angriffen schützen?

Isolierte Speicherung von System-Prompts außerhalb der Produktionsdatenbank ist Pflicht. Unternehmen sollten offensive KI-Agenten wie die von Codewall einsetzen, um kontinuierlich Schwachstellen zu identifizieren, bevor kriminelle Akteure sie ausnutzen. Klassische Sicherheitsscanner erkennen KI-spezifische Angriffsvektoren oft nicht. Zusätzlich braucht es Prompt-Injection-Tests und regelmäßige Audits der API-Authentifizierung.

Welche KI-Tools sollten Unternehmen für Cybersecurity nutzen?

Autonome offensive Sicherheitsplattformen wie die von Codewall testen Infrastrukturen kontinuierlich auf Schwachstellen. Sie simulieren Angriffe, die menschliche Pentester übersehen würden. Für die Verteidigung eignen sich KI-basierte Anomalie-Erkennungssysteme, die ungewöhnliche Datenbankzugriffe oder API-Nutzung in Echtzeit identifizieren. Wichtig: Diese Tools müssen speziell für KI-Infrastrukturen konfiguriert sein, nicht nur für klassische IT-Systeme.

Ist der Einsatz von KI-Agenten für Cyberangriffe bereits Realität?

Absolut. Der McKinsey-Fall zeigt, dass KI-Agenten autonom Ziele identifizieren, Schwachstellen analysieren und Zugriff erlangen können – ohne menschliche Steuerung. Was Codewall im Rahmen von Responsible Disclosure demonstriert hat, nutzen kriminelle Akteure längst für Angriffe. Die Technologie ist verfügbar, die Einstiegshürden sinken. Unternehmen müssen davon ausgehen, dass KI-gegen-KI-Angriffe zur Normalität werden.

Was kostet die Absicherung von KI-Infrastrukturen wirklich?

Deutlich mehr als klassische IT-Security, weil die Angriffsfläche größer ist. Offensive KI-Agenten für kontinuierliche Tests kosten je nach Unternehmensgröße fünf- bis sechsstellige Beträge jährlich. Hinzu kommen Investitionen in isolierte Speichersysteme für Prompts, spezialisierte Forensik-Tools und Security-Personal mit KI-Expertise. Wer spart, riskiert Vorfälle wie bei McKinsey – nur ohne glimpflichen Ausgang.

Wie wahrscheinlich ist eine Disruption der Cybersecurity-Branche durch KI-Agenten?

Sie läuft bereits. Autonome Angriffs- und Verteidigungssysteme verändern die Spielregeln fundamental. Menschliche Pentester können nicht mit der Geschwindigkeit und Skalierbarkeit von KI-Agenten mithalten. Gleichzeitig entstehen neue Geschäftsmodelle wie bei Codewall: KI-as-a-Service für offensive Security. Unternehmen, die weiterhin auf manuelle Sicherheitstests setzen, werden in zwei bis drei Jahren hoffnungslos abgehängt sein.

Quellen: t3n, The Decoder, It Boltwise

Blick ins Heft

2/2026

Die neue Ausgabe