Work & Winning Die KI-Agenten-Blase: Benchmarks testen Programmierer statt Manager

Die KI-Agenten-Blase: Benchmarks testen Programmierer statt Manager

KI-Agenten werden an Programmieraufgaben trainiert – während Management, Recht und Architektur digital sind, aber in Tests nicht vorkommen. Eine Studie entlarvt die Schieflage der Branche.

Management ist zu 88 Prozent digitalisiert, Jura zu 70 Prozent, Architektur zu 71 Prozent. Trotzdem tauchen diese Bereiche in KI-Agenten-Tests kaum auf. Stattdessen fokussiert sich die Branche auf Programmieraufgaben – die gerade mal 7,6 Prozent der US-Beschäftigung ausmachen. Forscher der Carnegie Mellon University und Stanford haben 43 Benchmarks mit 72.342 Aufgaben analysiert und eine unbequeme Wahrheit aufgedeckt: Die KI-Agenten-Entwicklung ignoriert systematisch die Bereiche, in denen der wirtschaftliche Nutzen am größten wäre.

Benchmarks bilden die Realität nicht ab

Die Zahlen der Studie sind eindeutig. Management macht nur 1,4 Prozent aller Benchmark-Aufgaben aus, juristische Tätigkeiten 0,3 Prozent, Architektur 0,7 Prozent. Gleichzeitig konzentrieren sich die Tests auf zwei Fähigkeiten: Informationsbeschaffung und Computerarbeit. Diese decken zusammen weniger als fünf Prozent der realen Beschäftigung ab. Die Kategorie „Interaktion mit anderen“ – in der Arbeitswelt zentral – kommt in den Benchmarks praktisch nicht vor.

Die Forscher führen das auf methodische Bequemlichkeit zurück. Domänen mit klaren Aufgabenstellungen und einfach messbaren Ergebnissen werden bevorzugt. Das beschleunigt zwar die Entwicklung in Nischen, lenkt aber von den Bereichen ab, in denen Agenten tatsächlich Produktivität steigern könnten. Positiv hebt die Studie laut The Decoder OpenAIs Benchmark GDPval hervor: Trotz geringem Umfang decke er die breiteste Palette an Berufen und Fähigkeiten ab.

Autonomie bricht bei Komplexität ein

Selbst in der Softwareentwicklung – dem am besten abgedeckten Bereich – versagen Agenten bei steigender Komplexität. Die Forscher entwickelten ein Autonomiemaß, das die maximale Aufgabenkomplexität misst, die ein Agent mit definierter Erfolgsquote bewältigt.

Ergebnis: Agenten scheitern beim Abrufen von Informationen und bei der Koordination mit anderen, selbst bei simplen Aufgaben. Nur 16 Prozent aller Enterprise-Deployments qualifizieren sich als echte Agenten, berichtet t3n. Der Rest sind aufgepeppte Chatbots.

Die fünf Kardinalfehler der Praxis

In der Produktion zeigt sich das Drama. Im Pilotprojekt läuft alles mit 95 Prozent Genauigkeit und zwei Sekunden Antwortzeit. Bei 10.000 Anfragen täglich fällt die Genauigkeit auf 80 Prozent, die Latenz explodiert auf 40 Sekunden. Grund: Pilotprojekte laufen auf kuratierten Testdaten, die Produktion bringt Randfälle, die niemand vorhergesehen hat. Zweites Problem: Vibe-Coding ohne Code-Review. Moltbook legte im Januar 2026 4,75 Millionen Datensätze offen – darunter 1,5 Millionen API-Tokens im Klartext.

Der Gründer hatte die Plattform von einem KI-Assistenten generieren lassen, ohne Security-Audit. Backslash Security testete sieben führende LLMs: GPT-4o produzierte in 90 Prozent der Fälle verwundbaren Code. Drittes Problem: Token-Ökonomie. Ein Drei-Agenten-System kostet im Pilot sechs Dollar täglich. In der Produktion: 18.000 Dollar monatlich. Ein dokumentierter Fall: Ein Vier-Agenten-Tool driftete in eine rekursive Schleife, zwei Agenten sprachen elf Tage endlos miteinander. Kosten: 47.000 Dollar.

Die 45-Prozent-Regel entlarvt den Multi-Agenten-Hype

Google Deepmind und das MIT haben in 180 Experimenten gezeigt: Wenn ein einzelner Agent bereits mehr als 45 Prozent einer Aufgabe löst, bringen zusätzliche Agenten kaum Verbesserung. Bei sequenziellen Aufgaben verschlechtern sie die Ergebnisse sogar um 39 bis 70 Prozent. Nur bei parallelisierbaren Aufgaben sind Verbesserungen von über 80 Prozent möglich. Fünftes Problem: Modell-Fetisch.

Der APEX-Benchmark testete alle Frontier-Modelle an realistischen Büroaufgaben. Das beste Modell erreichte 24 Prozent. Anthropic zeigte parallel, warum: Claude Opus 4.5 erreichte auf dem CORE-Bench zunächst 42 Prozent. Nach Reparatur der Evaluierung – nicht des Modells – sprang die Performance auf 95 Prozent. Nicht das Modell entscheidet, sondern welche Daten der Agent bei jedem Schritt sieht.

Drei Prinzipien für bessere Tests

Die Forscher fordern: Neue Benchmarks müssen unterrepräsentierte, aber stark digitalisierte Domänen wie Management und Recht abdecken. Sie müssen realistischer und komplexer werden – viele synthetisierte Benchmarks bilden nur vereinfachte Bruchstücke realer Arbeit ab. Und sie brauchen feingliedrigere Evaluation mit Zwischencheckpoints, die zeigen, wo genau Agenten scheitern.

Die Studie stellt ein Framework bereit, das Benchmark-Designern hilft, Lücken zu identifizieren, Entwicklern Verbesserungsbereiche aufzeigt und Nutzern den passenden Autonomiegrad für ihre Aufgabe vermittelt. Anthropic hatte bereits auf Basis von Millionen realer Interaktionen gezeigt: Knapp 50 Prozent aller agentischen Tool-Aufrufe entfallen auf Software-Entwicklung, andere Branchen machen jeweils nur wenige Prozentpunkte aus.

Business Punk Check

Die KI-Agenten-Branche hat ein Glaubwürdigkeitsproblem. Sie testet an Programmieraufgaben, während die wirtschaftlich wertvollsten Bereiche – Management mit 88 Prozent Digitalisierungsgrad, Recht mit 70 Prozent – in den Benchmarks praktisch nicht vorkommen. Das ist keine technische Limitierung, sondern methodische Faulheit. Tests mit leicht messbaren Ergebnissen sind bequemer als realistische Szenarien mit mehrdeutigen Zielen. Die Praxis bestätigt das Drama: 70 Prozent der regulierten Unternehmen bauen ihren Agenten-Stack innerhalb von 90 Tagen komplett um. Pilotprojekte laufen sauber, in der Produktion bricht alles zusammen.

Genauigkeit fällt um 15 Prozentpunkte, Latenz explodiert um Faktor 20, Kosten steigen von sechs Dollar täglich auf 18.000 Dollar monatlich. Wer jetzt investiert, sollte drei Dinge priorisieren: Load-Testing mit realen Daten, schrittweisen Rollout mit Metriken an jedem Gate und ein Evaluation-Framework, das Genauigkeit, Latenz und Kosten kontinuierlich misst. Die Google-Deepmind/MIT-Studie zeigt: Multi-Agenten-Systeme sind teurer als Single-Agenten – bei schlechteren Ergebnissen. Erst wenn der Parallelisierungsgrad über 45 Prozent liegt, lohnt sich der Aufwand. Architektur schlägt Technologie – jedes Mal.

Häufig gestellte Fragen

Welche KI-Agenten-Systeme sind für Unternehmen praxistauglich?

Nur 16 Prozent aller Enterprise-Deployments qualifizieren sich als echte Agenten. Praxistauglich sind Systeme mit Load-Testing auf realen Daten, schrittweisem Rollout und kontinuierlicher Evaluation von Genauigkeit, Latenz und Kosten. Pilotprojekte mit kuratierten Testdaten täuschen über die Produktionsrealität hinweg.

Lohnen sich Multi-Agenten-Systeme wirtschaftlich?

Nur wenn der Parallelisierungsgrad über 45 Prozent liegt. Google Deepmind und das MIT zeigen: Bei sequenziellen Aufgaben verschlechtern zusätzliche Agenten die Ergebnisse um 39 bis 70 Prozent. Multi-Agenten-Systeme sind pro gelöster Aufgabe deutlich teurer als Single-Agenten – bei gleichzeitig schlechteren Ergebnissen.

Wie vermeidet man explodierende Token-Kosten bei KI-Agenten?

Token-Budgets pro Agent-Run definieren, Loop-Detection implementieren und Context-Window-Management einsetzen, das nur relevanten Kontext pro Schritt liefert. Ein dokumentierter Fall: Ein Vier-Agenten-Tool driftete in eine rekursive Schleife – Kosten stiegen von 127 Dollar in Woche eins auf 18.400 Dollar in Woche vier.

Welche Bereiche ignoriert die KI-Agenten-Entwicklung systematisch?

Management ist zu 88 Prozent digitalisiert, macht aber nur 1,4 Prozent aller Benchmark-Aufgaben aus. Juristische Tätigkeiten sind zu 70 Prozent digital, kommen aber nur in 0,3 Prozent der Tests vor. Die Branche fokussiert sich auf Programmieraufgaben, die 7,6 Prozent der US-Beschäftigung ausmachen.

Entscheidet das KI-Modell über den Erfolg von Agenten-Systemen?

Nein. Der APEX-Benchmark testete alle Frontier-Modelle an realistischen Büroaufgaben – das beste erreichte 24 Prozent. Anthropic zeigte: Nach Reparatur der Evaluierung sprang die Performance von Claude Opus 4.5 von 42 auf 95 Prozent. Context-Engineering – welche Daten der Agent bei jedem Schritt sieht – entscheidet über Erfolg oder Scheitern.

Quellen: The Decoder, t3n

Das könnte dich auch interessieren