Tech & Trends Oxford-Studie entlarvt: Warum ChatGPT bei echten Patienten scheitert

Foto: Business Punk by KI

10. Februar 2026

Foto: Business Punk by KI

Oxford-Studie entlarvt: Warum ChatGPT bei echten Patienten scheitert

Autor*in

Seite 1 / 2

Medizinische KI-Modelle bestehen Ärzte-Prüfungen mit Bestnoten – doch bei echten Patienten brechen die Werte dramatisch ein. Eine Oxford-Studie entlarvt das Kommunikationsdesaster zwischen Mensch und Maschine.

GPT-4o besteht die US-Ärzte-Zulassungsprüfung mit Bravour, Llama 3 analysiert Patientenakten fehlerfrei. Gesundheitsbehörden weltweit träumen bereits von KI-Chatbots als digitale Eingangstür zum Gesundheitssystem.

Doch eine neue Studie aus Oxford zerstört diese Illusion: Was im Labor brilliert, scheitert in der Praxis krachend. Das Problem liegt nicht in den Algorithmen – sondern in der Kommunikation zwischen Mensch und Maschine.

Testlabor gegen Realität

Forscher der Universität Oxford rekrutierten 1298 Briten für ein kontrolliertes Experiment. Zehn medizinische Alltagsszenarien – von Schwangerschafts-Brustschmerzen bis blutigem Durchfall. Die Aufgabe: Erkrankung einschätzen, Handlung empfehlen. Drei Gruppen erhielten Zugang zu GPT-4o, Llama 3 oder Command R+.

Die Kontrollgruppe durfte klassisch googeln. Das Ergebnis, publiziert in Nature Medicine, ist vernichtend: Ohne menschliche Beteiligung identifizierten die Modelle in 94,9 Prozent der Fälle relevante Erkrankungen. Sobald echte Menschen die Chatbots befragten, brachen die Werte auf maximal 34,5 Prozent ein – deutlich schlechter als die Kontrollgruppe mit 47 Prozent, wie Heise berichtet.

Doppeltes Kommunikationsversagen

Die Analyse der Chat-Protokolle offenbart zwei kritische Schwachstellen. Erstens: Nutzer liefern unvollständige Informationen. Zweitens: Sie verstehen die KI-Antworten falsch. Obwohl die Modelle in bis 73 Prozent der Fälle korrekte Diagnosen nannten, übernahmen Teilnehmer diese nicht zuverlässig.

Teilweise ignorierten sie richtige Verdachtsdiagnosen komplett. Bei der Wahl der richtigen Handlung – Selbstbehandlung, Hausarzt, Notaufnahme – lagen alle Gruppen gleich daneben: rund 43 Prozent Trefferquote. Unabhängig davon, ob ein Chatbot half oder nicht.

Benchmark-Bluff entlarvt

Die Forscher verglichen die Modell-Performance auf MedQA – einem Standardtest mit Ärzte-Prüfungsfragen – mit den Nutzerergebnissen. In 26 von 30 Fällen schnitten die Modelle bei Multiple-Choice-Fragen besser ab als bei echten Menschen.

Selbst Benchmark-Werte über 80 Prozent korrespondierten mit Nutzer-Ergebnissen unter 20 Prozent. Die Schlussfolgerung: Standardtests sagen nichts über die Praxistauglichkeit aus. Sie messen Wissen, nicht Kommunikationsfähigkeit, so Aerzteblatt.

Was medizinische Chatbots wirklich bräuchten

Spezialisierte medizinische Chatbots müssten evidenzbasierte Informationen liefern, Notfälle zuverlässig erkennen und strukturierte Anamnesen erheben. Sie dürften keine Diagnosen stellen, müssten aber transparent ihre Grenzen kommunizieren.

Die Hürden sind erheblich: Regulierung als Medizinprodukt oder Hochrisiko-KI, Haftungsfragen, Datenschutz, technische Integration. Qualitätsgeprüfte Chatbots könnten über Krankenkassen angeboten werden – aber niemand sollte gezwungen sein, sie zu nutzen.

Business Punk Check

Die KI-Medizin-Revolution ist vorerst abgesagt. Was Tech-Konzerne als Durchbruch verkaufen, entpuppt sich als Kommunikationsdesaster. Die unbequeme Wahrheit: Sprachmodelle sind brillante Prüflinge, aber miserable Gesprächspartner. Sie verstehen nicht, welche Informationen fehlen. Nutzer verstehen nicht, was die KI meint. Das Problem ist fundamental – und lässt sich nicht durch bessere Algorithmen lösen.

Wer jetzt auf KI-Diagnose-Tools setzt, riskiert gefährliche Fehlentscheidungen. Die Technologie mag beeindruckend sein, aber sie ist nicht praxisreif. Gesundheitsbehörden sollten ihre Digitalisierungsträume überdenken. Bevor KI-Systeme im Gesundheitswesen eingesetzt werden, braucht es Tests mit echten Nutzern – nicht nur mit Prüfungsfragen. Die Alternative: spezialisierte, streng regulierte Chatbots mit strukturierter Gesprächsführung. Aber auch die werden das Grundproblem nicht lösen: Menschen sind keine Multiple-Choice-Tests.

Seite 1 / 2

Nächste Seite

Blick ins Heft

BUSINESS PUNK 2026/1 Franca & Nena

Wir sind Männer