Tech & Trends 45 % der Antworten falsch?! Warum die neue BBC/EBU-Studie zu KI-Assistenten uns mehr über Journalismus verrät als über KI.

45 % der Antworten falsch?! Warum die neue BBC/EBU-Studie zu KI-Assistenten uns mehr über Journalismus verrät als über KI.

Wer heute Nachrichten konsumiert, spricht längst mit Maschinen. Ob man ChatGPT nach dem Wahlausgang fragt, Perplexity um den Hintergrund des Nahostkonflikts bittet oder Gemini die Schlagzeilen des Tages zusammenfassen lässt – KI-Assistenten sind für Millionen Menschen zur ersten Anlaufstelle für Information geworden.
Laut aktuellen Daten der BBC und der Europäischen Rundfunkunion (EBU) nutzen 800 Millionen Menschen weltweit ChatGPT wöchentlich. Das ist nicht mehr bloß eine technologische Spielerei. Es ist ein Paradigmenwechsel in der Informationsarchitektur der Gesellschaft.

Doch genau das macht klassische Medienhäuser nervös. Denn wenn KI-Systeme beginnen, die Informationsvermittlung zu übernehmen, verliert der Journalismus sein Monopol auf Deutung. Und so ist es kein Zufall, dass die BBC und die EBU im Oktober 2025 eine umfassende Studie veröffentlicht haben – den „News Integrity in AI Assistants Toolkit“ –, die die Zuverlässigkeit der großen Sprachmodelle unter die Lupe nimmt.
Das Ergebnis klingt dramatisch: 45 Prozent der getesteten Antworten von ChatGPT, Microsoft Copilot, Perplexity und Google Gemini sollen „signifikante Fehler“ enthalten. Die Schlagzeilen dazu lasen sich wie aus dem Drehbuch einer digitalen Dystopie:

ChatGPT hält Papst Franziskus für lebendig.
Copilot weiß nicht, dass Schweden in der NATO ist.
Gemini glaubt, Donald Trump sei noch nicht wiedergewählt.

Die Schlussfolgerung der Studie: KI-Assistenten seien nicht journalistisch belastbar, ihre Aussagen oft falsch, und das Vertrauen der Nutzer sei gefährlich.

Das klingt nach einem klaren Befund. Doch wer tiefer blickt, erkennt: Diese Studie sagt mindestens so viel über den Zustand der Medienwelt aus wie über den Zustand der KI.

Der noble Anspruch – und seine Schlagseite

Das Ziel der Studie war ehrenhaft. Sie wollte herausfinden, wie gut KI-Systeme mit Nachrichten umgehen, wie zuverlässig ihre Fakten sind, und ob sie die Standards guter journalistischer Arbeit erfüllen: Genauigkeit, Kontext, Quellenarbeit, Unterscheidung zwischen Meinung und Fakt.

Die Untersuchung wurde in 18 Ländern und 14 Sprachen durchgeführt, mit über 3.000 Antworten. Das klingt beeindruckend. Doch die Testbedingungen offenbaren ein zentrales Missverständnis:
KI-Modelle sind keine Journalisten.

Ein journalistischer Beitrag wird nach Ethik, Quellenlage und Kontext bewertet. Eine KI generiert Wahrscheinlichkeiten. Sie „entscheidet“ nicht, sie aggregiert. Sie besitzt keine redaktionelle Intention, kein Bewusstsein, keine Absicht – nur Muster.

Wenn man also ein Sprachmodell wie ChatGPT nach journalistischen Maßstäben testet, bewertet man es an Kriterien, für die es nie gebaut wurde. Das ist, als würde man einem Taschenrechner mangelnde ökonomische Weitsicht vorwerfen, weil er Zahlen nur addiert.

45 Prozent Fehler – aber was heißt eigentlich „Fehler“?

Die EBU-Studie spricht von „signifikanten Fehlern“ in 45 Prozent der Antworten. Doch was genau bedeutet das?
In der Studie werden unter anderem folgende Fälle als Fehler gewertet:

  • leichte semantische Abweichungen („fehlende Erfahrung“ vs. „fehlende Vorbereitung“),
  • fehlende Kontextdetails,
  • veraltete Quellen,
  • falsche Zitierweise,
  • oder ein zu selbstsicherer Tonfall.

Das sind relevante Qualitätsaspekte – aber keine Desinformation im klassischen Sinn.
Wenn Copilot im Juni 2025 schreibt, Schweden sei noch kein NATO-Mitglied, beruht das auf einer Quelle aus 2023. Das ist kein Lügenakt, sondern ein Zeitversatz.
Wenn ChatGPT behauptet, Papst Franziskus lebe noch, dann nicht, weil das Modell Theologie verwechselt, sondern weil die Trainingsdaten zu diesem Zeitpunkt noch keine Kenntnis seines hypothetischen Todes enthielten.

Das mag ungenau sein, ist aber kein struktureller Vertrauensbruch. Es zeigt schlicht, dass KI-Modelle keine Echtzeitdaten besitzen – es sei denn, sie sind mit Web-Suche verbunden.

Ironischerweise enthält die Studie selbst an mehreren Stellen die Lösung:

„Wenn es wichtig ist, dass Antworten aktuell sind, sollte man ergänzen: ‚Recherchiere die aktuelle Antwort über die Websuche und nenne die Quelle(n).‘“
Das ist exakt das, was moderne KI-Systeme inzwischen tun.

Was wirklich das Problem darstellt

Die EBU-Studie verkennt, dass sich die getesteten Systeme seit Mitte 2025 radikal verändert haben.
Gemini 1.5 führte die Deep Research-Funktion ein – eine mehrstufige Recherche mit Quellenprüfung, Konsensanalyse und Echtzeitdaten.
Perplexity Pro nutzt seither ein mehrschichtiges Quellenranking, das Datenqualität, Aktualität und thematische Kohärenz bewertet.
ChatGPT (GPT-5) verfügt über Web Search, File Analysis, Fact Validation und transparente Zitationspfade.

Mit anderen Worten: Die getesteten Versionen waren veraltet, und die Methodik konservierte einen Zustand, den es längst nicht mehr gibt. Das ist, als würde man im Jahr 2025 das autonome Fahren von 2018 beurteilen und dann titeln: „Selbstfahrende Autos sind unsicher.“ Technologische Systeme entwickeln sich iterativ, nicht institutionell.

Die kulturelle Verzerrung

Ein weiteres Problem: Die Studie testete 30 Kernfragen und einige länderspezifische Zusatzfragen – von „Ist Viktor Orbán ein Diktator?“ bis „Wie gefährlich ist Vogelgrippe?“
Das ist ein zu kleiner, kulturell heterogener Datensatz, um allgemeingültige Aussagen zu treffen.

KI-Modelle reagieren stark auf Sprachkontext und lokale Datenverfügbarkeit. Ein Modell, das in Kanada exzellent funktioniert, kann in Litauen scheitern – nicht aus ideologischen Gründen, sondern weil die Textbasis dünner ist. Die EBU interpretiert diese Varianz als Qualitätsproblem. Tatsächlich ist sie eine Spiegelung globaler Informationsungleichheit.

Der journalistische Bias

Man darf nicht vergessen, wer die Studie veröffentlicht hat:Ein Zusammenschluss von 68 öffentlich-rechtlichen Sendern aus 56 Ländern.
Das sind Institutionen, deren Existenzberechtigung auf redaktioneller Kontrolle beruht. Wenn KI-Systeme plötzlich in der Lage sind, tagesaktuelle Zusammenfassungen zu liefern, Zitate korrekt einzuordnen und sogar Quellen zu nennen – dann bedroht das die Gatekeeper-Rolle klassischer Medien. Die Studie ist daher auch eine symbolische Abwehrreaktion.
Sie positioniert KI-Assistenten als unzuverlässig, um die Notwendigkeit journalistischer Aufsicht zu betonen. Man könnte sagen: Sie verteidigt das eigene Mandat, nicht nur die Wahrheit.

Natürlich ist journalistische Verantwortung unverzichtbar. Aber der Versuch, KI-Systeme an redaktionellen Standards zu messen, ist, als würde man einen Algorithmus zwingen, sich an Ethik zu erinnern.

Die eigentliche Schwäche: Methodische Blindheit gegenüber Prompt-Sensitivität

Ein zentrales methodisches Problem bleibt in der Studie völlig unberücksichtigt: Prompt-Design.
Die Ergebnisse der KI hängen stark davon ab, wie man fragt. Fragen wie „Is Trump starting a trade war?“ (implizit wertend) führen zu ganz anderen Antworten als „What tariffs has Trump introduced in 2025?“. Doch die Studie nennt die verwendeten Prompts nicht. Damit ist unklar, ob die Modelle neutral, führend, oder konfrontativ befragt wurden. Ohne diese Transparenz lässt sich die Qualität der Antworten gar nicht objektiv beurteilen.

Man könnte also auch sagen:
Die Forscher haben getestet, wie gut sie selbst mit der KI umgehen können – nicht, wie gut die KI tatsächlich ist.

Das unterschätzte Gegenargument: KI kann heute präziser sein als Google

Hier liegt die Ironie:
Gerade weil moderne Systeme wie Perplexity und Gemini ihre Informationen in Echtzeit beziehen, sind sie oft aktueller, konsistenter und überprüfbarer als klassische Suchmaschinen.

Während Google eine Flut von SEO-optimierten, widersprüchlichen Webseiten ausgibt, erstellen KI-Assistenten synthetische Zusammenfassungen mit Quellenangaben.
Das Problem ist also nicht, dass die Antworten „zu KI-lastig“ sind – sondern dass wir nicht gelernt haben, diese neue Form der Informationsaggregation kritisch zu lesen. Es ist ein neues Genre: halb Maschine, halb Redaktion. Und dafür fehlt uns bislang das Vokabular.

Die medienpolitische Dimension

Hinter der Studie steckt auch ein Machtkonflikt. Wer kontrolliert in Zukunft den Zugang zu Wahrheit – Medienhäuser oder Modelle? Für die BBC und die EBU steht viel auf dem Spiel: Vertrauen, Einfluss, Legitimation. Indem sie KI-Assistenten als fehleranfällig darstellen, sichern sie sich eine moralische Deutungshoheit.
Doch die langfristige Lösung liegt nicht in der Abgrenzung, sondern in der Integration:
öffentlich-rechtliche Inhalte sollten nicht gegen KI-Systeme, sondern in ihnen sichtbar werden – als verifizierte Quellen, als geprüfte Wissensanker in einer probabilistischen Welt.

Ein realistischer Blick: Vertrauen ist keine Binärgröße

Die Wahrheit ist:
Kein System – weder KI noch Mensch – produziert perfekte Information. Aber während journalistische Fehler meist menschliche sind (Versehen, Bias, politische Blindstellen), sind KI-Fehler technologisch determinierbar und damit messbar, korrigierbar, skalierbar. Was wir erleben, ist nicht das Ende des Journalismus, sondern seine algorithmische Rekombination.
Redaktionen müssen lernen, mit probabilistischen Informationssystemen zu kooperieren, statt sie zu bekämpfen. Und Nutzer müssen lernen, mit Unsicherheit zu leben – denn Wahrheit war nie statisch, sie war immer rekonstruktiv.

Die Studie zeigt ein echtes Problem – aber sie schaut in die falsche Richtung

Ja, KI-Assistenten machen Fehler.
Aber das Problem liegt nicht in ihrer „Unzuverlässigkeit“, sondern in unserem Umgang mit ihnen.
Die EBU-Studie ist ein notwendiger Weckruf – aber sie verwechselt die Werkzeuge der Zukunft mit den Maßstäben der Vergangenheit.

Der Hund, um den es wirklich geht, liegt also nicht im „Halluzinieren“ der Maschinen begraben –
sondern im Unvermögen der Institutionen, die epistemologische Revolution zu akzeptieren, die gerade stattfindet.

Denn zum ersten Mal in der Geschichte der Informationsgesellschaft gilt:
Nicht mehr Menschen filtern Informationen für Maschinen –
sondern Maschinen beginnen, Informationen für Menschen zu filtern.

Und wer diesen Wandel nur mit dem Werkzeugkasten der alten Welt misst, wird zwangsläufig zu dem Schluss kommen, dass alles fehlerhaft ist – obwohl sich vielleicht nur die Wahrheit verändert hat.