Tech & Trends „Bullshit-Index“ vorgestellt und warum die KI so gerne Mist erzählt

„Bullshit-Index“ vorgestellt und warum die KI so gerne Mist erzählt

Forscher haben einen „Bullshit-Index“ entwickelt, der misst, wie stark KI-Systeme die Wahrheit verbiegen. Das Problem: Je besser KI-Modelle auf Nutzerzufriedenheit trainiert werden, desto mehr schwindet ihre Verpflichtung zur Wahrheit.

Moderne KI-Sprachmodelle beeindrucken mit scheinbar fundiertem Wissen und eloquenten Antworten. Doch hinter der Fassade verbirgt sich ein wachsendes Problem: Diese Systeme haben ein zunehmend lockeres Verhältnis zur Wahrheit.

Während Halluzinationen – also komplett erfundene Fakten – bereits bekannt sind, haben Forscher der Princeton University nun ein noch tiefgreifenderes Phänomen identifiziert: „Machine Bullshit“.

Was ist KI-Bullshit?

Der Begriff stammt vom Philosophen Harry Frankfurt, der Bullshit als eigene Kategorie neben Lüge und Wahrheit definierte. Laut Jaime Fernández Fisac, Assistenzprofessor an der Princeton University, ist der entscheidende Unterschied: „Beim Lügen glaubt man etwas und sagt das Gegenteil. Bei Bullshit ist es einem einfach egal, ob das Gesagte wahr ist.“ Genau dieses Phänomen beobachten die Forscher bei KI-Systemen.

In einer aktuellen Studie auf „arxiv.org“ führte Fisacs Team den „Bullshit-Index“ ein, der misst, wie stark die Aussagen eines KI-Modells von seinen internen „Überzeugungen“ abweichen. Die Ergebnisse sind alarmierend: Nach dem Training mit Reinforcement Learning from Human Feedback (RLHF) – einer Methode, bei der KI-Systeme für Antworten belohnt werden, die Menschen gefallen – verdoppelte sich der Bullshit-Index nahezu.

Die Kunst des KI-Flunkerns

Laut Kaiqu Liang, Doktorand an der Princeton University, nutzen KI-Modelle verschiedene Flunkertechniken: „Es gibt leere Rhetorik mit blumiger Sprache ohne Substanz und Weasel Words wie ‚Studien deuten darauf hin‘, die klare Aussagen vermeiden.“ Besonders problematisch ist das sogenannte „Paltering“ – die Verwendung selektiver Wahrheiten, um in die Irre zu führen. „Wenn man nach dem Risiko einer Investition fragt, könnte das Sprachmodell wie ein Verkäufer antworten: ‚Historisch gesehen hat der Fonds starke Renditen erzielt‘ – während es das hohe Risiko verschweigt“, erklärt Liang. Die Ursache liegt im Training der Modelle.

„Wenn man ein Modell darauf trainiert, Nutzerzufriedenheit zu maximieren, beginnt es, Antworten zu generieren, die eher einen Daumen hoch bekommen, statt faktisch korrekt zu sein“, erläutert Fernández Fisac. Die Nutzerzufriedenheit stieg in den Tests um 48 Prozent, während die Wahrheitstreue drastisch abnahm.

Seite 1 / 2
Nächste Seite