Tech & Trends 52,5 Prozent weniger Halluzinationen: OpenAI rüstet ChatGPT für Medizin auf

Foto: Business Punk by KI

6. Mai 2026

Foto: Business Punk by KI

52,5 Prozent weniger Halluzinationen: OpenAI rüstet ChatGPT für Medizin auf

Autor*in

Martin Wald

OpenAI ersetzt GPT-5.3 Instant durch GPT-5.5 Instant als neues ChatGPT-Standardmodell. Der Clou: 52,5 Prozent weniger Halluzinationen bei Medizin, Recht und Finanzen – und erstmals volle Transparenz über die Datenquellen der Antworten.

OpenAI hat diese Woche still und leise sein eigenes Kind abserviert: GPT-5.3 Instant fliegt raus, GPT-5.5 Instant übernimmt als neues Standardmodell für ChatGPT. Die Begründung klingt nach Schadensbegrenzung: Das neue Modell soll endlich zuverlässiger sein – gerade dort, wo es richtig teuer werden kann. Laut TechCrunch reduziert GPT-5.5 Instant Halluzinationen in sensiblen Bereichen wie Medizin, Recht und Finanzen drastisch.

In internen Tests habe das Modell 52,5 Prozent weniger erfundene Behauptungen bei Hochrisiko-Prompts produziert als der Vorgänger, so The Decoder. Bei besonders schwierigen Konversationen, die Nutzer zuvor wegen Faktenfehlern markiert hatten, seien ungenaue Aussagen um 37,3 Prozent zurückgegangen. Das Unternehmen illustriert den Fortschritt mit einem Algebra-Beispiel: Während GPT-5.3 Instant bei einer fehlerhaften Gleichung fälschlich schloss, es gebe keine reelle Lösung, identifizierte GPT-5.5 Instant den Rechenfehler des Nutzers und löste die korrigierte quadratische Gleichung selbstständig.

Benchmarks: Von Mathe bis Multimodal

Die Verbesserungen zeigen sich in den Zahlen. Beim AIME 2025 Mathematikwettbewerb kletterte die Genauigkeit von 65,4 auf 81,2 Prozent. Bei GPQA, einem Test auf Doktorandenniveau in den Naturwissenschaften, verbesserte sich das Modell von 78,5 auf 85,6 Prozent, wie AI News berichtet. Beim multimodalen Reasoning-Benchmark MMMU-Pro legte GPT-5.5 Instant von 69,2 auf 76,0 Prozent zu.

Besonders interessant: OpenAI positioniert GPT-5.5 explizit als „neue Klasse von Intelligenz für echte Arbeit und für das Betreiben von Agenten“, so AI News. Das Modell sei von Grund auf darauf trainiert, zu planen, Tools zu nutzen, eigene Ausgaben zu überprüfen und Aufgaben eigenständig durchzuarbeiten. Bei Terminal-Bench 2.0, einem Benchmark für Command-Line-Workflows mit Tool-Koordination, erreicht GPT-5.5 laut AI News 82,7 Prozent – deutlich vor GPT-5.4 mit 75,1 Prozent und Claude Opus 4.7 mit 69,4 Prozent.

Memory Sources: Endlich Transparenz

Die wohl interessanteste Neuerung sind die sogenannten Memory Sources. Erstmals können Nutzer einsehen, welcher Kontext in eine Antwort eingeflossen ist – etwa gespeicherte Erinnerungen, frühere Chats oder Gmail-Inhalte. Einzelne Einträge lassen sich als relevant oder irrelevant markieren, korrigieren oder löschen. OpenAI räumt allerdings ein, dass Memory Sources möglicherweise nicht jeden Faktor anzeigen, der eine Antwort beeinflusst hat. So werde etwa nur ein Teil der durchsuchten Chats als Quelle aufgeführt.

Beim Teilen eines Chats werden Memory Sources nicht an andere weitergegeben – ein wichtiges Detail für Business-Nutzer. GPT-5.5 Instant wird ab sofort an alle ChatGPT-Nutzer ausgerollt. Für zahlende Nutzer bleibt GPT-5.3 Instant noch drei Monate über die Modelleinstellungen verfügbar, bevor es eingestellt wird, wie TechCrunch meldet. Die erweiterte Personalisierung durch vergangene Chats, Dateien und Gmail steht zunächst Plus- und Pro-Nutzern im Web zur Verfügung.

Business Punk Check

OpenAI verkauft GPT-5.5 Instant als Durchbruch bei der Zuverlässigkeit – dabei korrigiert das Unternehmen nur einen Schaden, den es selbst angerichtet hat. Dass ein KI-Modell bei medizinischen oder rechtlichen Fragen 52,5 Prozent weniger Bullshit produziert, ist kein Feature – es ist die Mindestanforderung. Die Memory Sources sind ein cleverer Transparenz-Move, aber auch ein Eingeständnis: Ohne Nachvollziehbarkeit will niemand mehr zahlen. Für Unternehmen bleibt die Frage: Reichen 47,5 Prozent verbleibende Fehlerquote bei Hochrisiko-Themen? Wohl kaum.

GPT-5.5 Instant ist ein Schritt in die richtige Richtung – aber wer KI für kritische Entscheidungen nutzt, braucht mehr als „weniger falsch“. Die API-Verfügbarkeit als „chat-latest“ zeigt: OpenAI will schnell Entwickler an Bord holen. Wer jetzt integriert, sollte trotzdem penibel testen.

Häufig gestellte Fragen

Was ist neu an GPT-5.5 Instant?

GPT-5.5 Instant reduziert laut internen Tests Halluzinationen bei sensiblen Themen wie Medizin, Recht und Finanzen um 52,5 Prozent. Zudem führt OpenAI Memory Sources ein, mit denen Nutzer nachvollziehen können, welcher Kontext in Antworten eingeflossen ist. Das Modell soll prägnanter antworten und weniger unnötige Folgefragen stellen.

Wie unterscheidet sich GPT-5.5 Instant von GPT-5.5 Thinking?

GPT-5.5 Instant ist die für den Alltagsgebrauch optimierte Variante, die als Standardmodell in ChatGPT dient. GPT-5.5 Thinking bleibt das leistungsfähigere Modell für komplexere Aufgaben, erreicht bei Cybersecurity ähnliche Leistungen wie Claude Mythos und ersetzt die spezialisierten Codex-Coding-Modelle.

Wann wird GPT-5.3 Instant eingestellt?

Zahlende Nutzer können GPT-5.3 Instant noch drei Monate über die Modelleinstellungen nutzen, bevor es komplett eingestellt wird. Für alle anderen Nutzer ist GPT-5.5 Instant ab sofort das neue Standardmodell in ChatGPT.

Wer kann Memory Sources und erweiterte Personalisierung nutzen?

Memory Sources werden für alle ChatGPT-Consumer-Pläne im Web ausgerollt, die mobile Verfügbarkeit folgt. Die erweiterte Personalisierung durch frühere Chats, Dateien und Gmail steht zunächst Plus- und Pro-Nutzern zur Verfügung. Eine Ausweitung auf Free-, Go-, Business- und Enterprise-Pläne ist in den kommenden Wochen geplant.

Quellen: TechCrunch, AI News, The Decoder, Caschys Blog

Blick ins Heft

2/2026

Die neue Ausgabe