GPT-5.5 ist da: OpenAI schlägt Claude – und verdoppelt den Preis

Autor*in

Martin Wald

OpenAI schickt GPT-5.5 ins Rennen und übertrumpft Claude und Gemini. Der Preis? Verdoppelt. Die Versprechen? Gewaltig. Doch wer genauer hinschaut, entdeckt Lücken in der schönen neuen KI-Welt.

OpenAI hat GPT-5.5 vorgestellt – intern „Spud“ genannt – und verspricht nichts Geringeres als eine „neue Klasse von Intelligenz“. Das agentenbasierte Modell soll komplexe Aufgaben eigenständig durchziehen: Code schreiben, debuggen, recherchieren, Daten analysieren. Alles ohne permanente Handsteuerung. Klingt nach Revolution, riecht aber auch nach Marketing-Offensive in einem KI-Markt, wo OpenAI zuletzt Federn ließ.

Die Benchmark-Zahlen lesen sich zunächst beeindruckend. Auf Terminal-Bench 2.0, einem Coding-Test für mehrstufige Kommandozeilen-Workflows, erreicht GPT-5.5 laut OpenAI 82,7 Prozent – Claude Opus 4.7 von Anthropic kommt auf 69,4 Prozent, Googles Gemini 3.1 Pro auf 68,5 Prozent. Bei anspruchsvoller Mathematik wird der Abstand noch deutlicher: Im FrontierMath Tier 4 erzielt GPT-5.5 satte 35,4 Prozent, während Claude bei 22,9 Prozent und Gemini bei 16,7 Prozent stagnieren.

Wo die Konkurrenz triumphiert

Doch die Euphorie hat Risse. Beim SWE-Bench Pro, der echte GitHub-Issue-Lösungen testet, liegt Claude Opus 4.7 mit 64,3 Prozent vor GPT-5.5 (58,6 Prozent). Auch beim MCP Atlas Tool-Use-Benchmark von Scale AI schneiden sowohl Claude (79,1 Prozent) als auch Gemini (78,2 Prozent) besser ab als GPT-5.5 (75,3 Prozent). Selbst beim Web-Recherche-Test BrowseComp überholt Gemini das OpenAI-Basismodell knapp.

Noch pikanter: Bei einigen Benchmarks fehlen Konkurrenzwerte komplett. Der interne Expert-SWE-Test vergleicht GPT-5.5 ausschließlich mit dem eigenen Vorgänger – externe Referenzen? Fehlanzeige. „Die Vergleichbarkeit ist eingeschränkt“, konstatiert heise nüchtern. OpenAI räumt sogar selbst ein, dass bei SWE-Bench Pro „Hinweise auf Memorisierungseffekte“ existieren – sprich: Das Modell könnte sich Lösungen gemerkt haben statt sie zu entwickeln.

Die Super-App-Vision und der Musk-Faktor

OpenAI-Präsident Greg Brockman sprach gegenüber TechCrunch von einem „Schritt in Richtung Super App“ – einer Alles-in-einem-Plattform aus ChatGPT, Codex und AI-Browser. Interessanter Nebenaspekt: Elon Musk, Ex-OpenAI-Mitgründer und heutiger Rivale, verfolgt mit X exakt dieselbe Super-App-Strategie. Der Wettkampf der Visionen läuft auf Hochtouren.

Technisch setzt OpenAI auf NVIDIA GB200- und GB300-NVL72-Systeme. Besonders raffiniert: Codex analysierte eigene Produktions-Traffic-Muster und schrieb Load-Balancing-Algorithmen, die die Token-Generierung um über 20 Prozent beschleunigten. „Das Modell half, die Infrastruktur zu verbessern, die es selbst bedient“, so The Decoder. KI optimiert KI – Meta-Level erreicht.

Die Preisfrage

GPT-5.5 kostet in der API 5 Dollar pro Million Input-Tokens und 30 Dollar für Output – exakt das Doppelte von GPT-5.4. Die Pro-Variante schießt auf 30 respektive 180 Dollar. OpenAIs Argument: Das Modell sei effizienter und brauche weniger Tokens für identische Aufgaben.

Ob diese Rechnung aufgeht, werden API-Nutzer in den kommenden Wochen prüfen – sofern sie Zugang erhalten. Die API-Freigabe verzögert sich nämlich aus „Sicherheitsgründen“. Strengere Klassifikatoren für Cybersecurity-Risiken könnten „zunächst als lästig empfunden werden“, warnt OpenAI selbst. Legitime Sicherheitsforscher müssen sich durch ein „Trusted Access for Cyber“-Programm verifizieren lassen.

Business Punk Check

OpenAI liefert mit GPT-5.5 technisch ab – zumindest in ausgewählten Disziplinen. Die Benchmark-Dominanz bei Coding und Mathematik ist real, die Rückkehr an die Spitze der Artificial-Analysis-Charts ebenfalls. Doch wer die Datenlage durchkämmt, findet erhebliche Lücken: fehlende Konkurrenzvergleiche, mögliche Memorisierungseffekte, Schwächen bei Tool-Use und Web-Recherche. Die Preisverdopplung ist gewagt in einem Markt, wo Claude und Gemini technologisch gleichauf sind. OpenAIs Wette: Agentic Capabilities rechtfertigen Premium-Pricing.

Doch ohne vollständige API-Verfügbarkeit und unabhängige Tests bleibt das Spekulation. Die Super-App-Vision wirkt ambitioniert, aber in weiter Ferne – und Musk spielt dasselbe Spiel mit mehr Nutzerbasis. Unterm Strich: GPT-5.5 ist kein Game-Changer, sondern ein kalkulierter Schachzug. OpenAI kauft sich mit selektiven Benchmarks und Marketing-Vokabular Zeit. Ob „Spud“ hält, was es verspricht, entscheidet sich nicht in PowerPoint-Slides, sondern in realen Produktionsumgebungen. Und die lassen noch auf sich warten.

Häufig gestellte Fragen

Was unterscheidet GPT-5.5 von früheren Modellen?

GPT-5.5 ist als agentenbasiertes System konzipiert und erledigt komplexe Aufgaben eigenständig über mehrere Tools hinweg – von Coding über Recherche bis Datenanalyse. Es plant Schritte selbst, prüft Zwischenergebnisse und arbeitet konsistenter über längere Zeiträume als Vorgängermodelle.

Wie viel teurer ist GPT-5.5 als GPT-5.4?

Der API-Preis verdoppelt sich: GPT-5.5 kostet 5 Dollar pro Million Input-Tokens und 30 Dollar für Output, GPT-5.4 lag bei 2,50 respektive 15 Dollar. Die Pro-Variante erreicht sogar 30 und 180 Dollar. OpenAI argumentiert mit höherer Token-Effizienz.

Wo liegt GPT-5.5 vor der Konkurrenz?

Bei Coding-Benchmarks (Terminal-Bench 2.0: 82,7 Prozent) und Mathematik (FrontierMath Tier 4: 35,4 Prozent) dominiert GPT-5.5 Claude Opus 4.7 und Gemini 3.1 Pro deutlich. Auch bei langen Kontexten bis 1 Million Tokens zeigt es Stärke.

In welchen Bereichen schwächelt das neue Modell?

Bei SWE-Bench Pro (echte GitHub-Issues), MCP Atlas (Tool-Use) und BrowseComp (Web-Recherche) schneiden Claude und Gemini teilweise besser ab. Zudem fehlen bei mehreren OpenAI-Benchmarks Konkurrenzvergleiche komplett.

Quellen: heise, The Decoder, TechCrunch, Trending Topics