5 geleakte OpenAI-Modelle: Was die Codenamen verraten

5 geleakte OpenAI-Modelle: Was die Codenamen verraten

Table of Contents

⚡ In 30 Sekunden

  • OpenAI testet neue Modelle vor dem Launch heimlich unter Codenamen auf der KI-Benchmarkplattform LM Arena
  • Bislang enttarnte Modelle: GPT-5 (Zenith/Summit), GPT-5.3 (Vortex/Zephyr), GPT-5.4 (Galapagos), GPT-5.5 Pro („Spud“) und GPT-Image-2 (maskingtape/gaffertape/packingtape)
  • Codenamen erscheinen in der Regel 2–6 Wochen vor dem offiziellen Launch
  • Die Methode kopiert Googles „Nano Banana“-Playbook: anonym testen, Community-Buzz aufbauen, dann offiziell launchen
  • GPT-Image-2 ist laut OpenAI am 21. April 2026 offiziell erschienen; GPT-5.5 Pro „Spud“ ist Stand heute noch nicht bestätigt

Dieser Artikel wurde mit Künstlicher Intelligenz erstellt und redaktionell kuratiert.

Wie weiß die KI-Community eigentlich Wochen vor dem offiziellen Launch, was OpenAI als nächstes plant? Die Antwort liegt auf der Testplattform LM Arena (ehemals LMSYS Chatbot Arena): Dort können Nutzer anonym zwei KI-Modelle im Blindvergleich testen, ohne zu sehen, welches Modell welche Antwort liefert. OpenAI nutzt diese Plattform regelmäßig, um neue Modelle unter Decknamen zu testen – und die Community ist inzwischen sehr gut darin geworden, sie zu identifizieren. Dieser Artikel dokumentiert die fünf wichtigsten geleakten Modelle der jüngeren Vergangenheit: Was die Codenamen verraten, welche Fähigkeiten beobachtet wurden und was davon für Unternehmen im DACH-Raum relevant ist.

Warum OpenAI auf LM Arena testet

LM Arena löst ein grundlegendes Problem bei der KI-Evaluierung: Benchmark-Gaming. Wer einen Benchmark kennt, kann ein Modell gezielt darauf trainieren – die Ergebnisse sagen dann wenig über die echte Leistung aus. LM Arena dagegen konfrontiert Modelle mit völlig zufälligen, unvorhersehbaren Fragen echter Nutzer. Die Elo-Wertung ist schwerer zu manipulieren als ein statischer Benchmark.

Gleichzeitig würde OpenAI bei bekanntem Modellnamen einen verzerrten Test erhalten: Nutzer tendieren dazu, Antworten von GPT bevorzugt zu bewerten – allein aufgrund des Brandings. Anonyme Codenames lösen dieses Problem. Als Nebeneffekt erzeugt das Erscheinen eines starken anonymen Modells auf der Plattform organischen Community-Buzz: Entwickler und KI-Forscher diskutieren die Ergebnisse, bevor OpenAI auch nur eine Pressemitteilung veröffentlicht hat.

Modell 1: GPT-5 – Codenamen Zenith und Summit

Die erste große Entdeckung war gleichzeitig die spektakulärste. Im Juli 2025 tauchten auf LM Arena gleich sechs anonyme Modelle auf: Zenith, Summit, Lobster, Nectarine, Starfish und o3-alpha. Die Modelle überboten nahezu alle bekannten Systeme in den Blind-Votings. Die KI-Community schloss schnell auf unterschiedliche Varianten von GPT-5 – darunter die Flaggschiff- und Reasoning-Variante sowie frühe Mini- und Nano-Versionen.

Laut nachträglichen Analysen war Zenith die allgemeine Hauptvariante und Summit stärker auf komplexe mehrstufige Reasoning-Aufgaben spezialisiert. OpenAI bestätigte das Muster mit dem offiziellen GPT-5-Launch im August 2025. Das Modell fasste die bisher getrennten GPT- und o-Series-Fähigkeiten zusammen: klassische Sprachkompetenz kombiniert mit integriertem Reasoning ohne separaten o3-Umweg.

📋 Was Unternehmen wissen müssen

GPT-5 ist seit August 2025 verfügbar. Über die Frage, welches Modell für Enterprise-Zwecke vorzuziehen ist, haben wir ausführlich berichtet. Für die DACH-DSGVO-Compliance gilt: GPT-5 über Azure OpenAI Service ist mit EU-AVV einsetzbar.

Modell 2: GPT-5.3 – Codenamen Vortex und Zephyr

Am 25. Februar 2026 erschienen zwei neue anonyme Modelle auf LM Arena: Vortex und Zephyr. Die Community erkannte das bekannte Muster sofort: zwei Varianten gleichzeitig, OpenAI-typische Antwortstruktur, Leistung über dem aktuellen Stand. Die Namensgebung war diesmal windbasiert – ein Kontrast zu den höhenbasierten Codenamen von GPT-5 (Zenith = Höchstpunkt, Summit = Gipfel). Analysten vermuteten darin einen Hinweis auf Geschwindigkeit oder Leichtigkeit als Kernverbesserung.

Laut Community-Analysen war Vortex die allgemeine Flaggschiff-Variante von GPT-5.3, während Zephyr tieferes mehrstufiges Denken priorisierte – damit spiegelte das Duo exakt die Zenith/Summit-Aufteilung. GPT-5.3 erschien kurz darauf offiziell und brachte laut OpenAI vor allem Verbesserungen bei der Codegenerierung sowie eine neue Codex-Variante für agentic Coding-Workflows. Für Entwickler, die heute ChatGPT Pro nutzen, läuft GPT-5.3-Codex als Basis für viele intensive Coding-Sessions.

Modell 3: GPT-5.4 – Codename Galapagos

Am 4. März 2026 tauchte auf Chatbot Arena ein einzelnes anonymes Modell mit dem Codenamen Galapagos auf. Bemerkenswert war diesmal der Zeitpunkt: GPT-5.3 Instant war erst einen Tag zuvor, am 3. März 2026, offiziell erschienen. OpenAI postete noch am selben Tag einen kryptischen Kommentar: „5.4 sooner than you think“. Die Community interpretierte Galapagos als frühe Signalisierung des nächsten Flaggschiffmodells.

Code-Leaks und Community-Analysen deuteten auf zwei wesentliche Neuerungen hin: ein 2-Millionen-Token-Kontextfenster (doppelt so groß wie GPT-5.3 Codex mit 1M) sowie ein neuer API-Parameter für vollauflösende Bildverarbeitung ohne Kompression. Die beschleunigte Release-Kadenz von OpenAI – GPT-5.0 (August 2025), GPT-5.1 (November 2025), GPT-5.2 (Dezember 2025), GPT-5.3-Codex (Februar 2026) – macht einen GPT-5.4-Release im Frühjahr 2026 plausibel. Stand heute (April 2026) ist GPT-5.4 laut OpenAI-API-Dokumentation verfügbar.

Modell 4: GPT-5.5 Pro – Codename „Spud“

Der aktuellste und zugleich am wenigsten bestätigte Leak betrifft ein Modell mit dem internen Codenamen Spud. Anders als die Arena-Codenamen der früheren Modelle taucht Spud nicht in LM Arena auf, sondern über A/B-Tests innerhalb der GPT-5.4-Pro-Oberfläche für eine kleine Nutzergruppe. Laut Berichten auf AI Fire (April 2026) sowie Reddit-Threads steht der Name Spud für Spatial Understanding & Development – ein Hinweis auf den beschriebenen Leistungssprung.

Was Tester beobachtet haben wollen: Spud soll in der Lage sein, aus einem einzigen Textprompt vollständig interaktive 3D-Umgebungen zu generieren – nicht nur Code, der eine Umgebung beschreibt, sondern direkt lauffähige Three.js-Szenen mit physikalisch plausiblen Eigenschaften. In geleakten Tests erstellte das Modell ein begehbares 3D-Modell einer bekannten Filmkulisse sowie Minecraft-ähnliche Voxelwelten. Zudem soll Spud komplexe skalierbare Vektorgrafiken mit deutlich weniger Code-Overhead generieren als GPT-5.4.

⚠️ Einschränkung: Unverifiedte Claims

Die Spud-Beobachtungen stammen ausschließlich aus Community-Berichten und nicht verifizierten A/B-Tests. Eine offizielle Bestätigung durch OpenAI liegt Stand April 2026 nicht vor. Capability-Claims dieser Art sollten als Herstellerclaims zweiter Hand eingestuft werden, bis unabhängige Benchmarks vorliegen.

Modell 5: GPT-Image-2 – Die Tape-Codenamen

Der vielleicht am besten dokumentierte Leak ist gleichzeitig das einzige inzwischen offiziell veröffentlichte Modell dieser Liste. Am 4. April 2026 erschienen drei anonyme Bildgenerierungsmodelle auf LM Arena: maskingtape-alpha, gaffertape-alpha und packingtape-alpha. Innerhalb weniger Stunden wurden sie wieder entfernt – doch Screenshots und Beispielbilder hatten sich bereits auf X, Reddit und YouTube verbreitet.

Die Community identifizierte die Tape-Modelle als Varianten von GPT-Image-2, dem Nachfolger von GPT-Image-1.5 (Dezember 2025). Das Namensschema folgte dem Präzedenzfall der früheren GPT-Image-1.5-Codenamen „Chestnut“ und „Hazelnut“. Drei gleichzeitige Varianten deuteten auf einen finalen Vergleichstest vor dem Launch hin. Was Tester beobachteten: deutlich verbesserte Textwiedergabe in Bildern, realistischere Hautstruktur und Beleuchtung, keine gelblichen Farbtendenz mehr. Am 21. April 2026 veröffentlichte OpenAI offiziell ChatGPT Images 2.0 – eine Bestätigung des Leaks innerhalb von 17 Tagen. Unser ausführlicher Artikel zu ChatGPT Images 2.0 und was das Modell kann erklärt die technischen Details.

OpenAIs Codename-Strategie: Ein System dahinter

Wer die Codenamen nebeneinanderstellt, erkennt klare Muster. GPT-5 verwendete höhenbasierte Begriffe (Zenith, Summit, Lobster aus dem Tiefseebereich). GPT-5.3 wechselte zu Luft- und Windbegriffen (Vortex, Zephyr). GPT-5.4 verwendete einen geografischen Codenamen (Galapagos). Bildgenerierungsmodelle hatten ihren eigenen Strang: nüchterne Konsumgüter (Chestnut, Hazelnut, Maskingtape, Gaffertape). Diese Muster helfen der Community, neue Modelle schneller zu klassifizieren.

ModellCodename(n)Erschienen ArenaOffizieller LaunchVorlaufzeit
GPT-5Zenith, Summit, Lobster, Nectarine, Starfish, o3-alphaJuli 2025August 2025~4 Wochen
GPT-Image-1.5Chestnut, HazelnutDezember 2025Dezember 2025~2 Wochen
GPT-5.3Vortex, Zephyr25. Februar 2026März 2026~2–4 Wochen
GPT-5.4Galapagos4. März 2026Frühjahr 2026~3–6 Wochen
GPT-Image-2maskingtape, gaffertape, packingtape4. April 202621. April 202617 Tage
GPT-5.5 Pro („Spud“)Spud (intern, kein Arena-Auftritt)– (A/B-Test)Noch unangekündigt

Was das Codename-System für Entscheider bedeutet

LM-Arena-Codenamen sind mehr als Insiderwissen für KI-Nerds. Für Unternehmen, die KI-Technologie aktiv einsetzen, ergeben sich drei praktische Konsequenzen:

1. Frühwarnsystem für Procurement: Wenn neue Codenamen auftauchen, liegt ein offizieller Launch häufig 2–6 Wochen entfernt. Unternehmen können dieses Signal nutzen, um Upgrade-Entscheidungen und Budget-Anfragen zeitlich vorzubereiten, anstatt reactiv zu handeln.

2. Unabhängige Voreinschätzung vor dem Marketing-Rausch: Die Arena-Phase erzeugt Elo-Scores auf Basis echter Nutzerpraeferenzen – blind, ohne Markenbias. Das sind die ehrlichsten frühzeitigen Qualitätssignale, die vor einem offiziellen Launch verfügbar sind. Wer die Arena-Entwicklung verfolgt, bekommt eine realistische Einschätzung, bevor OpenAI die Benchmark-Zahlen kuriert.

3. Planung von Evaluierungszyklen: Wer weiß, dass GPT-5.5 Pro „Spud“ in der A/B-Phase ist, kann den internen Evaluierungsprozess rechtzeitig starten – statt nach dem Launch in Zeitdruck zu geraten. Im Kontext des Wettbewerbs zwischen OpenAI, Anthropic und Google ist das Timing von Modell-Updates auch eine strategische Information für Vendor-Entscheidungen.

⛔ Risikofaktor: Leak ≠ Garantie

Nicht jeder Codename-Auftritt auf LM Arena führt zu einem Launch in der beobachteten Konfiguration. Modelle werden zwischen Arena-Test und offiziellem Release häufig noch verändert. Capability-Claims aus Community-Beobachtungen sind keine verifizierten Spezifikationen. Beschaffungsentscheidungen sollten erst auf Basis offizieller Dokumentation getroffen werden.

Häufige Fragen (FAQ)

Warum veröffentlicht OpenAI Modelle anonym auf LM Arena?

Anonymes Arena-Testing liefert unverfaelschte Nutzerpraeferenzen. Wenn Nutzer wissen, welches Modell sie bewerten, beeinflusst der Markenname das Ergebnis – in beide Richtungen. OpenAI bekommt so realistische Qualitätssignale und gleichzeitig Community-Aufmerksamkeit vor dem offiziellen Start.

Wie erkennt die Community OpenAI-Modelle hinter Codenamen?

Mehrere Erkennungsmerkmale kombinieren sich: typische Verweigerungsformulierungen bei sensiblen Anfragen, Formatierungstendenzen (Listenstruktur, Code-Blocks), Wissensgrenzen die auf das OpenAI-Training hindeuten, und das gleichzeitige Erscheinen von zwei Varianten am selben Tag. Zudem sind Elo-Spitzenreiter aus dem Nichts immer ein Signal – unbekannte Labore erreichen selten sofort Spitzenplätze.

Ist GPT-5.5 Pro „Spud“ bereits verfügbar?

Nein. Stand April 2026 gibt es keine offizielle Ankündigung oder Dokumentation zu GPT-5.5 Pro. Die beschriebenen Leaks stammen aus A/B-Test-Beobachtungen und Community-Berichten – weder die Existenz noch die beschriebenen Fähigkeiten sind von OpenAI bestätigt.

Welche Plattform verfolgt LM Arena Codenamen am zuverlässigsten?

Die Community auf X (Twitter) ist am schnellsten, oft innerhalb von Stunden nach einem neuen Auftritt. Verlassliche redaktionelle Aufbereitung liefern u.a. The Decoder, VentureBeat und spezialisierte Tracker wie TestingCatalog. Für Enterprise-relevante Einschätzungen empfehlen sich die Analyst-Threads auf Reddit (r/MachineLearning, r/LocalLLaMA) – dort wird häufig mit echten Tests belegt, was elsewhere Spekulation bleibt.

Fazit

OpenAIs Codename-Strategie auf LM Arena ist längst kein Geheimnis mehr – sie ist ein vorhersehbares und von der Community gut entschlüsseltes Ritual. Fünf Modelle zeigen das Muster exemplarisch: GPT-5 (Zenith/Summit), GPT-5.3 (Vortex/Zephyr), GPT-5.4 (Galapagos), GPT-Image-2 (Tape-Familie) und das noch unbestaetigte GPT-5.5 Pro (Spud). Jedes davon erschien auf Arena, bevor OpenAI offiziell kommuniziert hatte – und jedes hinterließ belastbare Spuren.

✅ Handlungsempfehlung

  • LM Arena beobachten: Wer täglich auf lmarena.ai die Newcomer-Liste prüft, bekommt häufig als Erster mit, wenn OpenAI etwas Neues testet
  • Zwei-Varianten-Regel: Zwei starke unbekannte Modelle, die am selben Tag erscheinen, sind fast immer ein OpenAI-Signal – aber Vorsicht vor voreiligen Schlussässen
  • Capability-Claims einordnen: Beobachtete Leistung in Arena-Snapshots ist kein Produktversprechen. Erst wenn OpenAI offizielle Benchmarks und Dokumentation veröffentlicht, sollten Beschaffungsprozesse eingeleitet werden
  • Intern vorbereiten: Evaluierungsinfrastruktur und Genehmigungsprozesse rechtzeitig aufsetzen, damit der eigene Test-Zyklus im Fenster zwischen Arena-Erscheinen und offiziellem Launch stattfinden kann

Quellen

📬 KI-News direkt ins Postfach

Neue Modelle, Codenamen, Tools und Enterprise-KI-Strategien – wöchentlich aufbereitet für den DACH-Markt.

Zum Newsletter →

Teile es