⚡ In 30 Sekunden
- OpenAI testet neue Modelle vor dem Launch heimlich unter Codenamen auf der KI-Benchmarkplattform LM Arena
- Bislang enttarnte Modelle: GPT-5 (Zenith/Summit), GPT-5.3 (Vortex/Zephyr), GPT-5.4 (Galapagos), GPT-5.5 Pro („Spud“) und GPT-Image-2 (maskingtape/gaffertape/packingtape)
- Codenamen erscheinen in der Regel 2–6 Wochen vor dem offiziellen Launch
- Die Methode kopiert Googles „Nano Banana“-Playbook: anonym testen, Community-Buzz aufbauen, dann offiziell launchen
- GPT-Image-2 ist laut OpenAI am 21. April 2026 offiziell erschienen; GPT-5.5 Pro „Spud“ ist Stand heute noch nicht bestätigt
Dieser Artikel wurde mit Künstlicher Intelligenz erstellt und redaktionell kuratiert.
Wie weiß die KI-Community eigentlich Wochen vor dem offiziellen Launch, was OpenAI als nächstes plant? Die Antwort liegt auf der Testplattform LM Arena (ehemals LMSYS Chatbot Arena): Dort können Nutzer anonym zwei KI-Modelle im Blindvergleich testen, ohne zu sehen, welches Modell welche Antwort liefert. OpenAI nutzt diese Plattform regelmäßig, um neue Modelle unter Decknamen zu testen – und die Community ist inzwischen sehr gut darin geworden, sie zu identifizieren. Dieser Artikel dokumentiert die fünf wichtigsten geleakten Modelle der jüngeren Vergangenheit: Was die Codenamen verraten, welche Fähigkeiten beobachtet wurden und was davon für Unternehmen im DACH-Raum relevant ist.
Warum OpenAI auf LM Arena testet
LM Arena löst ein grundlegendes Problem bei der KI-Evaluierung: Benchmark-Gaming. Wer einen Benchmark kennt, kann ein Modell gezielt darauf trainieren – die Ergebnisse sagen dann wenig über die echte Leistung aus. LM Arena dagegen konfrontiert Modelle mit völlig zufälligen, unvorhersehbaren Fragen echter Nutzer. Die Elo-Wertung ist schwerer zu manipulieren als ein statischer Benchmark.
Gleichzeitig würde OpenAI bei bekanntem Modellnamen einen verzerrten Test erhalten: Nutzer tendieren dazu, Antworten von GPT bevorzugt zu bewerten – allein aufgrund des Brandings. Anonyme Codenames lösen dieses Problem. Als Nebeneffekt erzeugt das Erscheinen eines starken anonymen Modells auf der Plattform organischen Community-Buzz: Entwickler und KI-Forscher diskutieren die Ergebnisse, bevor OpenAI auch nur eine Pressemitteilung veröffentlicht hat.
Modell 1: GPT-5 – Codenamen Zenith und Summit
Die erste große Entdeckung war gleichzeitig die spektakulärste. Im Juli 2025 tauchten auf LM Arena gleich sechs anonyme Modelle auf: Zenith, Summit, Lobster, Nectarine, Starfish und o3-alpha. Die Modelle überboten nahezu alle bekannten Systeme in den Blind-Votings. Die KI-Community schloss schnell auf unterschiedliche Varianten von GPT-5 – darunter die Flaggschiff- und Reasoning-Variante sowie frühe Mini- und Nano-Versionen.
Laut nachträglichen Analysen war Zenith die allgemeine Hauptvariante und Summit stärker auf komplexe mehrstufige Reasoning-Aufgaben spezialisiert. OpenAI bestätigte das Muster mit dem offiziellen GPT-5-Launch im August 2025. Das Modell fasste die bisher getrennten GPT- und o-Series-Fähigkeiten zusammen: klassische Sprachkompetenz kombiniert mit integriertem Reasoning ohne separaten o3-Umweg.
📋 Was Unternehmen wissen müssen
GPT-5 ist seit August 2025 verfügbar. Über die Frage, welches Modell für Enterprise-Zwecke vorzuziehen ist, haben wir ausführlich berichtet. Für die DACH-DSGVO-Compliance gilt: GPT-5 über Azure OpenAI Service ist mit EU-AVV einsetzbar.
Modell 2: GPT-5.3 – Codenamen Vortex und Zephyr
Am 25. Februar 2026 erschienen zwei neue anonyme Modelle auf LM Arena: Vortex und Zephyr. Die Community erkannte das bekannte Muster sofort: zwei Varianten gleichzeitig, OpenAI-typische Antwortstruktur, Leistung über dem aktuellen Stand. Die Namensgebung war diesmal windbasiert – ein Kontrast zu den höhenbasierten Codenamen von GPT-5 (Zenith = Höchstpunkt, Summit = Gipfel). Analysten vermuteten darin einen Hinweis auf Geschwindigkeit oder Leichtigkeit als Kernverbesserung.
Laut Community-Analysen war Vortex die allgemeine Flaggschiff-Variante von GPT-5.3, während Zephyr tieferes mehrstufiges Denken priorisierte – damit spiegelte das Duo exakt die Zenith/Summit-Aufteilung. GPT-5.3 erschien kurz darauf offiziell und brachte laut OpenAI vor allem Verbesserungen bei der Codegenerierung sowie eine neue Codex-Variante für agentic Coding-Workflows. Für Entwickler, die heute ChatGPT Pro nutzen, läuft GPT-5.3-Codex als Basis für viele intensive Coding-Sessions.
Modell 3: GPT-5.4 – Codename Galapagos
Am 4. März 2026 tauchte auf Chatbot Arena ein einzelnes anonymes Modell mit dem Codenamen Galapagos auf. Bemerkenswert war diesmal der Zeitpunkt: GPT-5.3 Instant war erst einen Tag zuvor, am 3. März 2026, offiziell erschienen. OpenAI postete noch am selben Tag einen kryptischen Kommentar: „5.4 sooner than you think“. Die Community interpretierte Galapagos als frühe Signalisierung des nächsten Flaggschiffmodells.
Code-Leaks und Community-Analysen deuteten auf zwei wesentliche Neuerungen hin: ein 2-Millionen-Token-Kontextfenster (doppelt so groß wie GPT-5.3 Codex mit 1M) sowie ein neuer API-Parameter für vollauflösende Bildverarbeitung ohne Kompression. Die beschleunigte Release-Kadenz von OpenAI – GPT-5.0 (August 2025), GPT-5.1 (November 2025), GPT-5.2 (Dezember 2025), GPT-5.3-Codex (Februar 2026) – macht einen GPT-5.4-Release im Frühjahr 2026 plausibel. Stand heute (April 2026) ist GPT-5.4 laut OpenAI-API-Dokumentation verfügbar.
Modell 4: GPT-5.5 Pro – Codename „Spud“
Der aktuellste und zugleich am wenigsten bestätigte Leak betrifft ein Modell mit dem internen Codenamen Spud. Anders als die Arena-Codenamen der früheren Modelle taucht Spud nicht in LM Arena auf, sondern über A/B-Tests innerhalb der GPT-5.4-Pro-Oberfläche für eine kleine Nutzergruppe. Laut Berichten auf AI Fire (April 2026) sowie Reddit-Threads steht der Name Spud für Spatial Understanding & Development – ein Hinweis auf den beschriebenen Leistungssprung.
Was Tester beobachtet haben wollen: Spud soll in der Lage sein, aus einem einzigen Textprompt vollständig interaktive 3D-Umgebungen zu generieren – nicht nur Code, der eine Umgebung beschreibt, sondern direkt lauffähige Three.js-Szenen mit physikalisch plausiblen Eigenschaften. In geleakten Tests erstellte das Modell ein begehbares 3D-Modell einer bekannten Filmkulisse sowie Minecraft-ähnliche Voxelwelten. Zudem soll Spud komplexe skalierbare Vektorgrafiken mit deutlich weniger Code-Overhead generieren als GPT-5.4.
⚠️ Einschränkung: Unverifiedte Claims
Die Spud-Beobachtungen stammen ausschließlich aus Community-Berichten und nicht verifizierten A/B-Tests. Eine offizielle Bestätigung durch OpenAI liegt Stand April 2026 nicht vor. Capability-Claims dieser Art sollten als Herstellerclaims zweiter Hand eingestuft werden, bis unabhängige Benchmarks vorliegen.
Modell 5: GPT-Image-2 – Die Tape-Codenamen
Der vielleicht am besten dokumentierte Leak ist gleichzeitig das einzige inzwischen offiziell veröffentlichte Modell dieser Liste. Am 4. April 2026 erschienen drei anonyme Bildgenerierungsmodelle auf LM Arena: maskingtape-alpha, gaffertape-alpha und packingtape-alpha. Innerhalb weniger Stunden wurden sie wieder entfernt – doch Screenshots und Beispielbilder hatten sich bereits auf X, Reddit und YouTube verbreitet.
Die Community identifizierte die Tape-Modelle als Varianten von GPT-Image-2, dem Nachfolger von GPT-Image-1.5 (Dezember 2025). Das Namensschema folgte dem Präzedenzfall der früheren GPT-Image-1.5-Codenamen „Chestnut“ und „Hazelnut“. Drei gleichzeitige Varianten deuteten auf einen finalen Vergleichstest vor dem Launch hin. Was Tester beobachteten: deutlich verbesserte Textwiedergabe in Bildern, realistischere Hautstruktur und Beleuchtung, keine gelblichen Farbtendenz mehr. Am 21. April 2026 veröffentlichte OpenAI offiziell ChatGPT Images 2.0 – eine Bestätigung des Leaks innerhalb von 17 Tagen. Unser ausführlicher Artikel zu ChatGPT Images 2.0 und was das Modell kann erklärt die technischen Details.
OpenAIs Codename-Strategie: Ein System dahinter
Wer die Codenamen nebeneinanderstellt, erkennt klare Muster. GPT-5 verwendete höhenbasierte Begriffe (Zenith, Summit, Lobster aus dem Tiefseebereich). GPT-5.3 wechselte zu Luft- und Windbegriffen (Vortex, Zephyr). GPT-5.4 verwendete einen geografischen Codenamen (Galapagos). Bildgenerierungsmodelle hatten ihren eigenen Strang: nüchterne Konsumgüter (Chestnut, Hazelnut, Maskingtape, Gaffertape). Diese Muster helfen der Community, neue Modelle schneller zu klassifizieren.
| Modell | Codename(n) | Erschienen Arena | Offizieller Launch | Vorlaufzeit |
|---|---|---|---|---|
| GPT-5 | Zenith, Summit, Lobster, Nectarine, Starfish, o3-alpha | Juli 2025 | August 2025 | ~4 Wochen |
| GPT-Image-1.5 | Chestnut, Hazelnut | Dezember 2025 | Dezember 2025 | ~2 Wochen |
| GPT-5.3 | Vortex, Zephyr | 25. Februar 2026 | März 2026 | ~2–4 Wochen |
| GPT-5.4 | Galapagos | 4. März 2026 | Frühjahr 2026 | ~3–6 Wochen |
| GPT-Image-2 | maskingtape, gaffertape, packingtape | 4. April 2026 | 21. April 2026 | 17 Tage |
| GPT-5.5 Pro („Spud“) | Spud (intern, kein Arena-Auftritt) | – (A/B-Test) | Noch unangekündigt | – |
Was das Codename-System für Entscheider bedeutet
LM-Arena-Codenamen sind mehr als Insiderwissen für KI-Nerds. Für Unternehmen, die KI-Technologie aktiv einsetzen, ergeben sich drei praktische Konsequenzen:
1. Frühwarnsystem für Procurement: Wenn neue Codenamen auftauchen, liegt ein offizieller Launch häufig 2–6 Wochen entfernt. Unternehmen können dieses Signal nutzen, um Upgrade-Entscheidungen und Budget-Anfragen zeitlich vorzubereiten, anstatt reactiv zu handeln.
2. Unabhängige Voreinschätzung vor dem Marketing-Rausch: Die Arena-Phase erzeugt Elo-Scores auf Basis echter Nutzerpraeferenzen – blind, ohne Markenbias. Das sind die ehrlichsten frühzeitigen Qualitätssignale, die vor einem offiziellen Launch verfügbar sind. Wer die Arena-Entwicklung verfolgt, bekommt eine realistische Einschätzung, bevor OpenAI die Benchmark-Zahlen kuriert.
3. Planung von Evaluierungszyklen: Wer weiß, dass GPT-5.5 Pro „Spud“ in der A/B-Phase ist, kann den internen Evaluierungsprozess rechtzeitig starten – statt nach dem Launch in Zeitdruck zu geraten. Im Kontext des Wettbewerbs zwischen OpenAI, Anthropic und Google ist das Timing von Modell-Updates auch eine strategische Information für Vendor-Entscheidungen.
⛔ Risikofaktor: Leak ≠ Garantie
Nicht jeder Codename-Auftritt auf LM Arena führt zu einem Launch in der beobachteten Konfiguration. Modelle werden zwischen Arena-Test und offiziellem Release häufig noch verändert. Capability-Claims aus Community-Beobachtungen sind keine verifizierten Spezifikationen. Beschaffungsentscheidungen sollten erst auf Basis offizieller Dokumentation getroffen werden.
Häufige Fragen (FAQ)
Warum veröffentlicht OpenAI Modelle anonym auf LM Arena?
Anonymes Arena-Testing liefert unverfaelschte Nutzerpraeferenzen. Wenn Nutzer wissen, welches Modell sie bewerten, beeinflusst der Markenname das Ergebnis – in beide Richtungen. OpenAI bekommt so realistische Qualitätssignale und gleichzeitig Community-Aufmerksamkeit vor dem offiziellen Start.
Wie erkennt die Community OpenAI-Modelle hinter Codenamen?
Mehrere Erkennungsmerkmale kombinieren sich: typische Verweigerungsformulierungen bei sensiblen Anfragen, Formatierungstendenzen (Listenstruktur, Code-Blocks), Wissensgrenzen die auf das OpenAI-Training hindeuten, und das gleichzeitige Erscheinen von zwei Varianten am selben Tag. Zudem sind Elo-Spitzenreiter aus dem Nichts immer ein Signal – unbekannte Labore erreichen selten sofort Spitzenplätze.
Ist GPT-5.5 Pro „Spud“ bereits verfügbar?
Nein. Stand April 2026 gibt es keine offizielle Ankündigung oder Dokumentation zu GPT-5.5 Pro. Die beschriebenen Leaks stammen aus A/B-Test-Beobachtungen und Community-Berichten – weder die Existenz noch die beschriebenen Fähigkeiten sind von OpenAI bestätigt.
Welche Plattform verfolgt LM Arena Codenamen am zuverlässigsten?
Die Community auf X (Twitter) ist am schnellsten, oft innerhalb von Stunden nach einem neuen Auftritt. Verlassliche redaktionelle Aufbereitung liefern u.a. The Decoder, VentureBeat und spezialisierte Tracker wie TestingCatalog. Für Enterprise-relevante Einschätzungen empfehlen sich die Analyst-Threads auf Reddit (r/MachineLearning, r/LocalLLaMA) – dort wird häufig mit echten Tests belegt, was elsewhere Spekulation bleibt.
Fazit
OpenAIs Codename-Strategie auf LM Arena ist längst kein Geheimnis mehr – sie ist ein vorhersehbares und von der Community gut entschlüsseltes Ritual. Fünf Modelle zeigen das Muster exemplarisch: GPT-5 (Zenith/Summit), GPT-5.3 (Vortex/Zephyr), GPT-5.4 (Galapagos), GPT-Image-2 (Tape-Familie) und das noch unbestaetigte GPT-5.5 Pro (Spud). Jedes davon erschien auf Arena, bevor OpenAI offiziell kommuniziert hatte – und jedes hinterließ belastbare Spuren.
✅ Handlungsempfehlung
- LM Arena beobachten: Wer täglich auf lmarena.ai die Newcomer-Liste prüft, bekommt häufig als Erster mit, wenn OpenAI etwas Neues testet
- Zwei-Varianten-Regel: Zwei starke unbekannte Modelle, die am selben Tag erscheinen, sind fast immer ein OpenAI-Signal – aber Vorsicht vor voreiligen Schlussässen
- Capability-Claims einordnen: Beobachtete Leistung in Arena-Snapshots ist kein Produktversprechen. Erst wenn OpenAI offizielle Benchmarks und Dokumentation veröffentlicht, sollten Beschaffungsprozesse eingeleitet werden
- Intern vorbereiten: Evaluierungsinfrastruktur und Genehmigungsprozesse rechtzeitig aufsetzen, damit der eigene Test-Zyklus im Fenster zwischen Arena-Erscheinen und offiziellem Launch stattfinden kann
Quellen
- The Neuron: Six new AI models reveal we may be seeing GPT-5 get assembled in real time (Juli 2025)
- NxCode: OpenAI Arena Codenames Explained: Zenith, Summit, Vortex, Zephyr (25. Februar 2026)
- NxCode: GPT-5.3 Spotted on Chatbot Arena as Vortex and Zephyr (25. Februar 2026)
- WentuoAI: GPT-5.4 Leaked: 2M Token Context Window, Codename Galapagos (März 2026)
- AI Fire: OpenAI Unleashes Models: GPT 5.5 Pro and GPT-Image-2 Leaks (21. April 2026)
- Remio AI: GPT Image 2 Was Spotted in Testing (April 2026)
- OpenAI: Introducing ChatGPT Images 2.0 (21. April 2026)
📬 KI-News direkt ins Postfach
Neue Modelle, Codenamen, Tools und Enterprise-KI-Strategien – wöchentlich aufbereitet für den DACH-Markt.




