Dieser Artikel wurde mit Künstlicher Intelligenz erstellt und redaktionell kuratiert.
⚡ In 30 Sekunden
- Der Entwickler Kye Gomez hat am 19. April 2026 das Projekt OpenMythos auf GitHub veröffentlicht.
- Es handelt sich um eine theoretische Rekonstruktion der Claude-Mythos-Architektur – kein Leak, kein Fine-Tune, sondern eine in PyTorch formulierte Hypothese.
- Kernthese: Claude Mythos ist ein Recurrent-Depth Transformer (RDT), der mit 770 Millionen Parametern die Leistung klassischer 1,3-Milliarden-Modelle erreicht.
- Die Architektur kombiniert Mixture-of-Experts (MoE), Multi-Latent Attention (MLA) und bis zu 16 rekurrente Schleifendurchläufe.
- Anthropic hat die Architektur von Claude Mythos nie öffentlich dokumentiert – OpenMythos ist Spekulation mit wissenschaftlicher Fundierung.
Für wen ist dieser Artikel?
- Für CTOs und KI-Architekten, die verstehen wollen, welche neuen Architekturkonzepte hinter aktuellen Frontier-Modellen stecken könnten.
- Für Open-Source-Entwickler und Forscher, die RDTs als Alternative zu klassischen Transformer-Stacks evaluieren wollen.
- Für Entscheider, die einordnen möchten, was die Community über Anthropics Mythos-Modell weiß – und was Spekulation bleibt.
Anthropic hat Claude Mythos zwar als Modell angekündigt, aber kein technisches Paper veröffentlicht. Was das System unter der Haube treibt, bleibt offiziell ein Geheimnis. Das hat die Forschungsgemeinschaft nicht davon abgehalten, eigene Theorien zu entwickeln. Das jüngste Ergebnis: OpenMythos – ein Open-Source-Projekt, das versucht, die Mythos-Architektur von Grund auf in PyTorch nachzubauen.
Das Projekt ist kein Reverse Engineering, kein geleakter Code und keine Distillation aus einem bestehenden Modell. Es ist, wie Projektgründer Kye Gomez selbst beschreibt, eine „in Code formulierte Hypothese" – präzise genug, um falsifizierbar zu sein. Genau das macht sie interessant.
Die Kernthese: Claude Mythos als Recurrent-Depth Transformer
OpenMythos stellt die These auf, dass Claude Mythos zur Klasse der Recurrent-Depth Transformer (RDT) gehört – in der Literatur auch als „Looped Transformers" bezeichnet. Der Unterschied zu klassischen Transformer-Architekturen ist grundlegend.
In einem herkömmlichen Transformer – GPT, LLaMA, Mistral – durchläuft ein Input eine Folge einzigartiger Schichten mit unabhängigen Gewichten. Mehr Leistung bedeutet dort in der Regel mehr Schichten und damit mehr Parameter. Ein RDT hingegen wendet einen fixen Satz von Gewichten iterativ über mehrere Schleifendurchläufe hinweg an – in einem einzigen Forward Pass. Die Tiefe des Reasonings ist damit keine Funktion der gespeicherten Parameter, sondern der Anzahl der Iterationen zur Inferenzzeit.
Bildlich gesprochen: Klassische Transformer lesen einen Text einmal durch; ein RDT überarbeitet seinen internen Zustand immer wieder mit denselben Gewichten – ähnlich wie ein Mensch, der eine komplexe Aufgabe mehrfach durchdenkt, bevor er antwortet.
Die folgende Grafik zeigt den strukturellen Unterschied auf einen Blick:
Wichtiger Disclaimer: OpenMythos ist eine unabhängige, community-getriebene Spekulation auf Basis öffentlich verfügbarer Forschung. Das Projekt steht in keinerlei Verbindung zu Anthropic und wird von Anthropic weder bestätigt noch kommentiert. Die These, dass Claude Mythos ein RDT ist, ist bisher nicht verifiziert.
Wie OpenMythos die Architektur aufbaut
OpenMythos instanziiert die RDT-These als dreiteilige Struktur: Prelude → Recurrent Block → Coda. Prelude und Coda sind klassische Transformer-Schichten, die genau einmal durchlaufen werden. Der Recurrent Block ist der rechnerische Kern – er kann laut Gomez bis zu 16 Mal wiederholt werden.
Bei jedem Schleifendurchlauf t aktualisiert sich der Hidden State nach der Formel:
ht+1 = A·ht + B·e + Transformer(ht, e)
Was bedeuten die einzelnen Terme konkret? ht ist der aktuelle Zustand des Modells nach Iteration t – man kann ihn sich als das „Arbeitsgedächtnis" vorstellen, das sich mit jedem Durchlauf verfeinert. e ist der aus dem Prelude kodierte Original-Input, der bei jedem Schritt erneut eingespeist wird, damit das Modell seinen Ausgangspunkt nicht „vergisst". Der Transformer(ht, e)-Term liefert den eigentlichen Verarbeitungsschritt dieser Iteration.
Die Matrizen A und B sind gelernte Mischungsregler: A steuert, wie viel vom vorherigen Zustand erhalten bleibt (Gedächtnis), B steuert, wie stark der Input bei jedem Schritt neu gewichtet wird (Orientierung). Ein Praxisbeispiel: Beim Lösen einer mehrstufigen Rechenaufgabe würde A dafür sorgen, dass Zwischenergebnisse aus früheren Schritten nicht verschwinden, während B sicherstellt, dass das Modell immer wieder auf die ursprüngliche Frage zurückgelenkt wird.
Mixture-of-Experts statt Standard-FFN
Die Feedforward-Schicht im Recurrent Block ist keine Standard-FFN, sondern ein Mixture-of-Experts (MoE)-Layer nach dem Design von DeepSeekMoE: Ein großer Pool feingranularer Experten, von denen ein spärliches Top-K-Subset pro Token aktiviert wird – ergänzt durch einen kleinen Satz immer aktiver „Shared Experts" für domänenübergreifende Muster. Entscheidend: Der Router wählt bei jedem Schleifendurchlauf unterschiedliche Expertenkombinationen – obwohl die Basisgewichte identisch bleiben. MoE liefert die thematische Breite, die Rekurrenz die Reasoning-Tiefe.
Multi-Latent Attention für Effizienz
Die Attention-Schicht nutzt Multi-Latent Attention (MLA) von DeepSeek-V2, die komprimierte Low-Rank-KV-Latenzen cached – laut Projektdokumentation mit 10–20-facher Reduktion des KV-Memory-Overheads im Produktionsbetrieb.
Stabilität und das „Overthinking"-Problem
Tiefe Rekurrenz bringt zwei technische Risiken mit sich. Das erste ist die sogenannte Residual Explosion: Der Hidden State kann über viele Iterationen hinweg unbegrenzt wachsen. OpenMythos adressiert das mit einem LTI-Constraint (Linear Time-Invariant) aus der Parcae-Architektur – die spektrale Radius-Bedingung ρ(A) < 1 erzwingt Stabilität unabhängig von Lernrate und Gradientenrauschen.
Das zweite Risiko ist das Gegenteil: „Overthinking" – ab einem gewissen Rekursionsgrad driftet der Hidden State ins Rauschen. Adaptive Computation Time (ACT) löst das Problem durch einen gelernten Skalar pro Position, der dynamisch entscheidet, wann die Schleife stoppt. Positionen mit komplexeren Inhalten erhalten mehr Rechenschritte; bereits konvergierte Tokens stoppen früh.
Reasoning im kontinuierlichen Latenzraum
Eine der konzeptuell wichtigsten Eigenschaften des Ansatzes: Das Reasoning findet vollständig im kontinuierlichen Latenzraum statt. Zwischen den Schleifendurchläufen werden keine Tokens ausgegeben – das Modell produziert keinen Zwischentext, den es dann re-liest. Wissenschaftlich belegt ist, dass jede Schleifeniteration eines Looped Transformers funktional äquivalent zu einem Chain-of-Thought-Schritt ist – aber im Raum reellwertiger Vektoren statt diskreter Tokens (Saunshi et al., ICLR 2025, arXiv:2502.17416). Ein Modell mit T Durchläufen simuliert damit implizit T CoT-Schritte.
Praktische Konsequenz: Das Modell kann mehrere mögliche nächste Schritte gleichzeitig in einem Forward Pass explorieren – ähnlich einer Breitensuche über den Reasoning-Raum, bevor es sich auf eine Antwort festlegt. Das Huginn-3.5B-Modell von Geiping et al. (2025, arXiv:2502.05171) ist die bisher bekannteste trainierte Implementierung eines solchen Ansatzes und zeigt, dass Recurrent-Depth Transformer in der Praxis funktionieren – nicht nur in der Theorie.
Der Effizienzanspruch: 770M Parameter, 1,3B Leistung
OpenMythos stellt die These auf, dass 770 Millionen Parameter bei einem RDT die Leistung klassischer 1,3-Milliarden-Transformer-Modelle erreichen können – weil die Reasoning-Tiefe von der Inferenzzeit abhängt, nicht von der Parameteranzahl. Die Effizienzbehauptung stammt aus dem Projekt selbst und ist nicht unabhängig validiert.
Zum Einordnen: Ein klassisches 1,3B-Modell wie Pythia-1.4B oder Phi-1.5B ist bereits in der Lage, einfache Codieraufgaben zu lösen, kurze Texte zu paraphrasieren und in begrenztem Umfang zu schlussfolgern – aber es scheitert regelmäßig an mehrstufigen Logikketten, Mathematikaufgaben auf Schulniveau und längeren Reasoning-Ketten. Wenn die Effizienzbehauptung von OpenMythos zutrifft, würde ein 770M-RDT auf genau diesen Aufgaben deutlich besser abschneiden als ein gleich großes klassisches Modell – weil es dieselben Gewichte mehrfach anwendet statt einmalig. Das Konzept ist wissenschaftlich plausibel (Saunshi et al. zeigen ähnliche Effekte für einfachere Aufgaben), aber für Claude-Mythos-Größenordnungen noch nicht bestätigt.
⚠️ Einordnung: Die Leistungsbehauptung – 770M Parameter auf 1,3B-Niveau – stammt ausschließlich aus dem OpenMythos-Projekt und wurde nicht durch unabhängige Benchmarks bestätigt. Für Produktions- oder Kaufentscheidungen ist diese Zahl nicht belastbar.
Sicherheitshinweis: Malware-Risiko bei Copycat-Repos
Mit dem Aufmerksamkeitszuwachs rund um OpenMythos sind bereits Kopien und Ableger auf GitHub entstanden. Mehrere Sicherheitsanalysten haben darauf hingewiesen, dass einige dieser Copycat-Repositories Malware enthalten. Wer sich für das Projekt interessiert, sollte ausschließlich das offizielle GitHub-Repository von Kye Gomez nutzen und den Code vor jeder Verwendung prüfen.
Was das für DACH-Unternehmen und Entwicklerteams bedeutet
OpenMythos ist kein produktionsreifes Modell und kein direktes Konkurrenzprodukt zu Claude, GPT oder Gemini. Der Wert liegt woanders: als Forschungsimpuls und konzeptueller Referenzpunkt.
Für Teams, die eigene KI-Architekturen evaluieren oder forschen, öffnet das Projekt eine wichtige Frage: Was, wenn Reasoning-Tiefe kein reines Skalierungsproblem ist, sondern sich durch iterative Gewichtsnutzung effizienter erzielen lässt? Diese Frage ist jenseits von OpenMythos in der akademischen Literatur bereits aktiv diskutiert – unter anderem beim realen Huginn-Modell, das Geiping et al. auf Basis derselben RDT-Prinzipien trainiert haben.
Für Compliance- und Einkaufsteams gilt hingegen: OpenMythos liefert keine verifizierten Informationen über Claude Mythos. Wer Anthropics Modelle für Unternehmenseinsatz bewertet, muss sich auf Anthropics eigene Dokumentation, offizielle Benchmarks und unabhängige Evaluationen stützen – nicht auf Community-Spekulationen.
🔴 Nicht geeignet für: Kaufentscheidungen zu Claude-Modellen, Aussagen über tatsächliche Anthropic-Architekturentscheidungen, Compliance- oder Security-Bewertungen von Claude Mythos. OpenMythos ist eine theoretische Übung, keine technische Dokumentation.
Einordnung: RDTs als unterschätzter Architekturpfad
Unabhängig davon, ob Claude Mythos tatsächlich ein RDT ist, adressiert OpenMythos einen Punkt, der in der öffentlichen Diskussion oft untergeht: Die Annahme, dass KI-Leistung primär durch mehr Parameter skaliert, ist nicht die einzige mögliche Entwicklungsrichtung. Saunshi et al. haben formal gezeigt, dass viele Reasoning-Aufgaben zwar große Tiefe, aber nicht notwendigerweise viele Parameter benötigen – was Looped Transformers zu einer wissenschaftlich ernst zu nehmenden Alternative macht.
Die Forschungsgemeinschaft hat mit OpenMythos nun eine lauffähige Referenzimplementierung – das allein ist ein wissenschaftlich relevanter Beitrag, unabhängig von der Frage, ob Anthropic diesen Weg tatsächlich gegangen ist.
Fazit
OpenMythos ist ein mutiges Forschungsprojekt: eine in Code übersetzte Spekulation über Anthropics verschlossene Claude-Mythos-Architektur. Die These – ein Recurrent-Depth Transformer mit MoE, MLA und bis zu 16 Schleifendurchläufen – ist wissenschaftlich kohärent und fundiert, aber nicht verifiziert.
Für die KI-Forschungsgemeinschaft ist das Projekt relevant, weil es einen Architekturpfad jenseits klassischer Skalierung konkret und nachvollziehbar macht. Für Unternehmen, die Claude Mythos oder andere Frontier-Modelle evaluieren, bleibt der Hinweis wichtig: OpenMythos ist Spekulation, kein verlässlicher Einblick in Anthropics tatsächliche Technologieentscheidungen.
FAQ
Was ist OpenMythos?
OpenMythos ist ein Open-Source-Projekt auf GitHub von Entwickler Kye Gomez, das eine theoretische Rekonstruktion der Claude-Mythos-Architektur in PyTorch darstellt. Es ist keine offizielle Anthropic-Dokumentation und hat keine Verbindung zu Anthropic.
Was ist ein Recurrent-Depth Transformer?
Ein RDT ist eine KI-Architektur, bei der ein fixer Satz von Gewichten iterativ mehrfach angewendet wird – statt einmalig durch einzigartige Schichten. Reasoning-Tiefe entsteht durch mehr Iterationen, nicht durch mehr Parameter. Wissenschaftlich formalisiert wurde dieses Konzept u. a. von Saunshi et al. (ICLR 2025).
Ist OpenMythos wirklich Claude Mythos?
Nein. OpenMythos ist eine Hypothese, keine verifizierte Beschreibung. Anthropic hat die Architektur von Claude Mythos nie öffentlich beschrieben. OpenMythos bleibt Spekulation.
Gibt es Sicherheitsrisiken beim Download?
Ja. Mehrere Copycat-Repositories unter ähnlichen Namen enthalten laut Sicherheitsanalysten Malware. Nur das offizielle Repository von Kye Gomez verwenden und Code vor Einsatz prüfen.
Quellen
- MarkTechPost: Meet OpenMythos: An Open-Source PyTorch Reconstruction of Claude Mythos (19. April 2026)
- TechBriefly: OpenMythos project claims Claude Mythos is a Recurrent-Depth Transformer (20. April 2026)
- GitHub: kyegomez/OpenMythos
- Saunshi et al. (ICLR 2025): Reasoning with Latent Thoughts: On the Power of Looped Transformers (arXiv:2502.17416)
- Geiping et al. (2025): Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach (arXiv:2502.05171)
- DeepSeekMoE: DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models (arXiv:2401.06066)
- DeepSeek-V2 (MLA): DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (arXiv:2405.04434)
Quellen und Disclaimer: Dieser Artikel basiert auf öffentlich zugänglichen Informationen zum OpenMythos-Projekt und redaktioneller Einordnung, Stand 22. April 2026. Alle Leistungsbehauptungen rund um OpenMythos stammen aus dem Projekt selbst und wurden nicht unabhängig verifiziert. Anthropic hat sich zu OpenMythos nicht geäußert.
Weitere Artikel auf AI-Fabrik
- Kimi K2.6: Moonshot AI bringt Open-Weight-Modell gegen GPT, Claude und Gemini ins Rennen
- Gemma 4: Googles Open-Source-KI jetzt auf einer GPU
- DeepSeek R1: Open-Source-KI mit GPT-4-Niveau – so nutzen deutsche Unternehmen das Modell DSGVO-konform
Den AI-Fabrik-Newsletter abonnieren für wöchentliche DACH-Einordnungen zu KI-Entwicklungen: → Jetzt abonnieren



