MiniMax M3: Das erste Open-Weight-Modell mit drei Frontier-Fähigkeiten

Table of Contents

Redaktionshinweis: Dieser Artikel basiert auf Angaben von MiniMax zum Launch des MiniMax M3 am 1. Juni 2026. Alle Benchmark-Werte sind Herstellerangaben und wurden zum Zeitpunkt der Veröffentlichung nicht unabhängig verifiziert. Preisangaben in USD, Stand Juni 2026.

⏱ In 30 Sekunden

MiniMax M3 ist seit 1. Juni 2026 verfügbar – das erste Open-Weight-Modell mit Frontier-Coding, 1M-Token-Kontext und nativer Multimodalität
Neue MSA-Architektur (Sparse Attention) ermöglicht laut Hersteller 15,6-fach schnellere Dekodierung bei 1M-Token-Kontext
SWE-Bench Pro: 59,0 % (laut MiniMax über GPT-5.5, unter Claude Opus 4.7) – Herstellerangabe, unabhängig nicht verifiziert
API-Preis: 0,60 USD/Mio. Input-Token, 2,40 USD/Mio. Output-Token (bis 512K); temporärer 50-%-Rabatt auf OpenRouter
Modell-Gewichte sollen innerhalb von 10 Tagen nach Launch erscheinen; Training- und Inferenz-Code nicht veröffentlicht → kein vollständiges Open Source

Für wen ist dieser Artikel?

Entwicklungsteams und Architekten, die Coding-Agenten oder Langkontext-Workflows evaluieren · CTOs und IT-Leiter mit Interesse an kosteneffizienten Frontier-Alternativen · Compliance- und Datenschutzverantwortliche, die Open-Weight-Modelle mit DSGVO-Anforderungen abgleichen müssen

Was lange als Privileg geschlossener Modelle galt – erstklassiges Coding, ein Kontextfenster von einer Million Token und native Multimodalität in einem einzigen System – beansprucht MiniMax nun für die Open-Weight-Welt. Am 1. Juni 2026 hat der Shanghaier KI-Anbieter sein neues Flaggschiff-Modell M3 veröffentlicht. Die Reaktion der Märkte war bezeichnend: Die MiniMax-Aktie an der Hongkonger Börse eröffnete über 5 Prozent im Plus – und schloss dann mehr als 12 Prozent im Minus. „Sell the news" auf dem Börsenparkett, echter Diskussionsstoff in der KI-Community.

Dieser Artikel ordnet ein, was M3 technisch leistet, wo die Herstellerangaben mit Vorsicht zu genießen sind – und was die Veröffentlichung für Unternehmen bedeutet, die Coding-Agenten oder agentic Workflows evaluieren.

Was ist MiniMax M3?

MiniMax M3 ist ein nativ multimodales Modell, das von Grund auf mit multimodalen Daten trainiert wurde. MiniMax hat dafür seine gesamte Datenpipeline neu aufgebaut und das Vortraining auf mehrere Hundert Terabyte skaliert (laut Hersteller: 100T+). Das Modell unterstützt Text-, Bild- und Video-Eingaben und kann laut MiniMax auch einen Computer-Desktop bedienen.

Kernstück ist die neue Aufmerksamkeitsarchitektur MSA (MiniMax Sparse Attention), die einen Ultra-Langkontext von bis zu einer Million Token unterstützt. MiniMax bezeichnet M3 als das erste chinesische Modell, das Frontier-Coding, Agentenfähigkeiten und native Multimodalität vereint – und als einziges Open-Weight-Modell dieser Art weltweit.

⚠ Wichtige Einschränkung: MiniMax hat den Trainingscode und die Inferenz-Operatoren für M3 nicht veröffentlicht. Das Modell ist daher kein vollständiges Open Source, sondern korrekt als Open-Weight einzustufen. Für regulierte Branchen ist diese Unterscheidung relevant, da eine vollständige Modell-Auditierung ohne Trainingscode nicht möglich ist.

Die Architektur: Sparse Attention als Kern-Innovation

Das architektonische Herzstück von M3 ist der neue Sparse-Attention-Mechanismus MSA. Laut MiniMax ermöglicht er eine 15,6-fach schnellere Dekodierung und eine 9,7-fach schnellere Prefill-Geschwindigkeit im Vergleich zum Vorgänger M2 bei Millionen-Token-Kontexten. Im Unterschied zu DeepSeeks Multi-head Latent Attention arbeitet MSA auf unkomprimierten Key-Values – und umgeht damit laut Hersteller Präzisionsverluste bei der Langkontext-Inferenz.

Für Unternehmen, die KI-Agenten über große Codebasen oder umfangreiche Dokumentenbestände betreiben, ist das eine relevante infrastrukturelle Aussage – sofern die Zahlen unter unabhängiger Evaluation standhalten.

Benchmark-Performance: Wo M3 stark ist – und wo nicht

Benchmark	MiniMax M3	Claude Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro	59,0 %	64,3 %	58,6 %	54,2 %
Terminal Bench 2.1	66,0 %	nicht ausgewiesen	78,2 %	70,0 %
BrowseComp	83,5	79,3	nicht ausgewiesen	nicht ausgewiesen
SVG-Bench	63,7 %	62,3 %	nicht ausgewiesen	59,2 %

Alle Angaben: Herstellerangaben MiniMax, unabhängig nicht verifiziert. Stand: 1. Juni 2026.

🔴 Benchmark-Vorbehalt: Mehrere Ergebnisse wurden auf MiniMax-eigener Infrastruktur unter Einsatz von Agent-Scaffolding (Claude Code, Mini-SWE-Agent, Terminus) erzielt. Das macht die Zahlen nicht wertlos – bedeutet aber, dass Unternehmen unabhängige Testläufe abwarten sollten, bevor sie Beschaffungsentscheidungen treffen.

Hinzu kommt: Die verglichenen Modelle (Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro) wurden auf unterschiedlichen Trainings-Daten, mit verschiedenen Scaffolding-Setups und teils unter abweichenden Test-Bedingungen evaluiert. Direkte Rangvergleiche sind daher nur als grobe Orientierung zu verstehen – nicht als belastbare Leistungsaussage.

Agentic Capabilities: Zwölf Stunden autonom forschen

MiniMax demonstriert die Agentenfähigkeiten von M3 mit zwei ungewöhnlich konkreten Praxistests – beide unter kontrollierten Herstellerbedingungen durchgeführt:

Test 1 – Autonome Paper-Reproduktion (12 Stunden)

MiniMax beauftragte M3, ein mit dem ICLR-2025-Outstanding-Paper-Award ausgezeichnetes Paper zu „Learning Dynamics of LLM Finetuning" selbstständig zu reproduzieren. Das Modell lief knapp 12 Stunden autonom, erstellte laut Hersteller 18 Commits und 23 experimentelle Grafiken und schloss die Kernexperimente erfolgreich ab – inklusive Verifikation des im Paper beschriebenen „Squeezing Effect" in den DPO-Experimenten.

Test 2 – CUDA-Kernel-Optimierung (24 Stunden, 9,4-fache Beschleunigung)

MiniMax beauftragte M3, einen FP8-GEMM-Kernel auf NVIDIA-Hopper-GPUs zu optimieren – gestartet nur mit einer Aufgabenbeschreibung und einem nicht lauffähigen Triton-Skelett. Über rund 24 Stunden erstellte M3 laut Hersteller 147 Benchmark-Einreichungen und führte 1.959 Tool-Calls aus. Die Hardware-Auslastung stieg dabei von 7,6 auf 71,3 Prozent – eine 9,4-fache Beschleunigung ohne menschliches Eingreifen.

Praxiseinordnung für Unternehmen: Diese Demonstrationen zeigen Long-Horizon-Execution unter Laborbedingungen des Herstellers. In einer typischen Unternehmensumgebung kommen zusätzliche Faktoren hinzu: Multi-GPU-Infrastruktur mit entsprechenden Anschaffungs- und Betriebskosten, lückenlose Monitoring- und Logging-Anforderungen für nachvollziehbare KI-Entscheidungen (relevant für EU AI Act und interne Governance), sowie Prozesse zur menschlichen Überprüfung von Zwischen- und Endergebnissen. Die Reproduzierbarkeit dieser Szenarien unter realen Unternehmensrahmenbedingungen bleibt zu bestätigen.

Preisgestaltung und Verfügbarkeit

Kontext	Input (pro Mio. Token)	Output (pro Mio. Token)	Prompt-Caching
bis 512K Token	0,60 USD	2,40 USD	0,12 USD
512K – 1M Token	1,20 USD	4,80 USD	nicht ausgewiesen
OpenRouter (Promo)	~0,30 USD	~1,20 USD	–

Stand: Juni 2026. Preise in USD, ohne EU-Mehrwertsteuer. EUR-Äquivalente variieren je nach Wechselkurs. Promo-Preise zeitlich begrenzt.

Die API ist seit dem 1. Juni 2026 verfügbar und unterstützt „Thinking"- und „Non-Thinking"-Modus. Die Modell-Gewichte sollen laut Hersteller innerhalb von zehn Tagen nach Launch zum Download bereitstehen.

API vs. Self-Hosting – Kostenstruktur und Compliance: Wer M3 über die MiniMax-API oder OpenRouter nutzt, zahlt token-basiert ohne Infrastrukturaufwand – muss aber Drittlandstransfers nach China datenschutzrechtlich absichern (Art. 44 ff. DSGVO). Self-Hosting der Gewichte auf EU-Infrastruktur (z.B. eigene GPU-Cluster, Hetzner, OVHcloud) eliminiert diesen Übertragungsaspekt, erfordert aber erhebliche Hardware-Ressourcen: Aktuelle Schätzungen der Community gehen von über 100 GB VRAM nach Quantisierung aus, bei größeren Setups deutlich mehr. Für KRITIS-Betreiber und regulierte Branchen (Finanzdienstleistungen, Gesundheitswesen) ist Self-Hosting auf EU-Infrastruktur daher die einzig belastbare Compliance-Option – mit entsprechendem Investitionsbedarf.

Was das für Unternehmen im DACH-Raum bedeutet

Relevante Einsatzszenarien

Software-Entwicklung & DevOps: M3 ist direkt adressierbar für Teams, die agentic Coding-Workflows evaluieren. Die SWE-Bench-Pro-Ergebnisse sind wettbewerbsfähig – aber noch nicht unabhängig verifiziert. Teams sollten eigene Workloads als Maßstab nutzen.

Dokumenten- und Vertragsanalyse: Ein garantierter Kontext von 512K Token (mit bis zu 1M Token) erlaubt die Verarbeitung umfangreicher Vertragsdokumente oder Codebasen in einem einzigen Request – ohne Chunking-Overhead.

Multimodale Workflows: Native Bild- und Video-Verarbeitung ohne Zusatzmodell reduziert Architektur-Komplexität und potenziell Betriebskosten.

Compliance-Hinweise für DACH

⚠ Datenschutz & Datensouveränität: MiniMax ist ein chinesisches Unternehmen (Shanghai Hixi Technology Co., Ltd.), börsennotiert in Hongkong. Bei API-Nutzung gelten die üblichen Prüfpflichten:

Abschluss eines Datenverarbeitungsvertrags (Art. 28 DSGVO)
Drittlandstransfer-Bewertung nach Art. 44 ff. DSGVO (kein Angemessenheitsbeschluss für China)
Interne CISO- und Datenschutzbeauftragten-Freigabe
Bei Self-Hosting der Gewichte auf EU-Infrastruktur entfällt der Cloud-Übertragungsaspekt

Kritische Einordnung

M3 ist das interessanteste Open-Weight-Modell seit Monaten – nicht weil es alle geschlossenen Frontier-Modelle schlägt, sondern weil es die Kombination aus Coding-Performance, Langkontext und Multimodalität erstmals außerhalb geschlossener Ökosysteme zugänglich macht. Der Preis ist überzeugend: Laut Listenpreis rund 12-mal günstiger pro Input-Token als vergleichbare Closed-Source-Frontier-Modelle.

Die Einschränkungen sind real: Die veröffentlichten Benchmark-Zahlen stammen vom Hersteller selbst. Die technische Community wird sie in den nächsten Tagen und Wochen unabhängig testen. Die Börsenkursreaktion – kurzer Anstieg, gefolgt von einem 12-Prozent-Einbruch – signalisiert, dass auch Investoren die Diskrepanz zwischen Ankündigung und belegter Realperformance einpreisen.

Fazit und Handlungsempfehlung

MiniMax M3 markiert einen echten Einschnitt: Das Modell bringt Fähigkeiten in die Open-Weight-Welt, die bislang geschlossenen Systemen vorbehalten waren. Für Unternehmen, die agentic Coding-Agenten oder Langkontext-Workflows aufbauen wollen, ist M3 ein ernstzunehmender Kandidat – mit dem klaren Vorbehalt, dass Herstellerbenchmarks keine unabhängige Evaluation ersetzen.

✅ Empfohlene nächste Schritte

API-Zugang testen (verfügbar ab sofort über platform.minimax.io)
Unabhängige Community-Benchmarks abwarten (erfahrungsgemäß 2–4 Wochen nach Launch)
Strukturierte Evaluation gegen reale Unternehmens-Workloads durchführen
Bei Self-Hosting-Interesse: Gewichte erscheinen voraussichtlich bis Mitte Juni 2026; Infrastrukturbedarf (100+ GB VRAM) frühzeitig einplanen
DSGVO-Prüfung (inkl. Drittlandstransfer-Bewertung) vor produktivem API-Einsatz abschließen