Mistral Small 4: Ein Modell für Reasoning, Vision und Coding

Table of Contents

Dieser Artikel wurde mit Künstlicher Intelligenz erstellt und redaktionell kuratiert.

In 30 Sekunden

Mistral Small 4 (119B Parameter, 6B aktiv via MoE) vereint erstmals Reasoning, Vision und Coding in einem einzigen Open-Weight-Modell unter Apache-2.0-Lizenz
256.000-Token-Kontextfenster und konfigurierbarer reasoning_effort-Parameter für stufenloses Umschalten zwischen Schnellmodus und tiefem Reasoning
Laut Mistral-Benchmarks übertrifft das Modell GPT-OSS 120B auf LiveCodeBench bei 20 % kürzeren Ausgaben; Qwen 3.5 122B und Claude Haiku schlagen Small 4 in einzelnen Bereichen
Self-Hosting erfordert mindestens 4× NVIDIA H100; für DACH-Unternehmen ist die API-Variante (0,15 USD/M Input-Token) der realistischere Einstieg
Bekannte Schwäche: räumliches Reasoning und SVG-Generierung laut unabhängigen Tests unterdurchschnittlich

Drei spezialisierte KI-Modelle zu beschaffen, zu betreiben und zu orchestrieren – das war bis vor kurzem der übliche Weg für Unternehmen, die Reasoning, Bildverarbeitung und Code-Generierung gleichzeitig benötigten. Mistral AI ändert das mit Mistral Small 4: Seit dem 16. März 2026 steht ein einziges Open-Weight-Modell zur Verfügung, das alle drei Fähigkeiten unter einer Apache-2.0-Lizenz vereint. Was technisch dahintersteckt, wo das Modell glänzt – und wo es Grenzen zeigt – erklären wir in diesem Artikel.

Architektur: 119B Parameter, nur 6B aktiv

Mistral Small 4 basiert auf einer Mixture-of-Experts-Architektur (MoE) mit 128 Experten-Netzwerken, von denen bei jeder Anfrage nur 4 gleichzeitig aktiv sind. Das Ergebnis: 119 Milliarden Gesamtparameter, aber nur 6,5 Milliarden aktive Parameter pro Token – der Rechenaufwand entspricht damit einem deutlich kleineren Dense-Modell, während das gesamte Parameterwissen trotzdem zur Verfügung steht.

Das Kontextfenster umfasst 256.000 Tokens, was die Verarbeitung umfangreicher Dokumente, ganzer Codebasen oder langer Gesprächsverläufe in einem einzigen Aufruf erlaubt. Zum Vergleich: Der Vorgänger Mistral Small 3.2 bot 128.000 Tokens. Für das Self-Hosting werden alle 119 Milliarden Parameter in den GPU-Speicher geladen, was in voller Präzision rund 240 GB VRAM erfordert – mit 4-Bit-Quantisierung sind es noch etwa 60–70 GB.

Das Modell vereint laut Mistral drei bisher getrennte Produktlinien: Magistral (strukturiertes Reasoning), Pixtral (multimodale Bildverarbeitung) und Devstral (agentic Coding). Statt drei APIs zu pflegen, reicht künftig ein Endpunkt.

reasoning_effort: Reasoning auf Anforderung

Das wichtigste neue Feature ist der reasoning_effort-Parameter. Entwickler können damit pro Anfrage steuern, wie viel Rechenzeit das Modell für strukturiertes Denken aufwendet – ohne Modellwechsel. Bei reasoning_effort="none" antwortet das Modell schnell und ohne expliziten Denkprozess, vergleichbar mit Mistral Small 3.2. Mit reasoning_effort="high" wechselt es in einen ausführlichen Reasoning-Modus mit einer Ausführlichkeit, die früheren Magistral-Modellen entspricht.

Ein konkretes Python-Beispiel mit der Mistral-API:

from mistralai import Mistral

client = Mistral(api_key="DEIN_API_KEY")

# Schnelle Antwort für einfache Aufgaben
response_fast = client.chat.complete(
    model="mistral-small-2603",
    messages=[{"role": "user", "content": "Was ist der Unterschied zwischen GmbH und AG?"}],
    extra_body={"reasoning_effort": "none"}
)

# Tiefes Reasoning für komplexe Analysen
response_deep = client.chat.complete(
    model="mistral-small-2603",
    messages=[{"role": "user", "content": "Analysiere die Risiken dieses Vertrags auf DSGVO-Konformität: [Vertragstext]"}],
    extra_body={"reasoning_effort": "high"}
)

print(response_deep.choices[0].message.content)

Dieses Muster ist für Unternehmen besonders wertvoll: Einfache Klassifizierungsaufgaben laufen ohne Reasoning-Overhead, während komplexe Analyse-Tasks automatisch mehr Rechenzeit erhalten – alles über denselben Deployment-Stack.

Benchmarks: Was die Zahlen sagen – und was nicht

Laut Mistral zeigt das Modell starke Ergebnisse, allerdings stammen die meisten veröffentlichten Benchmark-Werte vom Hersteller selbst und sind als solche zu kennzeichnen.

Modell	Kontext	Input-Preis ($/M Token)	Output-Preis ($/M Token)	Stärken
Mistral Small 4	256K	0,15	0,60	Reasoning + Vision + Coding in einem
GPT-4o mini	128K	0,15	0,60	Ökosystem, Reife, breite Integrations
Gemini 2.0 Flash	1M	0,10	0,40	Sehr großes Kontextfenster, Multimedia
Claude Haiku 3.5	200K	0,80	4,00	Starke Instruction-Following-Qualität

Preise Stand März 2026. Quellen: OpenRouter, Mistral AI, Anthropic, Google.

Auf dem AA LCR-Benchmark erzielt Mistral Small 4 einen Score von 0,72 mit nur 1,6K Zeichen Ausgabe, während Qwen-Modelle für vergleichbare Ergebnisse 3,5- bis 4-fach längere Ausgaben benötigen. Auf LiveCodeBench übertrifft Small 4 laut Mistral GPT-OSS 120B, während Qwen 3.5 122B und Claude Haiku Small 4 im Instruct-Modus schlagen. Die kürzeren Ausgaben des Modells bedeuten in der Praxis niedrigere API-Kosten und bessere Latenz.

⚠️ Einschränkungen unabhängiger Tests: Eigene Evaluierungen zeigten, dass Mistral Small 4 unterhalb von Qwen 3.5 122B abschneidet; Tester äußerten zudem Skepsis gegenüber der praktischen Performance bei voller 256K-Kontexttiefe. Simon Willison dokumentierte zudem eine Schwäche bei räumlichen Aufgaben: Ein SVG-Generierungstest mit einem Pelikan auf einem Fahrrad lieferte ein verzerrtes, auf dem Kopf stehendes Ergebnis. Wer präzises visuelles Spatial Reasoning benötigt, sollte das Modell vorab im eigenen Use Case testen.

Vorgängervergleich: Was Small 4 gegenüber Small 3.2 bringt

Mistral Small 3.2 (Juni 2025) war ein 24B-Dense-Modell mit 128K-Kontextfenster und Vision-Unterstützung – solide, aber ohne integriertes Reasoning und ohne Coding-Fokus. Small 4 hebt die Latte in mehreren Dimensionen:

Merkmal	Mistral Small 3.2	Mistral Small 4
Architektur	Dense, 24B	MoE, 119B gesamt / 6B aktiv
Kontextfenster	128K Token	256K Token
Reasoning-Modus	Nicht vorhanden	Ja, via `reasoning_effort`
Vision	Ja (Pixtral-Basis)	Ja (nativ integriert)
Agentic Coding	Eingeschränkt	Vollständig (Devstral-Basis)
Latenz vs. Vorgänger	Baseline	40 % schneller (laut Mistral)
Throughput vs. Vorgänger	Baseline	3× mehr Anfragen/Sekunde (laut Mistral)

Vision: Mehr als Bildbeschreibung

Die Vision-Funktion des Modells erlaubt die Übergabe von Bildern direkt über die API – entweder als Base64-kodierter String oder als URL. Das eröffnet für Unternehmen konkrete Workflows:

Ein Logistikunternehmen kann Lieferscheine und Frachtdokumente per Foto einscannen und automatisch strukturierte Daten extrahieren lassen. Ein Ingenieursbüro kann Screenshots aus CAD-Software an das Modell übergeben und Qualitätsprüfungen automatisieren. Mistral bietet zusätzlich einen dedizierten /v1/ocr-Endpunkt für die Dokumentenanalyse, der strukturierten Text mit Bounding-Box-Koordinaten zurückgibt und Scans, Datentabellen sowie handschriftliche Formulare verarbeiten kann.

DACH-Relevanz: Drei Branchen, drei Use Cases

Für Unternehmen im deutschsprachigen Raum sind besonders drei Anwendungsszenarien relevant:

Recht und Compliance: Vertragsanalyse mit Reasoning

Kanzleien und Compliance-Abteilungen können Mistral Small 4 im Reasoning-Modus einsetzen, um lange Vertragsdokumente auf DSGVO-Konformität, EU-AI-Act-Anforderungen oder spezifische Klauseln zu prüfen. Das 256K-Kontextfenster erlaubt die Analyse von Dokumenten bis zu etwa 200 Seiten in einem Aufruf. Da das Modell unter Apache 2.0 lizenziert ist, kann es vollständig on-premises betrieben werden – ein entscheidender Vorteil bei mandatsgebundenen Daten, die das Haus nicht verlassen dürfen. Für DSGVO-konforme Datenverarbeitung greift beim Self-Hosting Art. 28 DSGVO nur dann, wenn externe Dienste genutzt werden – beim lokalen Betrieb entfällt der Auftragsverarbeitungsvertrag.

Produktion und Fertigung: Visuelle Qualitätskontrolle

Mittelständische Fertigungsunternehmen (Maschinenbau, Elektroindustrie) können Kameras an Produktionslinien mit dem Modell verknüpfen. Bilder von Bauteilen werden in Echtzeit analysiert – Abweichungen von Spezifikationen werden erkannt und gemeldet. Die MoE-Architektur erlaubt dabei hohen Durchsatz: In einem durchsatzoptimierten Setup liefert Small 4 laut Mistral dreimal mehr Anfragen pro Sekunde als Small 3, was für zeitkritische Produktionsprozesse relevant ist. Für KMU ohne H100-Cluster bleibt die API-Variante der pragmatische Weg.

Software-Entwicklung: Agentic Coding im Mittelstand

IT-Abteilungen können Mistral Small 4 als Code-Assistent in bestehende IDEs oder CI/CD-Pipelines integrieren. Das Modell unterstützt nativ Function Calling und JSON-Output, was die Integration in bestehende Toolchains vereinfacht. Besonders für Teams, die aus Datenschutzgründen keinen Cloud-Coding-Assistenten nutzen dürfen – etwa in Behörden oder regulierten Branchen –, ist eine Self-Hosted-Variante unter Apache 2.0 attraktiv. Zu beachten: Beim Einsatz von KI-Assistenten im Arbeitsumfeld greift in Deutschland §87 BetrVG – der Betriebsrat hat Mitbestimmungsrecht bei der Einführung technischer Überwachungseinrichtungen.

Deployment: Optionen für DACH-Unternehmen

Option	Infrastruktur	Kosten (ca.)	DSGVO-Aspekt	Geeignet für
Mistral API	Mistral-Cloud (EU)	0,15 USD/M Input-Token	AV-Vertrag erforderlich; Server in Frankreich	Schneller Einstieg, mittleres Volumen
Self-Hosting (Minimum)	4× NVIDIA H100 (320 GB HBM3)	~12.000–20.000 EUR/Monat (Cloud-Miete)	Volle Datensouveränität	Hochvolumen, sensible Daten
Self-Hosting (Quantisiert)	Multi-GPU mit NVFP4-Checkpoint	Niedriger als Full-Precision	Volle Datensouveränität	Mittelstand mit eigener GPU-Infra
NVIDIA NIM (On-Prem)	Eigene NVIDIA-Hardware	NIM-Lizenz + Hardware	Lokal, keine Datenweitergabe	Enterprise, Compliance-sensibel

Kosten: Marktschätzungen, Stand März 2026. Offizielle Mistral-API-Preise unter console.mistral.ai.

🔴 Wichtig zur Bezeichnung „Small": Das Self-Hosting von Mistral Small 4 erfordert als Minimum vier NVIDIA HGX H100, zwei NVIDIA HGX H200 oder eine NVIDIA DGX B200 – Hardware im Enterprise-Bereich. Der Name „Small" bezieht sich auf die aktiven Parameter pro Inferenzschritt, nicht auf den Infrastrukturbedarf. Für Teams, die lokales Deployment auf einer einzelnen Workstation erwarten, ist das Modell aktuell nicht geeignet.

Open-Source-Ökosystem und NVIDIA-Partnerschaft

Mistral Small 4 ist Teil der NVIDIA Nemotron Coalition, einem Zusammenschluss europäischer und internationaler Modellanbieter für NVIDIA-optimierte Open-Weight-Modelle. Die praktische Bedeutung: Das Modell ist für vLLM, SGLang, llama.cpp, Hugging Face Transformers und weitere populäre Inference-Frameworks verfügbar und kann über NVIDIA NIM als containerisierter Microservice deployed werden. Für Unternehmen, die bereits NVIDIA-Infrastruktur betreiben, vereinfacht das den Rollout erheblich.

Zur Beschleunigung stehen zusätzlich zwei Optionen zur Verfügung: Speculative Decoding über einen trainierten Eagle Head sowie 4-Bit-Float-Präzisionsquantisierung via NVFP4-Checkpoint, beides reduziert Latenz und Speicherbedarf weiter.

FAQ: Die wichtigsten Fragen

Kann ich Mistral Small 4 mit Ollama lokal betreiben?

Grundsätzlich ja, aber nicht auf Standard-Consumer-Hardware. Für das Self-Hosting sind mindestens vier NVIDIA H100 erforderlich; Unterstützung für llama.cpp (und damit Ollama) war bei der Veröffentlichung noch in Entwicklung. Wer das Modell auf einer einzelnen RTX 4090 testen möchte, muss auf Quantisierungen warten, die von der Community bereitgestellt werden. Für lokale Tests empfiehlt Mistral den Zugang über die kostenlose Testumgebung bei build.nvidia.com.

Welche Sprachen werden unterstützt?

Das Modell unterstützt Dutzende Sprachen, darunter Englisch, Französisch, Spanisch, Deutsch, Italienisch, Portugiesisch, Niederländisch, Chinesisch, Japanisch, Koreanisch und Arabisch. Für DACH-Unternehmen ist die offizielle Unterstützung von Deutsch relevant – allerdings sollten Qualität und Konsistenz im eigenen Use Case evaluiert werden, da multilinguale Fähigkeiten modellseitig stark variieren können.

Wie verhält sich das Modell beim EU AI Act?

Als General-Purpose AI Model (GPAI) fällt Mistral Small 4 unter die entsprechenden Transparenzpflichten des EU AI Acts. Als Open-Source-Modell profitiert es von Erleichterungen bei Dokumentations- und Registrierungspflichten. Unternehmen, die es in Hochrisiko-Anwendungen einsetzen (etwa Personalentscheidungen, Kreditvergabe, kritische Infrastruktur), tragen die Compliance-Verantwortung für das eigene System – unabhängig vom Basismodell.

Ist das Modell für Fine-Tuning geeignet?

Ja. Mistral positioniert Small 4 ausdrücklich für Fine-Tuning und Spezialisierung. Unterstützte Frameworks sind Axolotl und die NVIDIA NeMo-Plattform. Für domänenspezifische Anpassungen – etwa auf medizinische Dokumentation oder juristische Texte – ist das Modell dank Apache-2.0-Lizenz ohne Einschränkungen einsetzbar.

Was kostet die API im Vergleich zu GPT-4o mini?

Mistral Small 4 kostet über die Mistral API 0,15 USD pro Million Input-Tokens und 0,60 USD pro Million Output-Tokens. GPT-4o mini liegt bei identischen Preisen, bietet jedoch nur 128K Kontext und kein integriertes Reasoning. Für Use Cases mit langen Dokumenten oder aktivem Reasoning ist Mistral Small 4 damit preislich attraktiv, sofern die Qualitätsanforderungen erfüllt werden.

Fazit: Konsolidierung mit Abstrichen

✅ Empfehlung: Mistral Small 4 ist das derzeit überzeugendste Open-Weight-Argument für Unternehmen, die einen einzigen Modell-Endpunkt für Reasoning, Bildverarbeitung und Code benötigen. Die Apache-2.0-Lizenz, das 256K-Kontextfenster und der konfigurierbare reasoning_effort-Parameter heben es klar vom Vorgänger ab. Wer die nötige Infrastruktur hat oder über die Mistral-API einsteigt, bekommt eine leistungsfähige, datensouveräne KI-Basis – insbesondere für DACH-Unternehmen mit DSGVO- und EU-AI-Act-Anforderungen.

Wer dagegen auf der Suche nach dem absoluten Benchmark-Spitzenreiter im Coding-Bereich ist, sollte Qwen 3.5 122B direkt vergleichen. Und wer räumliches Reasoning oder SVG-Generierung benötigt, sollte das Modell vorab testen.