Voxtral Transcribe 2: Mistrals Spracherkennung im Detail

Abstrakte Darstellung von Speech-to-Text-Technologie: Mikrofon transformiert in digitale Textwellen – symbolisch für Mistrals Voxtral Transcribe 2

Voxtral Transcribe 2: Mistrals Spracherkennung im Detail

Table of Contents

Jedes Meeting, das nicht transkribiert wird, ist verlorenes Wissen. Laut einer Studie von Otter.ai gehen Unternehmen bis zu 30 % ihrer Meeting-Inhalte verloren, weil niemand mitschreibt – oder die Mitschrift lückenhaft bleibt. Mistral AI hat Anfang Februar 2026 mit **Voxtral Transcribe 2** eine neue Generation seiner Spracherkennungstechnologie vorgestellt, die genau hier ansetzt: zwei spezialisierte Modelle für Batch-Transkription und Echtzeit-Spracherkennung, die multilinguale Genauigkeit mit aggressiven Preisen kombinieren.

In diesem Artikel erfahren Sie, welche zwei Modelle Voxtral Transcribe 2 umfasst, wie sich Batch- und Realtime-Variante unterscheiden, welche Branchen besonders profitieren und ob die Lösung für Ihr Unternehmen oder Ihren Workflow die richtige Wahl ist.

## Was steckt hinter Voxtral Transcribe 2?

Voxtral Transcribe 2 ist keine einzelne Software, sondern eine **Produktfamilie aus zwei Modellen**, die Mistral AI für unterschiedliche Einsatzszenarien entwickelt hat:

**Voxtral Mini Transcribe V2** richtet sich an die Batch-Verarbeitung. Dieses Modell transkribiert aufgezeichnete Audiodateien – Meetings, Podcasts, Interviews, Vorträge – mit hoher Genauigkeit und Sprecherdiarisierung. Es verarbeitet Aufnahmen von bis zu drei Stunden Länge pro Datei.

**Voxtral Realtime** ist das Streaming-Modell für Live-Szenarien. Es liefert Transkriptionsergebnisse in Echtzeit mit konfigurierbarer Latenz bis unter 200 Millisekunden. Das 4-Milliarden-Parameter-Modell arbeitet mit einer Sliding-Window-Mechanik und steht als Open-Source-Modell unter Apache-2.0-Lizenz zur Verfügung.

Beide Modelle sind der Nachfolger des ursprünglichen Voxtral aus dem Jahr 2025 und markieren Mistrals Einstieg in die Produktions-Spracherkennung (ASR – Automatic Speech Recognition).

## 13 Sprachen, 4 % Fehlerrate: Die technischen Eckdaten

Die Genauigkeit einer Spracherkennung steht und fällt mit der sogenannten **Wortfehlerrate** (Word Error Rate, WER). Sie gibt an, wie viele Wörter das System im Verhältnis zur Gesamtwortzahl falsch erkennt, auslässt oder hinzufügt. Voxtral Transcribe 2 erreicht hier bemerkenswerte Werte.

### Sprachunterstützung und Genauigkeit

Voxtral Transcribe 2 unterstützt **13 Sprachen**: Englisch, Deutsch, Französisch, Spanisch, Italienisch, Niederländisch, Chinesisch, Arabisch, Hindi, Russisch, Japanisch, Koreanisch und Portugiesisch. Auf dem standardisierten FLEURS-Benchmark erreicht das Modell eine Wortfehlerrate von rund **4 Prozent** – ein Wert, der laut Mistrals eigenen Tests besser abschneidet als GPT-4o mini Transcribe, Gemini 2.5 Flash, AssemblyAI Universal und Deepgram Nova.

### Kernfunktionen von Voxtral Mini Transcribe V2

Das Batch-Modell bringt mehrere Funktionen mit, die über eine reine Transkription hinausgehen:

- **Sprecherdiarisierung** erkennt automatisch, welche Person zu welchem Zeitpunkt spricht – unverzichtbar für Meetings mit mehreren Teilnehmern
- **Word-Level Timestamps** ordnen jedem einzelnen Wort einen exakten Zeitstempel zu, ideal für die Nachbearbeitung von Podcasts oder Interviews
- **Kontext-Biasing** erlaubt es, dem Modell domänenspezifisches Vokabular mitzugeben – etwa Produktnamen, medizinische Fachbegriffe oder firmeninterne Abkürzungen, die das Modell sonst nicht kennen würde
- **Audiodateien bis zu 3 Stunden** werden in einem Durchgang verarbeitet

### Kernfunktionen von Voxtral Realtime

Das Streaming-Modell fokussiert auf minimale Latenz:

- **Konfigurierbare Latenz bis unter 200 ms** für Live-Untertitel, Voice-Agenten oder Callcenter-Analyse
- Bei einer konfigurierten Latenz von ca. **480 ms** liegt die Fehlerrate nur 1–2 Prozentpunkte über dem Offline-Modell – ein sehr guter Trade-off zwischen Geschwindigkeit und Genauigkeit
- **4 Milliarden Parameter** mit Streaming-/Sliding-Window-Architektur für effiziente Echtzeitverarbeitung
- **Open Source** unter Apache-2.0-Lizenz: Das Modell steht auf Hugging Face zum Download bereit

## Geschwindigkeit und Kosten im Vergleich

Zwei Faktoren entscheiden in der Praxis oft über die Wahl eines Transkriptionsdienstes: Verarbeitungsgeschwindigkeit und Preis pro Minute.

### Verarbeitungsgeschwindigkeit

Teile es