Qwen3.5: Alibabas neues KI-Flaggschiff – 397 Milliarden Parameter, nativ multimodal und 60 % günstiger

Table of Contents

Am 16. Februar 2026 hat das Qwen-Team von Alibaba Cloud die nächste Generation seiner KI-Modellfamilie veröffentlicht: Qwen3.5. Das erste Modell der neuen Serie, Qwen3.5-397B-A17B, ist ab sofort als Open-Source-Modell verfügbar – und markiert einen bemerkenswerten Schritt in der Entwicklung effizienter, leistungsstarker und nativ multimodaler Sprachmodelle. Parallel dazu erscheint mit Qwen3.5-Plus eine gehostete Variante über die Alibaba Cloud Model Studio API.

Was ist Qwen3.5?

Qwen3.5 ist keine bloße Versionsnummer-Erhöhung. Es handelt sich um die erste vollständig nativ multimodale KI-Modellfamilie des Qwen-Teams – also ein Modell, das Text und Bilder nicht nachträglich kombiniert, sondern von Grund auf gemeinsam trainiert wurde. Das Flaggschiff Qwen3.5-397B-A17B verfügt über insgesamt 397 Milliarden Parameter, aktiviert jedoch dank einer sparsamen Mixture-of-Experts (MoE)-Architektur bei jedem Inferenzschritt nur 17 Milliarden Parameter. Das Resultat: maximale Leistung bei minimalem Rechenaufwand.

Alibaba positioniert das Modell explizit als Antwort auf die Anforderungen der sogenannten Agentic AI Era – also KI-Systeme, die eigenständig komplexe, mehrstufige Aufgaben ausführen können, ohne bei jedem Schritt auf menschliche Intervention angewiesen zu sein.

Technische Grundlagen: Architektur und Training

Qwen3.5 baut auf der Architektur des Vorgängers Qwen3-Next auf und kombiniert mehrere technische Innovationen miteinander:

Sparse MoE mit Hybrid-Attention

Die MoE-Architektur ermöglicht es, nur die relevanten „Experten-Subnetze“ zu aktivieren – abhängig von der jeweiligen Anfrage. In Kombination mit einem hybriden Attention-Mechanismus werden damit deutlich schnellere Dekodiergeschwindigkeiten erreicht, ohne Abstriche bei der Qualität hinnehmen zu müssen. Alibaba gibt an, dass das Modell im Vergleich zum Vorgänger eine achtfache Verarbeitungskapazität bei großen Workloads erreicht.

Natives Vision-Language-Training (Early Fusion)

Statt Sprache und Bildverständnis nachträglich zu kombinieren, wurde Qwen3.5 von Anfang an auf Billionen multimodaler Token trainiert. Dieser sogenannte Early-Fusion-Ansatz führt dazu, dass das Modell visuelle und textuelle Informationen auf einer fundamentalen Ebene integriert – und damit bei Aufgaben wie Bild-zu-Text-Analyse, multimodalem Reasoning und visuellen Agenten deutlich stärker abschneidet als Modelle mit späterem Fusion-Ansatz.

Erweiterte Sprachunterstützung

Die Sprachabdeckung wurde massiv ausgebaut: von 119 Sprachen und Dialekten bei Qwen3 auf nun 201 Sprachen und Dialekte. Gleichzeitig wurde der Vokabularumfang auf 250.000 Token erhöht, was effizienteres Encoding und Decoding in vielsprachigen Kontexten ermöglicht – ein wichtiger Faktor für global ausgerichtete Anwendungen.

Technische Spezifikationen im Vergleich

Die folgende Tabelle zeigt die wichtigsten technischen Unterschiede zwischen Qwen3.5-397B-A17B und dem Vorgängermodell Qwen3-Max-Thinking:

Spezifikation	Qwen3.5-397B-A17B	Qwen3-Max-Thinking
Gesamtparameter	397 Milliarden	1 Billion+
Aktive Parameter pro Token	17 Milliarden	Nicht veröffentlicht
Vokabular	250.000 Token	152.000 Token
Sprachunterstützung	201 Sprachen	119 Sprachen
Architektur	Sparse MoE + Hybrid-Attention	Dense MoE
Training-Pipeline	Natives FP8	BF16/FP16
Multimodal	Nativ (Early Fusion)	Nur Text
Inferenz-Speedup	8,6x – 19x schneller	Baseline

Benchmark-Ergebnisse: Wo steht Qwen3.5?

Alibaba hat das Modell auf einer Reihe anspruchsvoller Benchmarks evaluiert. Die veröffentlichten Ergebnisse zeigen, dass Qwen3.5-397B-A17B mit den derzeit führenden Frontier-Modellen konkurrenzfähig ist – darunter GPT-5.2, Claude Opus 4.5 und Gemini 3 Pro. Alibaba behauptet, auf 80 % aller evaluierten Benchmarks besser abzuschneiden als diese Modelle. Für eine endgültige Einordnung fehlen jedoch noch unabhängige, reproduzierbare Tests: Insbesondere Robustheit unter realen Bedingungen, Halluzinationsrate in Fachdomänen und Safety-Verhalten wurden in den veröffentlichten Zahlen nicht detailliert adressiert. Die nachfolgenden Tabellen zeigen die Eigenangaben Alibabas – sie sind ein Ausgangspunkt für eigene Evaluierungen, aber kein Ersatz dafür.

Reasoning & Mathematik

Benchmark	Score	Kategorie
AIME26	91,3	Olympiade-Mathematik
GPQA Diamond	88,4	Graduate-Level Reasoning
MMLU-Pro	87,8	Mehrsprachiges Fachwissen
MMLU	88,5	Allgemeinwissen
MathVista	90,3	Mathematisches Reasoning
MathVision	88,6	Visuelles Mathematik-Reasoning

Coding & Agentic Capabilities

Benchmark	Score	Kategorie
LiveCodeBench v6	83,6	Wettbewerbsprogrammierung
SWE-bench Verified	76,4	Reale Coding-Workflows
Terminal-Bench 2	52,5	Agentic Terminal Coding
BFCL v4	72,9	Agentic Tool Use
BrowseComp	78,6	Agentic Websuche
IFBench	76,5	Instruction Following

Multimodale Benchmarks

Benchmark	Score	Kategorie
MMMU	85,0	Multimodales Verständnis
MMMU-Pro	79,0	Multimodales Verständnis (Profi)
OmniDocBench v1.5	90,8	Dokumenten-Analyse
MathVista	90,3	Visuelles Mathematik-Reasoning
Video-MME	87,5	Video-Verständnis
VITA-Bench	49,7	Agentic multimodale Interaktion
ERQA	67,5	Embodied & Spatial Reasoning

Reality Check: Was die Zahlen wirklich aussagen

Benchmark-Zahlen erzählen immer nur einen Teil der Geschichte. Zwei der Messwerte sind dabei besonders praxisrelevant: SWE-bench Verified (76,4) simuliert echte GitHub-Issues aus realen Open-Source-Projekten – ein Score in dieser Höhe entspricht dem, was ein erfahrener Entwickler in einem strukturierten Tagesablauf lösen kann. BrowseComp (78,6) prüft, ob ein Modell mehrstufige Webrecherchen eigenständig durchführen kann – ohne die Aufgabe nach jedem Schritt neu erklären zu müssen. Beide Benchmarks sind deshalb als Maßstab aussagekräftiger als reine Mathematik- oder Wissensabfragen.

Wo typischerweise Lücken bleiben: Die veröffentlichten Benchmarks messen weder Safety-Verhalten noch die Neigung zu Halluzinationen in spezialisierten Fachdomänen. Für Enterprise-Einsatz besonders relevant ist außerdem das Thema Guardrails – also integrierte Schutzmechanismen, die verhindern, dass ein Modell in automatisierten Workflows unerwünschte Aktionen ausführt oder sensible Daten preisgibt. Alibaba hat zwar mit Qwen3Guard eine separate Safety-Schicht veröffentlicht, deren Integration in produktive Systeme aber zusätzlichen Aufwand erfordert. Wer Qwen3.5 in regulierten Umgebungen (z. B. Finanzdienstleistungen, Gesundheitswesen) einsetzen möchte, sollte diesen Aspekt in der Evaluierungsphase explizit adressieren.

Qwen3.5-Plus: Die gehostete Variante

Neben dem Open-Weight-Modell bietet Alibaba mit Qwen3.5-Plus eine vollständig verwaltete API-Variante über das Alibaba Cloud Model Studio an. Die folgende Tabelle zeigt die wichtigsten Unterschiede zwischen beiden Varianten:

Merkmal	Qwen3.5-397B-A17B (Open Weight)	Qwen3.5-Plus (Hosted)
Lizenz	Apache 2.0	Proprietär (API-Zugang)
Kontextfenster	Bis 256K Token (nativ)	1 Million Token
Tool Use	Manuelle Integration	Eingebaut (adaptiv)
Plattform	Self-Hosted / HuggingFace	Alibaba Cloud Model Studio
Hardware-Anforderung	8× H100 GPUs (empfohlen)	Keine (verwalteter Dienst)
Kosten (ca.)	Eigene Infrastruktur	~0,18 $ / 1 Mio. Token
Ideal für	Datensouveränität, Fine-Tuning	Langkontext-Workflows, Prototyping
API-Kompatibilität	OpenAI / Anthropic SDK	OpenAI / Anthropic SDK

Agentic AI: Was kann Qwen3.5 eigenständig leisten?

Ein besonderes Merkmal von Qwen3.5 sind seine visuellen Agentenfähigkeiten: Das Modell kann selbstständig mobile und Desktop-Applikationen steuern, visuelle Benutzeroberflächen interpretieren und mehrstufige Aufgaben ohne menschliches Eingreifen abschließen. Das umfasst Aktionen wie das Navigieren in Software-Oberflächen, das Klicken auf Buttons oder das Ausfüllen von Formularen – plattformübergreifend.

Diese Fähigkeit macht Qwen3.5 besonders interessant für Unternehmen, die Prozessautomatisierung ohne aufwendige RPA-Implementierungen anstreben. Die Kombination aus starkem Reasoning, multimodaler Wahrnehmung und Werkzeugnutzung positioniert das Modell als ernstzunehmenden Kandidaten für komplexe Unternehmens-Workflows.

Konkrete Enterprise-Szenarien: Ein besonders relevanter Anwendungsfall ist die Automatisierung von Legacy-Webanwendungen, auf die kein modernes API zugreift – etwa ältere ERP- oder Finanzsysteme, die ausschließlich über eine Browser-Oberfläche bedienbar sind. Qwen3.5 kann hier per Screenshot-Analyse die aktuelle Bildschirmansicht interpretieren, Eingabefelder identifizieren und Formulare eigenständig ausfüllen – ganz ohne Anpassung des Quellsystems. Ein weiteres Szenario ist die Navigation durch SAP-Web-GUIs: Das Modell kann komplexe Transaktionspfade (z. B. Bestellanforderung → Genehmigung → Buchung) eigenständig durchlaufen, Pflichtfelder befüllen und Statusmeldungen interpretieren – auch dann, wenn die Oberfläche nicht für API-Zugriff ausgelegt ist. Konkret denkbar: Ein visueller Agent öffnet eine Rechnung aus einem DMS-System, liest Belegdatum, Betrag und Kostenstelle aus, trägt diese Felder automatisch in das ERP-System ein und startet anschließend den Freigabe-Workflow – ohne klassische RPA-Skripte und ohne menschliches Eingreifen. Für Abteilungen, die täglich repetitive Datenerfassung oder Statusabfragen in solchen Systemen betreiben, eröffnet das eine Automatisierungsschicht, die bisher nur mit erheblichem RPA-Aufwand realisierbar war.

60 % günstigere Inferenzkosten: Was steckt dahinter?

Alibaba gibt an, dass Qwen3.5 im Vergleich zum Vorgänger 60 % günstiger in der Nutzung ist. Das ist nicht nur ein Marketingversprechen, sondern technisch begründet: Die sparse MoE-Architektur aktiviert pro Inferenz nur 17 Milliarden von 397 Milliarden Parametern. Damit werden Rechenressourcen wesentlich effizienter genutzt als bei Dense-Modellen vergleichbarer Gesamtgröße.

Für Unternehmen bedeutet das: Spitzenleistung zu einem Bruchteil der bisherigen Betriebskosten. Insbesondere bei skalierenden Anwendungen – etwa in der Kundenbetreuung, im Dokumentenmanagement oder in der Softwareentwicklung – kann sich dieser Kostenvorteil erheblich auswirken.

In der Einordnung gegenüber etablierten Frontier-Modellen westlicher Anbieter bewegt sich Qwen3.5-Plus damit deutlich im unteren Bereich der typischen Preisspanne für vergleichbare Modelle. Wer bisher Flaggschiff-APIs von OpenAI oder Anthropic nutzt, zahlt dort in der Regel ein Vielfaches pro Million Token – insbesondere für erweiterte Reasoning- oder Langkontext-Fähigkeiten. Qwen3.5 bietet beides in einem Paket und positioniert sich damit nicht nur als technische, sondern auch als wirtschaftliche Alternative, vor allem für Anwendungen mit hohem Token-Durchsatz. Für Self-Hosting-Szenarien kommt hinzu, dass die Infrastrukturkosten bei 17 Milliarden aktiven Parametern deutlich näher an einem mittelgroßen Dense-Modell liegen als an einem 397-Milliarden-Parameter-Dense-Modell – was die GPU-Stunden-Kalkulation erheblich erleichtert.

Verfügbarkeit: Wo kann man Qwen3.5 nutzen?

Das Open-Weight-Modell Qwen3.5-397B-A17B ist unter der Apache-2.0-Lizenz frei verfügbar und kann über folgende Plattformen bezogen werden:

Hugging Face – unter der Modell-ID Qwen/Qwen3.5-397B-A17B
ModelScope – für Nutzer in China oder ohne stabilen HuggingFace-Zugang
Qwen Chat – direkter Zugang über Web, Desktop und Mobilgerät
Alibaba Cloud Model Studio – API-Zugang für Entwickler und Unternehmen, kompatibel mit OpenAI- und Anthropic-Spezifikationen

Weitere Modellgrößen der Qwen3.5-Familie sollen in den kommenden Wochen folgen – Alibaba hat angekündigt, dass die erste Veröffentlichung nur der Auftakt einer breiteren Modellreihe ist.

Einordnung: Qwen3.5 im Wettbewerb

Die Veröffentlichung von Qwen3.5 fällt in eine Phase intensiver Konkurrenz im chinesischen KI-Markt. ByteDance hatte mit Doubao 2.0 einen Tag vor dem Qwen3.5-Launch sein eigenes Modell-Update veröffentlicht – ein deutliches Signal für den beschleunigten Entwicklungszyklus chinesischer KI-Firmen. Wo früher Quartale zwischen großen Releases lagen, sind es heute Wochen.

Gegenüber westlichen Modellen positioniert sich Qwen3.5 explizit als Herausforderer. Alibaba vergleicht das Modell direkt mit GPT-5.2, Claude Opus 4.5 und Gemini 3 Pro – und vermeidet dabei auffälligerweise jeden Vergleich mit DeepSeek, das seit seiner viralen Verbreitung zu einem Maßstab in der Open-Source-KI-Welt geworden ist. Bemerkenswert ist, dass Alibaba in den offiziellen Vergleichen DeepSeek nicht erwähnt – obwohl dieses Modell in vielen Open-Source-Szenarien aktuell als Praxisreferenz gilt. Während DeepSeek vor allem über aggressive Effizienz und Community-Adoption punktet, setzt Qwen3.5 stärker auf native Multimodalität und Agentic-Fähigkeiten im Enterprise-Kontext.

Für die globale KI-Landschaft ist Qwen3.5 ein weiteres Indiz dafür, dass die Leistungslücke zwischen chinesischen Open-Source-Modellen und proprietären westlichen Systemen weiter schrumpft – mit potenziell erheblichen Auswirkungen auf die Infrastrukturwahl für KI-Anwendungen weltweit.

Qwen3.5 vs. DeepSeek vs. Llama 4.x – ein Meta-Vergleich

Wer heute eine Open-Weight-Strategie plant, hat de facto drei konkurrierende Modell-Familien auf dem Radar – und alle drei unterscheiden sich weniger in rohen Benchmark-Zahlen als in ihren strategischen Profilen:

Kriterium	Qwen3.5-397B-A17B	DeepSeek-R2 / V3	Llama 4.x (Meta)
Lizenz	Apache 2.0 (vollständig frei)	MIT / eigene Lizenz (kommerzielle Einschränkungen möglich)	Llama-Lizenz (Nutzungsbeschränkungen ab 700 Mio. MAU)
Architektur	Sparse MoE, nativ multimodal	MoE, text-fokussiert	Dense / MoE gemischt, multimodal
Hardware-Bedarf (Hosting)	~8× H100 empfohlen (17B aktiv)	Vergleichbar, je nach Variante	Variiert stark je nach Modellgröße
Stärken	Agentic Tasks, Multilingual (201 Sprachen), GUI-Steuerung	Sehr starkes Reasoning, Coding, günstiger API-Preis	Ökosystem-Integration (Meta-Stack), breite Community
Typische Einsatzfelder	Enterprise-Automatisierung, multilinguale Anwendungen, visuelle Agenten	Forschung, Coding-Assistenten, preissensitive API-Nutzung	Consumer-Apps, interne Unternehmenstools mit Meta-Infrastruktur
Enterprise-Guardrails	Separates Qwen3Guard-Modell erforderlich	Eigene Safety-Layer vorhanden, aber begrenzt dokumentiert	Llama Guard als separates Safety-Modell

Kurzgefasst: DeepSeek bleibt die erste Wahl für Teams, die maximale Reasoning-Tiefe oder niedrigste API-Kosten priorisieren. Llama 4.x punktet vor allem bei Unternehmen, die bereits im Meta-Ökosystem arbeiten oder eine sehr breite Community-Unterstützung benötigen. Qwen3.5 differenziert sich durch seine native Multimodalität, die deutlich breitere Sprachunterstützung und die visual-agentic Fähigkeiten – und ist damit besonders attraktiv für Automatisierungsprojekte, die über reine Texterzeugung hinausgehen.

Fazit: Ein starkes Argument für Open-Source-KI

Qwen3.5 ist mehr als ein technisches Update – es ist ein Statement. Mit nativem multimodalem Training, drastisch gesenkten Inferenzkosten, leistungsstarken Agentenfähigkeiten und freier Verfügbarkeit unter Apache 2.0 liefert Alibaba ein Modell, das für Entwickler und Unternehmen gleichermaßen interessant ist. Ob Qwen3.5 in der Praxis hält, was die Benchmark-Zahlen versprechen, werden unabhängige Tests in den kommenden Wochen zeigen.

Wer KI-Infrastruktur plant oder bereits auf Qwen-Modelle setzt, sollte die neue Serie genau im Blick behalten – zumal weitere Modellgrößen noch ausstehen. Der Startschuss für die Qwen3.5-Familie ist gefallen. Es bleibt spannend.

Quellen: Offizieller Qwen-Blog, GitHub Repository (QwenLM/Qwen3.5), Digital Applied, Analytics Vidhya, WinBuzzer

Teile es