Cursor Composer 2: Eigenes KI-Coding-Modell schlägt Anthropic Opus

Table of Contents

Dieser Artikel wurde mit Künstlicher Intelligenz erstellt und redaktionell kuratiert.

In 30 Sekunden

Cursor hat am 19. März 2026 Composer 2 veröffentlicht – das dritte proprietäre Coding-Modell des Unternehmens, verfügbar für alle Cursor-Pläne
Composer 2 übertrifft laut Hersteller-Benchmarks Anthropics Claude Opus 4.6 auf Terminal-Bench 2.0 (61,7 vs. 58,0) – bei rund 90% niedrigerem Token-Preis
Kernneuerung: Compaction-in-the-Loop – das Modell komprimiert seinen eigenen Kontext während langer Sessions und reduziert so Kontextverlust-Fehler um 50%
Pricing: Standard 0,50 $/M Input-Token; Fast-Variante (Standard-Default) 1,50 $/M – beides deutlich günstiger als Claude Opus 4.6 (5,00 $/M)
Strategischer Kontext: Cursor will Abhängigkeit von Anthropic und OpenAI reduzieren – Composer 2 ist der bislang deutlichste Schritt in diese Richtung

Cursor, die KI-gestützte Code-Editor-Plattform mit inzwischen über einer Million täglich aktiver Entwickler, hat Mitte März 2026 Composer 2 veröffentlicht – das dritte eigenentwickelte Coding-Modell und gleichzeitig den bisher größten Generationssprung in der kurzen Geschichte des Unternehmens. Das Modell ist seit dem 19. März 2026 für alle Cursor-Pläne verfügbar, inklusive eines Free-Tiers mit großzügigem Nutzungskontingent. Die Ankündigung ist nicht nur eine technische Meldung: Sie markiert einen strategischen Wendepunkt für ein Unternehmen, dessen Kernprodukt bislang auf Modellen von Anthropic, OpenAI und Google basierte.

Technischer Hintergrund: Was Composer 2 neu macht

Grundarchitektur: Kimi K2.5 als Basis

Composer 2 wurde nicht auf einer leeren Basis entwickelt. Am 20. März 2026 – einen Tag nach der Veröffentlichung – entdeckte ein Nutzer in den API-Request-Headern die Basis des Modells. Lee Robinson, VP of Developer Education bei Cursor, bestätigte daraufhin: Composer 2 baut auf Kimi K2.5 von Moonshot AI auf, einem Open-Source-Modell mit Mixture-of-Experts-Architektur (MoE). Laut Robinson stammen jedoch rund 75% des gesamten Rechenaufwands aus Cursors eigenem Training – Continued Pretraining und Reinforcement Learning on top.

Die MoE-Architektur ist dabei kein Zufall: Bei MoE-Modellen wird für jede Eingabe nur ein Teil der Modellparameter aktiviert. Das ermöglicht hohe Gesamtkapazität bei niedrigerer Inferenzlatenz – eine Voraussetzung für die von Cursor angestrebten Geschwindigkeitsziele.

Compaction-in-the-Loop: Wie das Modell sein eigenes Gedächtnis verwaltet

Die technisch bedeutsamste Neuerung in Composer 2 ist die sogenannte Compaction-in-the-Loop-Methode (auf Deutsch: Kontextkomprimierung innerhalb des Trainingsprozesses). Um sie zu verstehen, hilft ein Blick auf das Problem, das sie löst.

Bei langen Coding-Sessions akkumuliert ein KI-Modell Kontext: Dateizustände, Fehlermeldungen, Refactoring-Schritte, Zwischenergebnisse. Irgendwann läuft das Kontextfenster voll. Bisherige Ansätze haben dieses Problem durch externe Zusammenfassungen gelöst – entweder wurde ein separater Prozess damit beauftragt, ältere Kontextteile zu einem Fließtext zusammenzufassen, oder das Kontextfenster wurde einfach nach dem FIFO-Prinzip (First In, First Out) gescrollt. Beide Methoden führen dazu, dass kritische Information verloren geht: Das Modell "vergisst" Architekturentscheidungen, Variablennamen oder den Grund für einen bestimmten Fix.

Composer 2 löst das anders: Das Modell selbst übernimmt die Komprimierung – und dieses Komprimierungsverhalten wurde direkt in den Reinforcement-Learning-Trainingsprozess integriert. Wenn eine Generation-Sequenz einen Token-Schwellenwert erreicht, pausiert das Modell und komprimiert seinen eigenen Kontext auf rund 1.000 Token – verglichen mit 5.000 Token und mehr bei externen Methoden. Entscheidend: Da die Komprimierungsschritte Teil der RL-Reward-Funktion waren, hat das Modell gelernt, welche Information behalten werden muss – und welche weggelassen werden kann.

Vorher vs. Nachher: Ein konkretes Beispiel
In einer Session mit 60.000 Token Kontext (entspricht ca. 4.500 Zeilen Code) komprimierte Composer 1.5 den älteren Teil auf einen externen Text-Summary – dabei gingen häufig der ursprüngliche Refactoring-Kontext und Variablennamen verloren. Composer 2 pausiert stattdessen an definierten Schwellenwerten, fasst den Kontext auf 1.000 Token zusammen und arbeitet weiter – ohne Unterbrechung des Entwicklers. In einer veröffentlichten Testaufgabe (Terminal-Bench 2.0: „make-doom-for-mips") absolvierte Composer 2 170 aufeinanderfolgende Turns und komprimierte dabei über 100.000 Token Kontext. Laut Cursor: 50% weniger Compaction-Fehler im Vergleich zur Vorgängermethode (Hersteller-Angabe).

Der Ansatz ist strategisch bemerkenswert, weil er nicht auf Architektur-Scaffolding setzt – also auf externe Systeme, die das Kontextproblem ums Modell herum lösen –, sondern das Modell selbst mit dem Kontext-Management ausstattet. Andere Anbieter wie GitHub (Copilot) und Windsurf verfolgen aktuell noch externe Ansätze.

Benchmark-Vergleich: Wo Composer 2 steht – und wo nicht

Cursor veröffentlichte Ergebnisse auf drei Benchmarks: CursorBench (eigener Benchmark, basierend auf realen Cursor-Engineering-Sessions), Terminal-Bench 2.0 (externe Evaluation des Laude Institute, misst Agentenverhalten in Terminal-Umgebungen) und SWE-bench Multilingual (echte GitHub-Issues in mehreren Programmiersprachen).

Modell	CursorBench	Terminal-Bench 2.0	SWE-bench Multilingual	Preis (Input/Output, $/M Token)
Composer 2 (Standard)	61,3*	61,7*	73,7*	0,50 / 2,50
Composer 2 (Fast, Default)	61,3*	61,7*	73,7*	1,50 / 7,50
Claude Opus 4.6	k. A.	58,0*	k. A.	5,00 / 25,00
GPT-5.4	k. A.	75,1*	k. A.	2,50 / 15,00
Composer 1.5 (Feb. 2026)	44,2*	47,9*	65,9*	3,50 / k. A.

*Alle Angaben stammen vom jeweiligen Hersteller oder aus Hersteller-zitierten Benchmarks. Terminal-Bench 2.0 ist ein unabhängiger Benchmark des Laude Institute; CursorBench ist ein proprietärer Benchmark von Cursor. Unabhängige End-to-End-Verifikation für Composer 2 steht noch aus. Stand: März 2026.

Zur Einordnung der Benchmarks: Hersteller-Benchmarks sind grundsätzlich mit Vorsicht zu interpretieren. CursorBench basiert auf Aufgaben aus Cursors eigenen Engineering-Sessions – ein Heimvorteil ist methodisch möglich. Terminal-Bench 2.0 ist unabhängig und gilt als valider, misst aber vor allem terminale Agenten-Aufgaben, nicht IDE-integrierte Workflows. Unabhängige Evaluationen wie LiveCodeBench oder Aider-Benchmarks lagen zum Redaktionsschluss noch nicht vor. GPT-5.4 bleibt auf Terminal-Bench 2.0 mit 75,1 klar vor Composer 2 (61,7). Der CursorBench-Score von 61,3 entspricht einer typischen Aufgabe mit 352 Codezeilen über acht Dateien – substantiell, aber kein vollständiger Proxy für reale Enterprise-Codebasen.

Pricing und Verfügbarkeit: Was es kostet

Composer 2 ist seit dem 19. März 2026 für alle Cursor-Pläne verfügbar, inklusive Free-Plan mit einem gesonderten Nutzungskontingent (Usage Pool). Composer 2 läuft nicht aus dem allgemeinen Modell-Kontingent des Cursor-Abonnements – es hat einen eigenen Token-Pool, der laut Cursor "großzügig" bemessen ist. Für Teams, die intensiv mit langen Coding-Sessions arbeiten, ist eine Kalkulation auf Token-Basis jedoch sinnvoll.

Variante	Input-Preis ($/M Token)	Output-Preis ($/M Token)	Cache-Read ($/M Token)	Standard-Default?
Composer 2 Standard	0,50	2,50	0,20	Nein
Composer 2 Fast	1,50	7,50	0,35	Ja (seit Release)

Zum Vergleich: Composer 1.5 kostete noch 3,50 $/M Input-Token – ein Preisrückgang von rund 86% beim Standard-Tier. Die Fast-Variante, die Cursor als Default gesetzt hat, kostet zwar dreimal mehr als Standard, liegt aber immer noch deutlich unter Claude Opus 4.6 (5,00 $/M) und GPT-5.4 (2,50 $/M). Cursor ist kein separates Modell, das man unabhängig von der IDE abonnieren kann – Composer 2 ist ausschließlich innerhalb der Cursor-Plattform verfügbar. Ein API-Zugang für externe Integrationen existiert zum Stand März 2026 nicht.

Der Markt: Cursor im Wettbewerb mit Copilot, Windsurf und Claude Code

Composer 2 ist nicht im Vakuum entstanden. Der Markt für KI-gestützte Coding-Tools ist 2026 so wettbewerbsintensiv wie nie – und Cursor muss sich auf mehreren Fronten behaupten.

GitHub Copilot bleibt mit über 20 Millionen Nutzern das meistgenutzte Tool, bietet aber kein proprietäres Coding-Modell in der Tiefe von Composer 2 – und kein Multi-File-Editing ohne manuelle Koordination. Copilots Stärke liegt in Enterprise-Governance: SAML/SSO, Audit-Logs, IP-Indemnity. Das sind Merkmale, die Cursor noch fehlen.

Windsurf (Codeium) verfolgt mit seinem Cascade-Modus einen ähnlichen Agenten-Ansatz wie Cursor, setzt aber auf externe Modelle ohne proprietäre Compaction-Methode. Nach der OpenAI-Übernahme für rund 3 Milliarden Dollar ist die strategische Ausrichtung von Windsurf aktuell in Bewegung.

Claude Code von Anthropic ist die interessanteste Gegner-Perspektive. Laut einer 2026er Entwicklerumfrage nennen 46% der befragten Entwickler Claude Code als das Tool, das sie „am liebsten nutzen" – gegenüber 19% für Cursor. Viele Teams nutzen Cursor für IDE-nativen Alltag und wechseln zu Claude Code für komplexe, autonome Aufgaben. Das ist keine direkte Konkurrenz, sondern eine Arbeitsteilung – was aber den strategischen Druck auf Cursor erhöht, seinen IDE-Vorteil zu verteidigen.

Für wen ist welches Tool das Richtige?

Cursor Composer 2 empfiehlt sich für: Entwickler und Teams, die tief in VSCode-Workflows integriert arbeiten. Alle, die lange, agentengestützte Coding-Sessions mit großen Codebasen (>50.000 Token) führen. Unternehmen, die Kosteneffizienz gegenüber Claude Opus priorisieren und kein striktes Enterprise-Compliance-Framework benötigen.

Claude Code empfiehlt sich für: Entwickler, die komplexe Aufgaben terminal-nativ und IDE-unabhängig delegieren wollen. Teams, die Claude als autonomen Agenten in CI/CD-Pipelines integrieren möchten. Use Cases mit Kontextfenstern über 128K Token und starkem Fokus auf Code-Qualität und Erklärbarkeit.

GitHub Copilot Enterprise empfiehlt sich für: Unternehmen ab 50+ Entwicklern mit Compliance-Anforderungen (DSGVO, ISO 27001, SOC 2), die Audit-Logs, IP-Indemnity und SAML-Integration benötigen.

Strategische Einordnung: Warum Cursor ein eigenes Modell braucht

Der tiefere Grund für Composer 2 liegt nicht nur in der Leistung. Wer als Produktunternehmen ausschließlich auf Modelle von Anthropic und OpenAI setzt, ist abhängig von deren Preisgestaltung, API-Verfügbarkeit und Produktentscheidungen. Cursor – bewertet bei 29,3 Milliarden Dollar, mit über 50.000 Business-Kunden – konnte sich diese Abhängigkeit strategisch nicht mehr leisten. Composer 2 ist die Antwort darauf: ein Modell, das tief in den Cursor-eigenen Tool-Stack integriert ist, zu eigenen Bedingungen skalierbar ist und als Datenschwungrad für zukünftige Modellversionen dient.

Ob die Strategie aufgeht, ist offen. VentureBeat und andere Fachmedien verweisen auf eine wachsende Community von Entwicklern, die Cursor verlassen haben und zu Claude Code gewechselt sind – mit Kritik an Preismodell-Änderungen und Kontextverlust-Problemen früherer Versionen. Composer 2 adressiert beide Punkte direkt. Die Frage ist, ob das reicht – oder ob die ersten Anbieter, die eigene Modelle mit IDE, Agenten und Compliance aus einer Hand bieten, den Markt langfristig dominieren werden.

Fazit und Handlungsempfehlung

Cursor Composer 2 ist mehr als ein Modell-Update. Es ist ein Statements zum Geschäftsmodell: Cursor will nicht mehr nur eine bessere Oberfläche für fremde Modelle sein, sondern ein vollständig integrierter Coding-Stack mit eigenem Modellkern. Die technische Grundlage – Compaction-in-the-Loop, MoE-Architektur, tief in den Tool-Stack integriertes Training – ist solide und unterscheidet sich methodisch von dem, was GitHub Copilot oder Windsurf aktuell bieten.

Die Benchmarks sind vielversprechend, aber mit journalistischer Zurückhaltung einzuordnen: Hersteller-Zahlen sind Ausgangspunkt für Evaluierung, kein abschließendes Urteil. GPT-5.4 führt die relevanten externen Benchmarks weiterhin an. Für Teams, die Cursor bereits nutzen und von Kontextverlust-Problemen bei langen Sessions berichtet haben, ist ein Test von Composer 2 klar empfehlenswert – die Kosten sind niedrig, der potenzielle Gewinn an Session-Stabilität real.

Handlungsempfehlung: Testen Sie Composer 2 mit einer konkreten Aufgabe, die bisher an Kontextverlust gescheitert ist – einem mehrtägigen Refactoring über viele Dateien, einer langen Debugging-Session in Legacy-Code. Vergleichen Sie das Ergebnis direkt mit Claude Opus 4.6 oder GPT-5.4 unter identischen Bedingungen. Entscheidend ist nicht der Benchmark-Score, sondern ob das Modell in Ihrem konkreten Workflow stabiler bleibt. Jetzt in Cursor testen →

Weiterführend: AI-Fabrik: Claude Code für Unternehmen | Anthropic vs. OpenAI im Enterprise-Segment | GitHub Copilot vs. Cursor vs. Windsurf: Benchmark 2026 | Cursor: Vom Startup zu 2 Mrd. $ Umsatz

Quellen: Cursor Blog: Composer 2 Announcement (19. März 2026) | Vantage: Cursor Composer 2 Pricing Analysis (März 2026) | DataCamp: Composer 2 Review (März 2026) | The New Stack: Composer 2 Benchmarks (März 2026) | VentureBeat: Cursor Composer 2 Review (März 2026) | DevOps.com: Cursor Ships Composer 2 (März 2026) | Hersteller-Benchmarks: CursorBench, Terminal-Bench 2.0 (Laude Institute), SWE-bench Multilingual

Teile es