Gemma 4 + Claude Code: Lokal und kostenlos coden

Table of Contents

Dieser Artikel wurde mit Künstlicher Intelligenz erstellt und redaktionell kuratiert.

⚡ In 30 Sekunden

Was ist passiert: Google veröffentlichte Gemma 4 am 2. April 2026 unter Apache-2.0-Lizenz – vier Modellgrößen von 2 Milliarden bis 31 Milliarden Parametern, multimodal, nativ für agentische Workflows gebaut.
Das Neue: Entwickler nutzen Gemma 4 bereits im Pilot als lokales Backend für Claude Code – über LM Studio oder Ollama als OpenAI-kompatibler API-Endpunkt, ohne Cloud-Kosten und ohne Datenweitergabe.
Benchmarks (laut Google): Das 31B-Modell erreicht 85,2 % auf MMLU Pro und 89,2 % auf AIME 2026 – Platz 3 unter den offenen Modellen laut Arena.ai (Stand 1. April 2026). Unabhängige Verifikation steht noch aus.
Hardware: Das 26B-MoE-Modell läuft ab 16–18 GB RAM (4-bit-Quantisierung); der E4B bereits ab 5,5 GB.
DACH-Relevanz: Lokale Ausführung reduziert DSGVO-Drittlandsübermittlungsrisiken strukturell; Apache 2.0 erlaubt kommerziellen Einsatz ohne Einschränkungen.

Wer täglich mit Claude Code arbeitet, kennt die Situation: Komplexe Coding-Aufgaben laufen über die Anthropic-API, Token-Kosten summieren sich, und jede Zeile Code verlässt das eigene Netzwerk. Seit dem 2. April 2026 gibt es eine Alternative, die in der Entwickler-Community schnell Aufmerksamkeit gewonnen hat: Gemma 4, Googles neuestes offenes Modell, lässt sich über LM Studio oder Ollama als lokales Backend für Claude Code einbinden – ohne Cloud-Abhängigkeit und ohne laufende Token-Kosten. Dieser Artikel erklärt, wie das Setup funktioniert, was erste Erfahrungsberichte über die Kombination zeigen und wo die realen Grenzen liegen.

Was Gemma 4 ist – und warum es jetzt relevant wird

Gemma 4 ist Googles bislang intelligenteste Familie offener Modelle, entwickelt für Advanced Reasoning und agentische Workflows. Das Modell basiert laut Google auf denselben Forschungsgrundlagen wie Gemini 3 und wird unter der kommerziell nutzbaren Apache-2.0-Lizenz veröffentlicht – ein wesentlicher Unterschied zu vielen Vorgängern, die eigene Lizenzen mit Einschränkungen nutzten.

Die Modellfamilie besteht aus vier Varianten. Für Edge-Geräte wie Smartphones bietet Google die 2-Milliarden- und 4-Milliarden-„Effective"-Modelle an, für leistungsstärkere Systeme die 26-Milliarden-Mixture-of-Experts- und 31-Milliarden-Dense-Varianten. Alle vier Modelle sind multimodal – sie können Video und Bilder verarbeiten, eignen sich für Optical Character Recognition, und die kleineren Modelle verarbeiten zusätzlich Audio-Eingaben.

Was Gemma 4 von seinen Vorgängern abhebt: Alle Modelle wurden als leistungsfähige Reasoning-Systeme mit konfigurierbaren Thinking-Modi entwickelt, mit erweitertem Kontextfenster von 128K (kleinere Modelle) bis 256K Token (mittlere Modelle) sowie nativer Unterstützung für Function Calling und strukturierten JSON-Output – die technischen Grundlagen für agentische Workflows.

Gemma 4 als lokales Claude-Code-Backend: Wie das Setup funktioniert

Claude Code unterstützt über Umgebungsvariablen die Umleitung aller API-Aufrufe auf einen OpenAI-kompatiblen lokalen Endpunkt. Mit der Veröffentlichung von LM Studio 0.4.0 wurde durch die Einführung der lms-CLI und llmster ein wesentlicher Schritt in Richtung headless lokaler Inferenz gemacht – Entwickler können Modelle wie Gemma 4 über eine API bereitstellen, die Claude Code als Drop-in-Ersatz für Cloud-APIs verbraucht.

Das Prinzip: Claude Code wird über Umgebungsvariablen angewiesen, alle Modellanfragen nicht an die Anthropic-API, sondern an den lokalen LM-Studio- oder Ollama-Endpunkt zu senden. Die Variablen ANTHROPIC_MODEL und die drei DEFAULT_*_MODEL-Variablen leiten alle Claude-Code-Modellauswahlen (Opus, Sonnet, Haiku) durch Gemma 4; CLAUDE_CODE_SUBAGENT_MODEL stellt sicher, dass auch von Claude Code erzeugte Subagenten das lokale Modell verwenden.

✅ Schnell-Setup: Gemma 4 mit Claude Code (Ollama)

Schritt 1 – Modell laden: Ollama starten und Gemma 4 herunterladen:

ollama pull gemma4:27b    # für 26B MoE (empfohlen für 24+ GB RAM)
ollama pull gemma4:e4b    # für Edge-Variante (ab 6 GB RAM)

Schritt 2 – Umgebungsvariablen setzen: In der Shell oder in ~/.claude/settings.json:

export ANTHROPIC_BASE_URL=http://localhost:11434/v1
export ANTHROPIC_MODEL=gemma4:27b
export DEFAULT_MODEL=gemma4:27b
export API_TIMEOUT_MS=30000000

Schritt 3 – Claude Code starten: Mit dem Alias claude-lm oder direkt claude im Projektordner. Claude Code nutzt nun Gemma 4 für alle Anfragen.

Wichtig beim Timeout: Die API_TIMEOUT_MS-Variable muss hoch gesetzt werden, da lokale Inferenz langsamer als die Anthropic-API ist und komplexe Aufgaben Zeit benötigen. Für komplexe agentische Tasks empfiehlt sich ein Wert von mehreren Stunden.

Welches Gemma-4-Modell für welchen Anwendungsfall?

Die Wahl der richtigen Modellgröße entscheidet über Geschwindigkeit und Qualität. Eine Übersicht der Hardware-Anforderungen und Benchmark-Werte (alle Angaben laut Google DeepMind, unabhängige Verifikation steht aus):

Modell	RAM (4-bit)	MMLU Pro	AIME 2026	Empfohlener Einsatz
E2B	4 GB	60,0 %	37,5 %	Smartphones, Raspberry Pi, einfache Completions
E4B	5,5–6 GB	69,4 %	42,5 %	Laptops, schnelle Code-Completions
26B A4B (MoE)	16–18 GB	82,6 %	88,3 %	Workstations, Pilot-Backend für Claude Code
31B Dense	17–20 GB	85,2 %	89,2 %	Maximale Qualität, High-End-Hardware (24+ GB)

Quelle: Google DeepMind / Unsloth Documentation, Stand April 2026. Benchmarks ausschließlich von Google; eigene Evaluation vor Produktiveinsatz empfohlen.

Das 26B-MoE-Modell ist die empfohlene Wahl für erste Pilotprojekte mit Claude Code. Die Mixture-of-Experts-Architektur mit 128 Experten aktiviert nur 3,8 Milliarden Parameter pro Token – was Inferenzkosten vergleichbar mit einem 4B-Dense-Modell erzeugt, bei Qualität die deutlich darüber liegt. Auf einem MacBook Pro M4 Pro mit 48 GB RAM erreicht das Modell laut einem Community-Bericht 51 Token pro Sekunde.

Was erste Erfahrungsberichte zeigen

Frühe Erfahrungsberichte aus der Entwickler-Community – die noch keine systematische Validierung ersetzen – zeichnen ein differenziertes Bild. Laut einem ausführlichen Praxisbericht (Antigravity Lab, April 2026) zeigte Gemma 4 E4B auf einem M3 Max MacBook Pro mit 64 GB RAM bei Python-Code-Completion in ihren Tests etwa 85 % der wahrgenommenen Qualität von Claude Sonnet; bei TypeScript-Implementierungen schätzten die Tester die Qualität auf etwa 80 %. Diese Angaben sind subjektive Einschätzungen aus frühen Pilotprojekten und können je nach Aufgabentyp, Codebase-Komplexität und Hardware-Konfiguration erheblich variieren. Unabhängige, reproduzierbare Benchmarks für Coding-Aufgaben lagen zum Redaktionsschluss noch nicht vor.

Besonders stark zeigt sich Gemma 4 laut diesen frühen Berichten bei strukturierten, wiederholbaren Aufgaben. Google selbst positioniert das Modell für mehrstufige Planung, agentische Workflows, Function Calling, Code-Generierung, strukturierten Output und Long-Context als erstklassige Fähigkeiten. Das macht es zu einem sinnvollen Kandidaten für Pilotprojekte mit Code-Completions, Docstring-Generierung, Bugfixes aus Fehlermeldungen und Routine-Refactoring.

Wo Cloud-Modelle nach aktuellen Einschätzungen besser bleiben: Bei sehr langen Kontexten (Verständnis von 10.000+ Zeilen Code als Ganzes), Frameworks die nach dem Training-Cutoff erschienen sind, und nuancierten architektonischen Entscheidungen mit langen Reasoning-Ketten.

Hybrid-Strategie: Routing nach Aufgabentyp

Die sinnvollste Nutzungsform ist keine Entweder-oder-Entscheidung. Routine-Ausführung delegiert an Gemma 4, anspruchsvolles Reasoning bleibt beim gehosteten Premium-Modell. Ein Beispiel, wie ein typischer Entwicklertag mit Routing aussehen könnte:

Beispiel-Workflow: Routing in der Praxis

Morgens – Gemma 4 lokal: 30 Code-Completions, 5 Docstrings, 3 Bugfixes aus Fehlermeldungen, automatische Testgenerierung für neue Funktionen. Kein Token-Verbrauch, vollständig offline.

Mittags – Wechsel zu Cloud: Architektur-Review über 12 Dateien hinweg, Diskussion über Security-Implikationen einer neuen API-Integration, Planung eines komplexen Refactorings. Hier zählt Reasoning-Tiefe mehr als Kosten.

Faustregel: Für Gemma 4 lokal geeignet: Code-Completions, Docstrings, Bugfixes, Testgenerierung, strukturierte Extraktion, Repo-Zusammenfassungen. Für Cloud reservieren: Cross-File-Architektur (10+ Dateien), Security-Threat-Modellierung, hochriskante Compliance-Analysen.

Die Kostenperspektive: Was der Umstieg potenziell spart

Die Wirtschaftlichkeit hängt stark von der Aufgabenverteilung ab. Zur Orientierung: Anthropic berechnet für Claude Sonnet aktuell 3 US-Dollar pro Million Input-Token und 15 US-Dollar pro Million Output-Token; Claude Haiku liegt bei 1 US-Dollar Input und 5 US-Dollar Output. Der gehostete Gemma-4-31B-Endpunkt kostet laut verfügbaren Quellen 0,14 US-Dollar pro Million Input-Token und 0,40 US-Dollar pro Million Output-Token. Vollständig lokales Gemma entfernt die Pro-Token-Inferenzkosten nach dem Hardware-Setup komplett.

Ein konkretes Szenario: Ein Team aus 3 Entwicklern bearbeitet täglich je 50 Coding-Tickets (Completions, Bugfixes, Testgenerierung). Bei geschätzt 500.000 Output-Token pro Entwickler und Monat entstehen mit Claude Sonnet etwa 23 US-Dollar pro Person – rund 70 US-Dollar monatlich für das Team. Mit lokalem Gemma 4 entfallen diese laufenden Kosten vollständig, sofern die Hardware bereits vorhanden ist. Diese Rechnung gilt nur für die Routine-Aufgaben, die tatsächlich an Gemma 4 delegiert werden können – komplexe Reasoning-Tasks bleiben weiterhin bei Cloud-Modellen.

DACH-Compliance: Warum lokale Ausführung die DSGVO-Gleichung verändert

⚠️ DSGVO & Compliance-Einordnung

DSGVO Art. 44 ff. (Drittlandsübermittlung): Wer Quellcode oder Entwicklerdaten an die Anthropic-API sendet, überträgt Daten in die USA. Mit lokaler Gemma-4-Ausführung entfällt diese Übermittlung – Code bleibt im eigenen Netzwerk. Das kann das Drittlandsübermittlungsrisiko deutlich reduzieren und die Notwendigkeit einer DSFA nach Art. 35 DSGVO verändern. Eine Einzelfallprüfung durch den Datenschutzbeauftragten bleibt jedoch in jedem Fall erforderlich, da lokale Ausführung allein keine vollständige DSGVO-Konformität garantiert.

EU AI Act Art. 53 (GPAI-Pflichten): Gemma 4 gilt als General Purpose AI Model. Als Open-Source-Modell unter Apache 2.0 profitiert es von erleichterten Pflichten nach Art. 53 Abs. 2 EU AI Act – Betreiber im Unternehmenseinsatz müssen dennoch prüfen, ob ihr spezifischer Einsatz unter Hochrisiko-Klassifikation fällt.

Für Branchen mit besonderem Schutz (KRITIS, BaFin, Gesundheit): Lokale Ausführung bietet einen strukturellen Vorteil – kein Drittanbieter-Datenzugriff, vollständige Kontrolle über Modell-Versionen und Update-Zeitpunkte, prüfbare Infrastruktur. Auch hier ersetzt die technische Maßnahme nicht die rechtliche Einzelfallbewertung.

Die Apache-2.0-Lizenz ist für DACH-Unternehmen besonders relevant: Sie erlaubt uneingeschränkten kommerziellen Einsatz, Finetuning und Redistribution ohne Rücklizenzierungspflichten. Das unterscheidet Gemma 4 von vielen anderen Open-Weight-Modellen, die eigene Lizenzen mit Nutzungsbeschränkungen mitbringen.

Bekannte Limitierungen und Einschränkungen

Wer das Setup im Pilot einsetzen möchte, sollte vier bekannte Einschränkungen kennen:

Performance-Slowdowns bei LM Studio + Claude Code: Nutzer berichten von signifikanten Verlangsamungen, wenn das lokale Modell über LM Studio in Claude Code integriert wird – besonders spürbar bei größeren Anfragen ab etwa 2.000 Output-Token oder bei schnell aufeinanderfolgenden Tasks. Die Ollama-API zeigt dieses Problem laut Community-Rückmeldungen in deutlich geringerem Ausmaß; Ollama ist daher für die Claude-Code-Integration vorzuziehen.

Kontext-Management: Offene Gewichtsmodelle sind weniger gut darin, sehr große Kontextfenster zu verwalten – selbst bei technisch unterstützten 128K oder 256K Token kann das Modell bei langen Kontexten die Übersicht verlieren.

Hardware-Anforderungen für die größeren Varianten: Das 31B-Modell benötigt 17–20 GB RAM in 4-bit-Quantisierung. Für Teams ohne dedizierte GPU-Workstations ist das 26B-MoE-Modell die realistischere Option – es liefert nahezu gleiche Benchmark-Werte bei niedrigerem Speicherbedarf.

Fehlende unabhängige Benchmark-Verifizierung: Die genannten Leistungszahlen stammen ausschließlich aus Googles eigenen Evaluierungen. Subjektive Qualitätseinschätzungen aus Community-Berichten können stark variieren. Eigene Evaluation auf dem jeweiligen Aufgabenprofil ist vor dem Übergang vom Pilot- in den Produktivbetrieb Pflicht.

Unternehmenseinsatz: Was IT-Entscheider wissen müssen

Für IT-Leiter, die Gemma 4 als Backend für Entwickler-KI evaluieren, sind drei strategische Punkte relevant:

Kontrollierbarkeit und Auditierbarkeit: Lokale Ausführung bedeutet vollständige Kontrolle über Modell-Updates, keine externen Abhängigkeiten und eine prüfbare Infrastruktur. Das ist besonders für Unternehmen relevant, die KI-Einsatz intern dokumentieren müssen – etwa für NIS2-Compliance oder interne Governance-Anforderungen.

Finetuning-Optionen: Gemma 4 lässt sich über Vertex AI Training Clusters finetunen, mit optimierten SFT-Rezepten und hoher Skalierbarkeit. Für On-Premise-Finetuning stehen Frameworks wie Unsloth, Hugging Face TRL und LoRA-basierte Methoden zur Verfügung – relevant für Unternehmen, die ein auf ihre Codebasis spezialisiertes Modell benötigen.

Pilotprojekt-Empfehlung: Der risikoarme Einstieg ist ein Entwickler-Workstation-Pilot mit nicht-sensiblen Coding-Aufgaben. Benchmark: 20 typische Coding-Aufgaben aus dem Tagesgeschäft einmal mit lokalem Gemma 4, einmal mit dem bestehenden Cloud-Modell ausführen und die Ergebnisse qualitativ vergleichen. Eigene Messung schlägt jeden Hersteller-Benchmark.

Fazit: Vielversprechender Pilot mit klarem Aufgabenbereich

Gemma 4 ist kein Ersatz für Claude Sonnet oder Claude Opus bei komplexen Reasoning-Aufgaben. Es ist aber eine lizenzrechtlich saubere und technisch ausgereifte Option für den unteren und mittleren Teil des Coding-Stacks – wiederholbare, strukturierte, kurzkontext-abhängige Aufgaben. Die Kombination mit Claude Code als Agenten-Framework ist nach erfolgreichem Pilot produktiv einsetzbar; frühe Community-Berichte sind ermutigend, ersetzen aber keine eigene Validierung.

Für DACH-Unternehmen kommt der potenzielle DSGVO-Vorteil lokaler Ausführung hinzu: Kein Quellcode verlässt das eigene Netz, kein Auftragsverarbeitungsvertrag mit einem US-Hyperscaler ist erforderlich, und die Apache-2.0-Lizenz schafft Rechtssicherheit für den kommerziellen Einsatz. Das allein rechtfertigt einen Evaluierungspiloten – vorbehaltlich der datenschutzrechtlichen Einzelfallprüfung.

✅ Handlungsempfehlung

Modell wählen: Für die meisten Workstations das 26B-MoE-Modell via Ollama (gemma4:27b); E4B für RAM-begrenzte Setups.
Pilot aufsetzen: Claude Code über Umgebungsvariablen auf den lokalen Ollama-Endpunkt umleiten – 30 Minuten Setup, null laufende Kosten.
Aufgabenprofil definieren: Welche Coding-Aufgaben werden täglich ausgeführt? Code-Completions, Bugfixes und Testgenerierung eignen sich als Piloteinstieg.
Qualität messen: 20 Aufgaben aus dem realen Tagesgeschäft als Testset anlegen, Ergebnisse mit Cloud-Baseline vergleichen. Erst nach positivem Pilot eine Routing-Strategie festlegen.
Compliance-Prüfung: DSGVO-Datenpfade und EU-AI-Act-Klassifikation mit dem Datenschutzbeauftragten klären; bei Unternehmenseinsatz Betriebsvereinbarung nach §87 BetrVG prüfen.

FAQ: Gemma 4 + Claude Code

Ist Gemma 4 + Claude Code schon produktiv einsetzbar?

Für einfache, strukturierte Coding-Aufgaben ja – nach erfolgreichem eigenem Pilot. Das Setup ist technisch funktionsfähig; frühe Community-Berichte sind positiv. Für den breiten Produktiveinsatz empfehlen wir eigene Validation auf dem tatsächlichen Aufgabenprofil, bevor Cloud-Modelle vollständig ersetzt werden.

Welche Hardware brauche ich mindestens?

Für das E4B-Modell (Edge) reichen 5,5–6 GB Unified Memory oder VRAM in 4-bit-Quantisierung. Für das empfohlene 26B-MoE-Modell werden 16–18 GB benötigt – realistisch auf aktuellen MacBook-Pro-Modellen mit 24 GB oder mehr, oder einer RTX 4090 mit 24 GB VRAM.

Ist Gemma 4 für DSGVO-sensible Unternehmensumgebungen geeignet?

Lokale Ausführung von Gemma 4 überträgt keine Daten an externe Server – das reduziert die häufigste DSGVO-Problematik bei KI-Coding-Tools erheblich. Die Apache-2.0-Lizenz erlaubt kommerziellen Einsatz ohne Einschränkungen. Eine datenschutzrechtliche Einzelfallprüfung und – bei Unternehmenseinsatz – die Klärung der EU-AI-Act-Klassifikation bleiben dennoch erforderlich.

Wie unterscheidet sich Gemma 4 von früheren Gemma-Versionen?

Gemma 4 basiert auf der Gemini-3-Forschung und bringt native Function-Calling-Unterstützung, deutlich erweitertes Kontextfenster (128K/256K statt 128K bei Gemma 3), konfigurierbare Thinking-Modi und eine Mixture-of-Experts-Architektur für die 26B-Variante. Die Apache-2.0-Lizenz (Gemma 3 hatte eine eigene Gemma-Lizenz) ist für kommerziellen Einsatz ein wesentlicher Vorteil.