SLMs im Enterprise: Wenn fine-tuned besser ist als groß

Table of Contents

Was wäre, wenn das KI-Modell Ihres Unternehmens nur einen Bruchteil kostet, schneller antwortet und dabei die gleiche – oder bessere – Genauigkeit liefert als ein großes Sprachmodell? AT&T hat genau das umgesetzt: Der Telekommunikationsriese ersetzte rechenintensive Large Language Models (LLMs) durch drei spezialisierte, feinabgestimmte Kleinmodelle – und erzielte laut Chief Data Officer Andy Markus eine Kostensenkung von 90 Prozent bei gleichzeitig 84 Prozent schnellerer Verarbeitungsgeschwindigkeit. Die Genauigkeit bei der Klassifizierung von Kundengesprächsdaten lag bei 91 Prozent – nahezu identisch mit der deutlich teureren Vorgängerlösung.

Das ist kein Einzelfall. Der Markt für Small Language Models (SLMs) wuchs 2024 auf 6,5 Milliarden US-Dollar und soll bis 2030 auf über 20 Milliarden Dollar ansteigen. Der Grund: Für viele Unternehmensanwendungen ist ein Modell mit Billionen Parametern schlicht überdimensioniert – teuer, langsam und datenschutzrechtlich problematisch. Dieser Artikel erklärt, wie Small Language Models funktionieren, wann sie LLMs überlegen sind und wie Unternehmen sie strategisch einsetzen.

Was sind Small Language Models – und warum werden sie gerade so wichtig?

Ein Large Language Model (LLM) wie GPT-4 oder Gemini Ultra ist auf riesigen Textmengen trainiert und kennt gewissermaßen alles ein bisschen. Schätzungsweise enthält GPT-4 bis zu 1,5 Billionen Parameter – winzige Gewichte, die das Modell nutzt, um Sprache zu verstehen und zu erzeugen. Diese Modelle laufen fast ausschließlich in der Cloud, benötigen hochspezialisierte GPU-Cluster und kosten pro Anfrage erheblich mehr als kleinere Alternativen.

Small Language Models hingegen haben typischerweise zwischen einer und 15 Milliarden Parameter. Bekannte Vertreter sind Microsofts Phi-3-mini (3,8 Milliarden Parameter), Mistral 7B oder Metas LLaMA-3 8B. Entscheidend ist: SLMs werden nicht von Grund auf neu trainiert, sondern starten als vortrainiertes Basismodell und werden dann durch Fine-Tuning – also Nachtraining auf einem domänenspezifischen Datensatz – für eine konkrete Aufgabe spezialisiert.

Analyst:innen von Gartner beschreiben SLMs als „potenziell kostengünstigere Alternative für GenAI-Entwicklung und -Betrieb", da sie einfacher zu feinabzustimmen, effizienter zu betreiben und leichter zu kontrollieren seien. Diese drei Eigenschaften sind im Unternehmenskontext keine Nebensache – sie entscheiden über Rentabilität, Reaktionsgeschwindigkeit und regulatorische Compliance.

Die drei Kernvorteile gegenüber großen Sprachmodellen

1. Kosten: Dramatisch günstiger im Betrieb

Die Kostenunterschiede zwischen LLMs und fine-tuned SLMs sind erheblich. GPT-4 kostet im Schnitt rund 0,03 US-Dollar pro 1.000 Input-Token und 0,06 Dollar pro 1.000 Output-Token – also etwa 0,09 Dollar pro Anfrage. Mistral 7B dagegen liegt bei 0,0001 Dollar pro 1.000 Input-Token und 0,0003 Dollar Output, was auf rund 0,0004 Dollar pro Anfrage hinausläuft. Das ist mehr als 200-mal günstiger.

In der Praxis bedeutet das: Ein Unternehmen, das monatlich 50 Millionen Anfragen stellt – etwa für automatische Dokumentenklassifizierung –, zahlt mit GPT-4 rund 4,5 Millionen Dollar. Mit einem fine-tuned Mistral 7B wären es knapp 20.000 Dollar. Selbst wenn man Fine-Tuning-Kosten, Infrastruktur und Wartung einrechnet, ergibt sich in den meisten Fällen eine drastische Einsparung bereits im ersten Jahr.

2. Geschwindigkeit und Latenz: Entscheidend für Echtzeit-Anwendungen

SLMs wie Mistral Small 3 verarbeiten bis zu 150 Token pro Sekunde – etwa dreimal schneller als vergleichbare Modelle wie Llama 3.3 70B. Für Anwendungen, bei denen Nutzer auf Antworten warten – Chatbots, Kundenservice-Assistenten, medizinische Dokumentationshilfen –, ist diese Geschwindigkeit kein technisches Detail, sondern direkter Einfluss auf die Nutzererfahrung und operative Effizienz.

Ein weiterer Vorteil: SLMs lassen sich auf firmeneigener Hardware oder sogar auf Edge-Geräten betreiben. Das reduziert die Abhängigkeit von externen Cloud-Anbietern und sorgt für konstante, vorhersehbare Latenz – unabhängig von Netzwerkschwankungen oder Serverauslastung beim Anbieter.

3. Compliance und Datenschutz: DSGVO-konform by Design

Für europäische Unternehmen ist die Datenschutz-Grundverordnung (DSGVO) eine Realität, die KI-Entscheidungen direkt beeinflusst. Wer sensible Kundendaten – Verträge, Patientenakten, Finanzdokumente – in externe Cloud-APIs schickt, trägt ein erhebliches Risiko. Fine-tuned SLMs lösen dieses Problem strukturell: Sie laufen on-premises oder in der eigenen Private Cloud. Die Daten verlassen nie das Unternehmen.

Hinzu kommt der EU AI Act, der seit August 2024 in Kraft ist und bis 2026 vollständig umgesetzt sein soll. Unternehmen, die KI-Systeme kontrollieren und erklären können müssen, sind mit einem Modell, das vollständig in der eigenen Infrastruktur läuft, klar im Vorteil gegenüber Black-Box-APIs externer Anbieter.

Wann SLMs LLMs tatsächlich übertreffen – und wann nicht

Fine-tuned SLMs gewinnen bei klar definierten, repetitiven Aufgaben, bei denen das Trainings-Datenset eng auf den Einsatzbereich zugeschnitten ist. Forschungen zeigen: In eng begrenzten Aufgaben wie Klassifikation, Strukturdatenextraktion oder domänenspezifischer Frage-Antwort-Interaktion halluzinieren SLMs weniger als generelle LLMs – weil sie schlicht weniger „wissen müssen" und auf präzise Daten trainiert sind.

Das Diabetes-Diagnose-Modell Diabetica-7B beispielsweise erreichte bei medizinischen Fachfragen eine Genauigkeit von 87,2 Prozent – und übertraf damit GPT-4 und Claude 3.5 in diesem spezifischen Bereich. Das ist kein Widerspruch, sondern Spezialisierung: Ein Facharzt weiß in seinem Bereich oft mehr als ein Allgemeinmediziner.

SLMs sind die bessere Wahl für: Dokumentenklassifizierung und -extraktion, Kundensupport-Automatisierung mit definierten Kategorien, interne Wissensdatenbanken mit RAG (Retrieval-Augmented Generation), automatisierte Berichtserstellung aus strukturierten Daten, Code-Review für spezifische Sprachen oder Regelwerke sowie Compliance-Prüfungen nach festgelegten Kriteriensätzen.

LLMs bleiben die bessere Wahl für: Komplexes mehrstufiges Schlussfolgern über diverse Wissensgebiete, kreative und offene Textgenerierung, unstrukturierte Problemlösung mit unbekanntem Scope sowie Tasks mit sehr breitem Kontext (z.B. Zusammenfassung eines 200-seitigen Vertrags mit zahlreichen Querverweisen).

In der Praxis verfolgen die meisten erfolgreichen Unternehmen heute eine Hybrid-Strategie: SLMs übernehmen 70 bis 80 Prozent der Anfragen – die strukturierten, repetitiven, domänenspezifischen. LLMs werden nur für die komplexesten 10 bis 20 Prozent eingesetzt. Das maximiert Kosteneffizienz, ohne Qualität bei schwierigen Aufgaben zu opfern.

Praxisfall 1: AT&T optimiert 15 Millionen Kundengespräche pro Jahr

AT&T verarbeitete jährlich 15 Millionen aufgezeichnete Kundengespräche. Die ursprüngliche Lösung basierte auf großen, teuren Sprachmodellen. In Zusammenarbeit mit H2O.ai entwickelte das Unternehmen drei spezialisierte Kleinmodelle: Danube 1.8B übernahm 20 spezifische Klassifizierungskategorien, Llama übernimmt 10 weitere, ein klassischer Klassifikator erledigt die übrigen 50 Kategorien des 80-Kategorie-Systems.

Das Ergebnis: 91 Prozent Genauigkeit – nahezu identisch mit der teuren Vorgängerlösung – bei nur 35 Prozent der vorherigen Gesamtkosten. Andy Markus, Chief Data Officer bei AT&T, fasste es so zusammen: Fine-tuned SLMs machten KI zu „nicht nur einem Luxus für experimentelle Piloten, sondern einem nachhaltigen operativen Werkzeug", das auf 100.000 Mitarbeitende skaliert werden kann.

Praxisfall 2: Immobilienunternehmen senkt Content-Kosten drastisch

Ein nordamerikanisches Property-Management-Unternehmen erstellte monatlich Content zu Mietangeboten – ursprünglich für 85.000 Dollar im Monat mit einem großen Sprachmodell. Das Team fine-tunte Microsofts Phi-3 auf einem Datensatz von 3.200 unternehmenseigenen Mietanfragen und Objektbeschreibungen. Das resultierende Modell kannte die spezifische Sprache, Formulierungskonventionen und marktspezifische Terminologie des Unternehmens besser als jedes allgemeine Modell.

Die Kosten sanken drastisch, die Qualität verbesserte sich im Bereich der unternehmenseigenen Inhalte sogar – weil das Modell präzise auf die eigene Sprache und Zielgruppe kalibriert war.

So starten Unternehmen mit Fine-tuned SLMs: Der Implementierungsweg

Der Einstieg in Fine-Tuning muss kein millionenschweres Forschungsprojekt sein. Moderne Techniken wie LoRA (Low-Rank Adaptation) und QLoRA (Quantized LoRA) erlauben das effiziente Nachtraining auf Standard-Hardware. Statt alle Modellparameter zu aktualisieren – was enorme Rechenleistung erfordert –, werden dabei nur wenige zusätzliche, spezialisierte Schichten trainiert, die mit den bestehenden Gewichten zusammenwirken.

Schritt 1: Aufgabe und Datensatz definieren. SLM-Projekte stehen und fallen mit der Qualität des Trainingsdatensatzes. Forschungen zeigen: 1.000 sorgfältig kuratierte Beispiele übertreffen 10.000 mittelmäßige Datenpunkte. Definieren Sie zunächst eine eng begrenzte Aufgabe – zum Beispiel „Klassifizierung von Supportanfragen in 15 Kategorien" oder „Extraktion von Liefer- und Zahlungskonditionen aus Verträgen".

Schritt 2: Basismodell auswählen. Für viele Unternehmensaufgaben sind Mistral 7B, Phi-3-mini oder LLaMA-3 8B gute Startpunkte. Diese Modelle sind Open Source, gut dokumentiert und laufen auf einer einzigen High-End-GPU. IBMs Granite-Modellreihe bietet darüber hinaus speziell für Unternehmensszenarien vorbereitete Varianten.

Schritt 3: Fine-Tuning durchführen. Tools wie H2O LLM Studio (No-Code), LLaMA-Factory oder Hugging Face TRL ermöglichen das Fine-Tuning ohne tiefes ML-Engineering. LoRA-basiertes Training für ein 7-Milliarden-Parameter-Modell auf einem dedizierten Datensatz dauert typischerweise wenige Stunden bis Tage auf handelsüblicher GPU-Hardware und kostet deutlich unter 1.000 Euro.

Schritt 4: Evaluieren und benchmarken. Vergleichen Sie das fine-tuned SLM immer gegen das Basismodell und gegen die LLM-Ausgangslösung. Messen Sie Genauigkeit, Latenz und Kosten pro Anfrage. Nur so lässt sich der ROI sauber dokumentieren.

Schritt 5: In RAG-Architektur integrieren. Fine-tuned SLMs und RAG (Retrieval-Augmented Generation – ein Ansatz, bei dem das Modell bei jeder Anfrage aus einer Wissensdatenbank relevante Kontextdokumente abruft) sind eine natürliche Kombination. Das Fine-Tuning bringt das Modell auf die richtige Sprache und Aufgabe, RAG hält die zugrundeliegende Wissensbasis aktuell, ohne das Modell ständig nachtrainieren zu müssen.

Die Grenzen ehrlich benannt

SLMs sind kein Allheilmittel. Wer hofft, ein einmal fine-getuntes Modell für alles zu nutzen, wird enttäuscht. Der Spezialisierungsvorteil ist gleichzeitig eine Einschränkung: Ein Modell, das auf Mietverträge trainiert wurde, eignet sich nicht für die Analyse von Pathologie-Berichten.

Außerdem erfordert jede neue Aufgabe einen eigenen Datensatz und ein eigenes Fine-Tuning. Das schafft operativen Aufwand: Versionierung, Monitoring auf Modell-Drift (Leistungsverschlechterung durch veränderte Eingabedaten über Zeit), regelmäßige Nachtrainings bei neuen Kategorien oder Sprachänderungen. Für viele Unternehmen bedeutet das, in ML-Engineering-Kapazitäten zu investieren oder externe Expertise hinzuzuziehen.

Zudem gilt: Für wirklich komplexe, offene Reasoning-Aufgaben – unstrukturierte Problemanalyse, mehrschrittiges Schlussfolgern über heterogene Wissensgebiete – sind große Modelle nach wie vor überlegen. Die Hybrid-Strategie, SLMs für das Gros der Aufgaben und LLMs für die schwierigsten Fälle, ist deshalb für die meisten Unternehmen die realistischste und wirtschaftlichste Architektur.

Fazit: Die Ära des „Größer ist besser" endet im Enterprise

Der Trend ist eindeutig: Unternehmen, die KI-Kosten kontrollieren, Datenschutz ernst nehmen und KI skalierbar machen wollen, setzen zunehmend auf fine-tuned Small Language Models. AT&T hat mit einer 90-prozentigen Kostensenkung gezeigt, dass der Ansatz in Produktionsumgebungen funktioniert. Analyst:innen von Gartner gehen davon aus, dass 70 bis 80 Prozent der Enterprise-KI-Workloads SLMs oder Hybrid-Architekturen nutzen werden – nicht ausschließlich LLMs.

Für deutsche und europäische Unternehmen kommt ein weiterer Vorzug hinzu: On-Premises-SLMs sind die unkomplizierteste Antwort auf DSGVO-Anforderungen und die wachsenden Transparenzpflichten des EU AI Acts.

Handlungsempfehlung: Identifizieren Sie in Ihrem Unternehmen zwei bis drei repetitive, klar definierte KI-Aufgaben – Dokumentenklassifikation, Supportkategorisierung, Datenfeldextraktion –, bei denen Sie heute ein LLM einsetzen. Bauen Sie einen Proof-of-Concept mit einem fine-tuned SLM auf einem bestehenden Open-Source-Modell auf. Die Kostenersparnis und die Compliance-Vorteile werden in den meisten Fällen für sich sprechen.

Die nächste Phase der Künstlichen Intelligenz im Unternehmen ist nicht größer – sie ist präziser.

Teile es