KI-Modelle uneinig: Welche Jobs wirklich gefährdet sind

KI-Modelle uneinig: Welche Jobs wirklich gefährdet sind

Table of Contents

Dieser Artikel basiert auf einer aktuellen wissenschaftlichen Studie und wurde mit Unterstützung Künstlicher Intelligenz recherchiert, verfasst und redaktionell kuratiert.

Dieser Artikel wurde mit Künstlicher Intelligenz erstellt und redaktionell kuratiert.

🕐 In 30 Sekunden: Das Wichtigste zur NBER-Studie

  • ChatGPT-5, Gemini 2.5 und Claude 4.5 wurden befragt, welche Berufe durch KI am stärksten gefährdet sind – mit erheblich unterschiedlichen Ergebnissen.
  • Besonders bei Führungskräften und Berufen mit gemischten kognitiven und körperlichen Aufgaben gehen die Modelle stark auseinander.
  • Claude stufte Buchhalter als hochgradig gefährdet ein, Gemini dagegen nicht.
  • Fazit der Forscher: Kein einzelnes KI-Modell sollte als alleinige Grundlage für bildungs- oder arbeitsmarktpolitische Entscheidungen dienen.

👥 Für wen ist dieser Artikel?

Dieser Beitrag richtet sich an HR-Verantwortliche und Personalentwickler, die KI-Risikoeinschätzungen für Stellenplanung nutzen, an Führungskräfte und Entscheider, die mit KI-generierten Jobgefährdungsanalysen konfrontiert werden, sowie an Beschäftigte in akademischen Berufen, die einschätzen möchten, wie stark ihre Tätigkeit von KI-Automatisierung betroffen sein könnte.

Welche Berufe werden durch Künstliche Intelligenz am stärksten verdrängt? Diese Frage beschäftigt Unternehmen, Bildungseinrichtungen und politische Entscheider seit Jahren. Eine neue Studie liefert eine überraschende Antwort: Es kommt darauf an, wen man fragt – und zwar ob man ChatGPT, Gemini oder Claude befragt. Ökonominnen der Northwestern University und der American University haben genau das getan, und ihre Erkenntnisse sollten jeden aufhorchen lassen, der KI-Risikobewertungen als verlässliche Planungsgrundlage verwendet.

Die Studie: Drei Modelle, drei Meinungen

Michelle Yin und Hoa Vu von der Northwestern University sowie Claudia Persico von der American University haben in einem NBER-Working-Paper untersucht, wie drei führende KI-Systeme Berufe nach ihrer Exposition gegenüber KI-Automatisierung einordnen: OpenAIs ChatGPT-5, Googles Gemini 2.5 und Anthropics Claude 4.5. Jedes Modell wurde systematisch befragt, welche Berufsgruppen besonders stark durch KI gefährdet sind – auf Basis derselben Datenbasis und derselben Aufgabenstruktur. Das Ergebnis: Die Einschätzungen weichen teils erheblich voneinander ab.

Das ist kein Randproblem. Derartige Expositionsscores werden zunehmend von Regierungen, Arbeitgebern und Bildungsträgern genutzt, um strategische Entscheidungen zu treffen – von Förderprogrammen über Umschulungsmaßnahmen bis hin zu Einstellungsstopps in bestimmten Berufsbereichen. Wenn die zugrundeliegenden KI-Einschätzungen selbst stark voneinander abweichen, ist die Grundlage dieser Entscheidungen fragwürdig.

Buchhalter, CEOs, Werbeleiter: Konkrete Diskrepanzen

Ein besonders prägnantes Beispiel aus der Studie: Claude stufte Buchhalter als hochgradig gefährdet durch KI-Automatisierung ein – Gemini hingegen bewertet denselben Beruf deutlich niedriger. Ähnlich ausgeprägte Diskrepanzen zeigten sich bei Werbeanzeigenmanagern und Vorstandsvorsitzenden. Gerade bei Führungstätigkeiten und Berufen mit gemischten kognitiven und körperlichen Aufgaben – etwa in der Fertigung, im Gesundheitswesen oder im Außendienst – gehen die Einschätzungen der Modelle besonders weit auseinander.

⚠️ Methodischer Hinweis

ChatGPT und Gemini lagen in ihren Bewertungen häufiger nahe beieinander als Claude – dennoch wichen auch sie in rund einem Viertel aller Bewertungen voneinander ab. Die Forscher vermuten, dass die unterschiedlichen Trainingsdaten der Modelle entscheidend dafür sind, wie stark einzelne Berufsbilder mit KI-Nutzung assoziiert werden – und damit, wie hoch sie deren Automatisierungsrisiko einschätzen.

Warum KI-Modelle unterschiedlich urteilen

Die Abweichungen sind kein Zufall, sondern systemisch bedingt. KI-Sprachmodelle lernen aus den Texten, die im Internet verfügbar sind – und diese Texte spiegeln wider, wie über Berufe im Zusammenhang mit Künstlicher Intelligenz geschrieben wird. Berufsgruppen wie Finanzanalysten oder Softwareentwickler tauchen häufig in Artikeln über KI-Adoption auf; das könnte dazu führen, dass neuere Modellgenerationen diese Berufe höher in ihrer Exposition einschätzen, weil sie stärker in den KI-bezogenen Trainingsdaten vertreten sind.

Es entsteht damit ein potenziell selbstverstärkender Kreislauf: Je mehr ein Beruf im Kontext von KI diskutiert wird – sei es durch Studien, Medienberichte oder Unternehmensstrategien –, desto höher könnte er von KI-Modellen als gefährdet eingestuft werden. Für Berufsgruppen, die bisher weniger in der öffentlichen KI-Debatte präsent sind, könnte das Automatisierungsrisiko dagegen systematisch unterschätzt werden.

Was das für Unternehmen im DACH-Raum bedeutet

Im deutschsprachigen Raum setzen HR-Abteilungen, Betriebsräte und Personalplanungsteams zunehmend auf KI-gestützte Risikoanalysen. Manche Unternehmen nutzen Expositionsindizes zur strategischen Personalplanung – etwa um zu entscheiden, in welchen Bereichen Weiterbildungsmaßnahmen priorisiert werden oder wo mittelfristig Stellenabbau erwartet wird. Die NBER-Studie mahnt hier zur Vorsicht.

🚨 Risiko für die Praxis

  • Einseitige Modellabhängigkeit: Wer nur ein KI-Modell für Jobrisikobewertungen nutzt, erhält möglicherweise ein verzerrtes Bild – mit realen Folgen für Betroffene.
  • Fehlende Transparenz: Die meisten KI-generierten Expositionsscores liefern keine Methodenerklärung. Welche Daten, welche Trainingszeiträume, welche Gewichtungen?
  • BetrVG-Relevanz: Nach §87 BetrVG haben Betriebsräte ein Mitbestimmungsrecht bei technischen Überwachungsmaßnahmen. KI-basierte Personalplanung sollte im Mitbestimmungsdialog transparent gemacht werden.

Was Forschung und Praxis wirklich zeigen

Die NBER-Studie steht nicht allein. Ergänzende Forschung – darunter der Anthropic Economic Index, der auf der Analyse von Millionen realer KI-Interaktionen basiert – zeigt, dass KI in rund 78 Prozent der Fälle als Augmentierungswerkzeug genutzt wird, nicht als direkter Ersatz für menschliche Arbeit. Auch die IAB-Studie zum deutschen Arbeitsmarkt kommt zu einem differenzierten Bild: Zwar sind rund 1,6 Millionen Arbeitsplätze vom Strukturwandel betroffen, die Gesamtbeschäftigung bleibt jedoch langfristig stabil – wenn auch mit erheblichen Verschiebungen zwischen Berufsfeldern.

Hochqualifizierte, nicht-routinemäßige Tätigkeiten in Büroberufen – Buchhaltung, Controlling, juristische Sachbearbeitung – gelten als besonders exponiert, weil Sprachmodelle hier unmittelbar auf dem Kerngeschäft dieser Berufe operieren können. Körperlich-kognitive Mischberufe dagegen sind schwerer zu automatisieren, weil sie Situationswahrnehmung, Feinmotorik und soziale Interaktion kombinieren, die heutige KI-Systeme noch nicht zuverlässig abbilden können.

Ensemble statt Einzelmessung: Die methodische Konsequenz

Eine komplementäre Studie – veröffentlicht in den Proceedings of the National Academy of Sciences – zeigt, dass einzelne KI-Expositionsmodelle schlechte Prädiktoren für tatsächliches Arbeitslosigkeitsrisiko sind. Erst ein Ensemble-Ansatz, der mehrere Modelle und Messmethoden kombiniert, liefert Ergebnisse mit substanziellem Erklärungswert: rund 18 Prozent mehr erklärte Varianz gegenüber einem Basismodell. Das entspricht dem methodischen Rat der NBER-Forscher: Nicht ein einzelnes Modell, sondern mehrere unabhängige Quellen kombinieren.

✅ Empfehlungen für die Praxis

  • Mehrere Quellen kombinieren: Nutzen Sie mindestens zwei verschiedene Expositionsindizes (z. B. O*NET-basierte Scores, Anthropic Economic Index, ISCO-Bewertungen) und vergleichen Sie deren Ergebnisse.
  • Tätigkeitsanalyse vor Berufsanalyse: Statt ganze Berufe abzuschreiben, analysieren Sie einzelne Aufgaben im Stellenprofil. Welche konkreten Tasks können KI-Systeme heute zuverlässig übernehmen?
  • Transparenz gegenüber Betriebsrat sicherstellen: Legen Sie offen, welche Datengrundlage und welches Modell für interne Risikoeinschätzungen verwendet wird.
  • Regelmäßige Aktualisierung: KI-Fähigkeiten entwickeln sich schnell. Einmalige Expositionsscores aus 2023 oder 2024 können heute bereits überholt sein.
  • Mitarbeitende einbinden: Die beste Kenntnis über tatsächliche Tätigkeitsinhalte haben die Beschäftigten selbst – strukturierte Tätigkeitsworkshops ergänzen externe Indizes sinnvoll.

FAQ: KI-Jobrisiken und ihre Einschätzung

Welche Berufe sind laut KI-Modellen am stärksten durch Automatisierung gefährdet?
Kurz: Die Einschätzungen variieren je nach Modell erheblich. Konsistent als exponiert gelten Büro- und Verwaltungsberufe wie Sachbearbeitung und Dateneingabe. Buchhaltung, juristische Routinearbeit und standardisierte Finanzanalyse gelten ebenfalls als gefährdet – allerdings mit signifikanten Unterschieden je nach verwendetem KI-Modell.

Warum sind sich ChatGPT, Gemini und Claude bei der Jobgefährdung uneinig?
Kurz: Jedes Modell wurde mit unterschiedlichen Daten trainiert und gewichtet Informationen anders. Berufe, die häufig im Kontext von KI-Nutzung diskutiert werden, erscheinen in den Trainingsdaten stärker mit Automatisierung assoziiert – und werden daher höher eingestuft.

Wie sollten Unternehmen KI-Expositionsscores für die Personalplanung nutzen?
Kurz: Als Orientierungshilfe, nicht als Entscheidungsgrundlage. Die NBER-Forscherin Michelle Yin empfiehlt explizit, keine einzelne Kennzahl für weitreichende Karriere- oder Bildungsentscheidungen zu verwenden. Mehrere Quellen kombinieren und mit tätigkeitsbasierter Analyse ergänzen.

Sind Berufe mit hohem KI-Expositionsscore zwangsläufig in Gefahr?
Kurz: Nein. Technisches Substitutionspotenzial führt nicht automatisch zu Jobverlusten. Die IAB-Forschung zeigt: Hohe Substituierbarkeit hat historisch eher zu verlangsamtem Beschäftigungswachstum geführt als zu tatsächlichem Stellenabbau – zumindest kurzfristig.

Fazit: Mehr Demut bei KI-Risikoeinschätzungen

Die NBER-Studie von Yin, Vu und Persico liefert ein wichtiges Korrektiv für eine zunehmend selbstgewisse Debatte. Wenn die leistungsfähigsten KI-Modelle selbst erheblich darin abweichen, welche Berufe sie als gefährdet einschätzen, sollte das jeden pausieren lassen, der auf Basis solcher Einschätzungen strategische Weichen stellt. Das gilt besonders für den DACH-Raum, wo Mitbestimmungsrechte und arbeitsrechtliche Anforderungen eine besonders hohe Evidenzqualität bei beschäftigungspolitischen Entscheidungen verlangen.

KI-Expositionsscores sind nützliche Werkzeuge – aber eben Werkzeuge, keine Orakel. Der methodisch sauberste Ansatz kombiniert mehrere Modelle, ergänzt sie um tätigkeitsbezogene Bestandsaufnahmen und bindet Beschäftigte sowie Betriebsräte frühzeitig in den Prozess ein. Wer das beherzigt, trifft bessere Entscheidungen – und vermeidet, scheinbar präzise KI-Vorhersagen als Rechtfertigung für weitreichende Personalentscheidungen zu missbrauchen.

📬 KI-Entwicklungen direkt in Ihr Postfach

Abonnieren Sie den ai-fabrik Newsletter und erhalten Sie wöchentlich die wichtigsten KI-News für Unternehmen im DACH-Raum – praxisnah, unabhängig, ohne Vendor-Bias.

Quellen

  • Michelle Yin, Hoa Vu, Claudia Persico: NBER Working Paper (2026) – Vergleich von ChatGPT-5, Gemini 2.5 und Claude 4.5 bei der Einschätzung beruflicher KI-Exposition. Berichtet u. a. von Business Today und NewsBytes (11. Mai 2026).
  • AI exposure predicts unemployment risk – NCBI/PMC: ncbi.nlm.nih.gov
  • Anthropic Economic Index (756 Berufe, 17.998 Aufgaben): anthropic.com
  • IAB-Forschungsbericht 23/2025: ai-fabrik.com
Teile es