Microsoft Researcher: Multi-Modell-KI für tiefe Recherche

Microsoft Researcher: Multi-Modell-KI für tiefe Recherche

Table of Contents

Dieser Artikel wurde mit Künstlicher Intelligenz erstellt und redaktionell kuratiert.

🗓️ In 30 Sekunden – das Wichtigste für CIOs und CCOs im DACH-Raum

  • Was neu ist: Microsoft Researcher – der Deep-Research-Agent in M365 Copilot – erhält zwei neue Multi-Modell-Funktionen: Critique (Zwei-Modell-Architektur für höhere Berichtsqualität) und Council (parallele Berichte mehrerer Modelle mit Vergleichssynthese)
  • Modelle: Beide Funktionen kombinieren Modelle von Anthropic und OpenAI – Researcher nutzt damit erstmals Frontier-Modelle mehrerer Anbieter gleichzeitig
  • Benchmark: Critique erzielt laut Microsoft +7,0 Punkte im DRACO-Benchmark – entspricht in der Praxis lückenloserer Quellenabdeckung und weniger unbelegten Behauptungen im Abschlussbericht
  • Verfügbarkeit: Critique und Council sind ab sofort im Frontier-Programm von Microsoft 365 Copilot verfügbar
  • DACH-Relevanz: Anthropic ist nicht Teil der EU Data Boundary von Microsoft – für EU/UK-Tenants ist ein expliziter Admin-Opt-in erforderlich, bevor Critique oder Council aktiviert werden können

Wie gut muss eine KI-gestützte Recherche sein, damit Unternehmen ihr tatsächlich strategische Entscheidungen anvertrauen? Diese Frage steht hinter Microsofts heutigem Update für Researcher – den Deep-Research-Agenten innerhalb von Microsoft 365 Copilot. Bislang arbeitete Researcher mit einem einzigen Modell: planen, suchen, synthetisieren, schreiben – alles in einer Hand. Ab heute ändert sich das. Mit Critique und Council führt Microsoft zwei Architekturen ein, die mehrere KI-Modelle verschiedener Anbieter kombinieren – darunter Modelle von Anthropic und OpenAI. Das ist ein architekturelles Umdenken mit messbaren Auswirkungen auf Qualität, Genauigkeit und Zuverlässigkeit.

Was ist Researcher – und warum ist das Update relevant?

Researcher ist der spezialisierte Deep-Research-Agent in Microsoft 365 Copilot. Im Gegensatz zu einfachen Chat-Anfragen führt Researcher mehrstufige Rechercheaufgaben durch: Er plant die Recherche, iteriert durch verschiedene Quellen, synthetisiert Ergebnisse und erstellt strukturierte Berichte. Das Tool ist primär für Wissensarbeiter konzipiert, die komplexe Marktanalysen, technische Bewertungen oder strategische Recherchen direkt im Arbeitsfluss durchführen wollen – ohne die Microsoft-365-Umgebung zu verlassen.

Das bisherige Problem: Einzelmodell-Systeme haben strukturelle Schwächen. Ein Modell, das gleichzeitig für Planung, Recherche und Formulierung verantwortlich ist, kann eigene blinde Flecken nicht erkennen. Schwache Belege werden möglicherweise nicht hinterfragt, Lücken in der Analyse bleiben unbemerkt. Genau diese Schwäche adressiert Microsoft mit der heutigen Ankündigung.

Critique: Zwei-Modell-Architektur mit Generierung und Prüfung

Critique ist das neue Standard-Rechercheverfahren in Researcher. Es trennt zwei bisher kombinierte Aufgaben: Ein Modell übernimmt die Generierungsphase – Aufgabenplanung, iterative Quellensuche und Erstellung eines ersten Berichtsentwurfs. Ein zweites Modell fokussiert sich ausschließlich auf Bewertung und Verbesserung: Es prüft den Entwurf, hinterfragt Behauptungen und stärkt Struktur und Formulierungen, bevor der finale Bericht ausgegeben wird. Laut Microsoft stammen die eingesetzten Modelle aus den Labs von Anthropic und OpenAI, wobei die Rollenverteilung je nach Aufgabentyp variiert.

Die Analogie zum akademischen Peer-Review-Prozess ist bewusst gewählt. Critique arbeitet mit einer rubrikbasierten Bewertung – einem strukturierten Prüfrahmen, der sicherstellt, dass der zweite Schritt eine echte inhaltliche Qualitätsprüfung ist, keine Umformulierung. Vier Dimensionen werden laut Microsoft geprüft:

  • Quellenqualität: Bevorzugung verifizierbarer, fachlich angemessener und autoritativer Quellen
  • Vollständigkeit: Prüfung, ob der Bericht das Rechercheziel umfassend beantwortet
  • Evidenzbindung: Jede zentrale Aussage muss mit einer präzisen Quellenangabe verknüpft sein
  • Strukturqualität: Bewertung von Gliederung, Argumentation und Lesbarkeit

Critique ist die neue Standardeinstellung in Researcher und wird aktiviert, wenn im Modell-Picker „Auto" gewählt ist.

DRACO-Benchmark: Was +7 Punkte im Arbeitsalltag bedeuten

Microsoft hat Critique am DRACO-Benchmark gemessen – einem von Forschern bei Perplexity und akademischen Partnern entwickelten Evaluierungsrahmen für Deep Research (Zhong et al., arXiv:2602.11685, Februar 2026). DRACO umfasst 100 komplexe Rechercheaufgaben aus 10 Domänen, die aus realen Nutzungsmustern stammen, und bewertet entlang von vier Dimensionen: faktische Genauigkeit, Analysebreite und -tiefe, Präsentationsqualität sowie Zitierqualität.

Laut Microsoft erzielt Researcher mit Critique einen aggregierten DRACO-Score, der den bisherigen Einzelmodell-Ansatz um +7,0 Punkte übertrifft (statistisch signifikant, gepaarter t-Test, p < 0,0001) – ein Vorsprung von +13,88 % gegenüber Perplexity Deep Research. Die größten Verbesserungen: Analysebreite und -tiefe (+3,33 Punkte), Präsentationsqualität (+3,04 Punkte), faktische Genauigkeit (+2,58 Punkte).

Was das im Alltag bedeutet: Ein Strategiebericht, der bisher zwei unbelegte Kernaussagen enthielt und eine Marktperspektive ausließ, wird mit Critique um eben diese Lücken erweitert und mit Quellenangaben geschlossen – bevor er den Nutzer erreicht. Das reduziert manuelle Nachkorrekturen und erhöht die Robustheit gegenüber kritischen Rückfragen im Board oder Investitionsausschuss. In 8 von 10 Domänen ist die Verbesserung statistisch signifikant; Ausnahmen sind die Domänen Akademisch und Needle-in-a-Haystack (laut Microsoft hohe Varianz).

⚠️ Einordnung: Benchmarks von Microsoft sind Herstellerangaben

Die DRACO-Ergebnisse für Researcher mit Critique wurden von Microsoft selbst durchgeführt – nicht von unabhängigen Dritten. Microsoft verwendet dabei GPT-5.2 als Bewertungsmodell (wie im originalen DRACO-Paper) und beschreibt die Methodik als protokollkonform. Eigene Benchmark-Ergebnisse sind kein Ersatz für unabhängige Reproduktion. Für Unternehmen, die Researcher für strategisch relevante Entscheidungsgrundlagen einsetzen, ist eine eigene Evaluation mit aufgabenspezifischen Testfällen ratsam.

Council: Parallele Modell-Perspektiven im Vergleich

Council ist eine alternative Rechercheoption für Nutzende, die aktiv verschiedene Modellperspektiven nebeneinander sehen wollen. Statt einer sequenziellen Architektur wie bei Critique lässt Council ein Anthropic-Modell und ein OpenAI-Modell parallel und unabhängig voneinander denselben Rechercheauftrag bearbeiten. Jedes Modell erstellt einen vollständigen, eigenständigen Bericht. Ein drittes Modell in der Richterrolle fasst die Erkenntnisse zusammen, benennt Übereinstimmungen und Divergenzen – in Gewichtung, Framing oder Interpretation – und hebt einzigartige Beiträge jedes Modells hervor.

Council ist im Modell-Picker unter „Model Council" erreichbar – eine explizite Wahl, kein Standard. Es eignet sich besonders für Recherchen, bei denen konkurrierende Interpretationen relevant sind: etwa Regulierungsanalysen, bei denen verschiedene analytische Rahmungen zu verschiedenen Handlungsempfehlungen führen, oder strategische Szenarien, bei denen der Vorstand bewusst zwei Perspektiven gegeneinander abwägen möchte – etwa „optimistisches Wachstumsszenario" vs. „konservative Risikoschätzung" für dieselbe Markteintrittsfragestellung.

Vergleich: Critique vs. Council

Kriterium✅ Critique – Standard🔬 Council – Expertenmodus
ArchitekturSequenziell: Generator → ReviewerParallel: Zwei Modelle unabhängig + Richter
ZielHöchste Qualität eines einzelnen BerichtsTransparenz über Modell-Divergenzen
AktivierungStandard bei „Auto" im Modell-PickerExplizite Wahl: „Model Council"
OutputEin verbesserter AbschlussberichtZwei Berichte + Cover Letter mit Vergleich
Ideal fürEntscheidungsvorlagen, Standardanalysen, Board-ReportsKontroverse Themen, Regulierung, Szenario-Analysen
ZeitaufwandLänger als Einzelmodell, ein OutputLänger – zwei vollständige Berichte

Praxisszenarien für Unternehmen im DACH-Raum

Multi-Modell-Recherche lässt sich in konkreten Unternehmenskontexten direkt verorten.

Szenario 1 – Recht und Compliance: Regulierungsanalyse mit Council

Eine Rechtsabteilung analysiert die Auswirkungen des EU AI Acts auf den unternehmensinternen Einsatz automatisierter Entscheidungssysteme. Mit Council erstellen zwei Modelle unabhängige Analysen desselben Sachverhalts – eines mit Fokus auf technische Anforderungen (Art. 9, Risikomanagementsystem), das andere mit Schwerpunkt auf datenschutzrechtliche Implikationen (DSGVO Art. 35, DSFA-Pflicht). Der Cover Letter zeigt, wo beide Modelle übereinstimmen und wo sie divergieren. Das ist eine stärkere Grundlage als eine Einzelanalyse – besonders bei Interpretationsspielräumen, die strategisch relevant sind.

Szenario 2 – Strategie und M&A: Marktanalyse mit Critique

Ein Strategieteam bereitet eine Wettbewerbsanalyse für eine mögliche Akquisition vor. Critique prüft jeden Verweis auf Quellenqualität, markiert unbelegte Behauptungen und schließt Lücken in der Breitenabdeckung. Das Ergebnis ist ein Bericht, der vor Vorstand und Investitionsausschuss standhält – ohne dass das Team jeden Beleg manuell verifizieren muss.

Szenario 3 – HR und Personalentwicklung: Trendanalyse Arbeitsmarkt

Eine HR-Leiterin beauftragt Researcher, aktuelle Trends bei Fachkräftemangel in der IT-Branche im DACH-Raum zu analysieren. Critique stellt sicher, dass der Bericht aktuelle Studien korrekt zitiert und analytische Lücken – etwa fehlende Differenzierung nach Unternehmensgrößen oder Bundesländern – im finalen Report geschlossen werden.

Szenario 4 – Board: Zwei Szenarien für eine Investitionsentscheidung mit Council

Der CFO will vor einer Expansion in einen neuen Markt zwei unterschiedliche Perspektiven einholen. Council liefert zwei vollständige Berichte: Modell A gewichtet Wachstumspotenzial und Marktreife, Modell B gewichtet regulatorische Risiken und Wettbewerbsintensität. Der Cover Letter zeigt auf, wo beide Modelle dieselben Datenpunkte nennen und wo die Gewichtung auseinandergeht – eine direktere Grundlage für eine bewusste Risikoentscheidung als ein einzelner Bericht.

DACH-Einordnung: Was IT-Entscheider und Datenschützer wissen müssen

⚠️ DSGVO und EU Data Boundary: Anthropic-Modelle erfordern Opt-in

Critique und Council nutzen Modelle von Anthropic – und Anthropic ist nicht Teil der EU Data Boundary von Microsoft. In EU/UK-Regionen sind Anthropic-basierte Features standardmäßig deaktiviert; IT-Admins müssen den Zugang explizit im Admin Center aktivieren. Wer Researcher mit Critique oder Council in DACH-Unternehmensumgebungen einsetzen will, sollte prüfen, ob dieser Opt-in mit der eigenen DSGVO-Risikobeurteilung vereinbar ist. Eine Datenschutz-Folgeabschätzung (DSFA) nach Art. 35 DSGVO ist empfehlenswert, sobald vertrauliche Unternehmensdaten Teil der Recherchen sind.

Für Betriebsräte gilt: Researcher analysiert Informationen aus dem Microsoft-365-Ökosystem – je nach Konfiguration inklusive E-Mails, Dokumenten und Teams-Inhalten. Wenn Researcher-Ergebnisse zur Bewertung von Mitarbeiterleistungen oder personalrelevanten Entscheidungen herangezogen werden, kann § 87 Abs. 1 Nr. 6 BetrVG greifen.

Strategische Einordnung: Multi-Modell und Vendor-Lock-in

Microsofts Entscheidung, Frontier-Modelle mehrerer Anbieter in dasselbe Produkt zu integrieren, ist mehr als ein Feature-Update. Sie ist ein Bekenntnis zur Multi-Modell-Strategie – der Überzeugung, dass kein einzelnes Modell in allen Dimensionen optimal ist und dass die Kombination unterschiedlicher Modelle zu besseren Ergebnissen führt. Das passt zur übergeordneten Microsoft-Strategie, die bereits mit Copilot Wave 3 und der Cowork-Architektur auf Anthropic-Modelle setzt.

Gleichzeitig entstehen neue Abhängigkeiten: Researcher mit Critique ist auf das koordinierte Funktionieren zweier Anbieter-Modelle angewiesen. Qualitätsschwankungen oder Preisänderungen bei Anthropic oder OpenAI können die Leistung von Researcher direkt beeinflussen – ohne dass Microsoft-Admins dies direkt steuern können. Wer Researcher für geschäftskritische Entscheidungsgrundlagen einsetzt, sollte diesen doppelten Modell-Abhängigkeitspfad in seine KI-Risikobetrachtung einbeziehen.

Council schafft ein Gegengewicht: Es macht explizit sichtbar, wo Modelle unterschiedlich urteilen – ein Schritt in Richtung erklärbarer KI-Ausgaben, wie der EU AI Act sie für Hochrisikoanwendungen bereits fordert.

So setzen Unternehmen Researcher konkret ein – in 3 Schritten

✅ Checkliste: Anthropic-Opt-in und Pilotstart

  • Schritt 1 – Admin-Opt-in prüfen: Im Microsoft 365 Admin Center unter „Copilot-Einstellungen" prüfen, ob Anthropic-basierte Features für den EU/UK-Tenant aktiviert sind. Ohne diesen Schritt bleiben Critique und Council auch im Frontier-Programm ohne Funktion. Datenschutzkonzept und DSFA vor der Aktivierung abstimmen.
  • Schritt 2 – Pilotgruppe definieren: Researcher mit Critique zuerst in einer abgeschlossenen Gruppe von 5–10 Wissensarbeitern testen – idealerweise mit inhaltlich anspruchsvollen, aber nicht hochvertraulichen Rechercheaufgaben. Als Qualitätskriterium empfehlen sich Belegdichte, Vollständigkeit und Zitierqualität im Vergleich zu bisherigen Berichten.
  • Schritt 3 – Interne Evaluation: 5–10 eigene, bereichsspezifische Research-Cases (z.B. Marktanalyse, Regulierungsübersicht, Wettbewerbsprofil) mit Critique und – wo inhaltliche Meinungsverschiedenheiten relevant sind – mit Council testen. Ergebnisse gegenüber bisherigen manuellen Reports bewerten und Zeiteinsparung dokumentieren.

Verfügbarkeit

Critique und Council sind ab heute (30. März 2026) im Microsoft 365 Copilot Frontier-Programm breit verfügbar. Critique ist die Standardoption bei „Auto" im Modell-Picker, Council unter „Model Council" erreichbar. Beide Funktionen erfordern eine aktive M365 Copilot-Lizenz sowie – für DACH-Nutzer – den expliziten Admin-Opt-in für Anthropic-Features im EU-Tenant.

✅ Fazit: Qualitätssprung mit Caveat

Critique und Council adressieren ein reales strukturelles Problem von Einzelmodell-Systemen. Die DRACO-Benchmark-Ergebnisse sind vielversprechend, stammen aber aus eigener Quelle. Für DACH-Unternehmen gilt: Wer Researcher für strategische Recherchen einsetzt, profitiert von höherer Belegqualität und analytischer Tiefe. Datenschutzverantwortliche sollten den Anthropic-Opt-in-Prozess vor dem Einsatz prüfen. Der Einsatz für personalrelevante Analysen sollte mit dem Betriebsrat abgestimmt sein. Der doppelte Modell-Abhängigkeitspfad (Anthropic + OpenAI) sollte in die KI-Risikobetrachtung einfließen.

Häufige Fragen

Muss ich etwas tun, um Critique zu aktivieren?

Für EU/UK-Tenants ja: Der IT-Admin muss Anthropic-Features im Microsoft 365 Admin Center explizit aktivieren, da Anthropic nicht zur EU Data Boundary von Microsoft gehört. Nach der Aktivierung ist Critique die Standardoption bei „Auto" im Modell-Picker.

Was kostet Researcher mit Critique und Council zusätzlich?

Researcher ist Bestandteil der Microsoft 365 Copilot-Lizenz. Critique und Council sind keine separaten Add-ons, sondern neue Optionen innerhalb des bestehenden Features. Für Nutzer im Frontier-Programm sind beide ohne Aufpreis zugänglich.

Ist Researcher für hochregulierte Branchen geeignet?

Mit Einschränkungen. Banken, Versicherungen und Gesundheitsdienstleister können Researcher für interne Recherchen einsetzen – unter der Voraussetzung, dass keine hochvertraulichen oder personenbezogenen Daten Teil der Rechercheaufgaben sind, bevor DSFA und Governance-Rahmen stehen. Der Anthropic-Opt-in für EU-Tenants muss explizit mit dem Datenschutzbeauftragten abgestimmt sein. Für Anwendungen, die unter den Hochrisikokategorien des EU AI Acts fallen (z.B. Kreditentscheidungen, Personalauswahl), reicht Researcher als alleinige Grundlage nicht aus – hier sind zusätzliche Konformitätsbewertungen erforderlich.

Wie unterscheidet sich Researcher von Perplexity Deep Research?

Researcher ist in Microsoft 365 eingebettet und kann auf unternehmenseigene Daten aus SharePoint, Teams und Outlook zugreifen – Perplexity Deep Research recherchiert ausschließlich im offenen Web. Für unternehmensinternes Wissensmanagement hat Researcher einen strukturellen Vorteil. Für rein webbasierte Recherchen sind die Systeme direkter vergleichbar. Mehr dazu: Perplexity Deep Research: KI-Recherche für Pro und Max →

Quellen

Teile es