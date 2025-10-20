EQS-News: EQS Group GmbH / Schlagwort(e): Studie

KI in der Compliance: Substanz statt Hype – neueste Modelle zeigen messbare Fortschritte



20.10.2025

Neuer Benchmark der EQS Group und des BCM evaluiert sechs führende KI-Modelle in 120 realen Anwendungsszenarien

München – 20. Oktober 2025

Künstliche Intelligenz hält zunehmend Einzug in Unternehmensprozesse – doch nicht alle Modelle liefern gleich gute Ergebnisse. Um zu bewerten, ob KI den Anforderungen in der Compliance-Praxis gewachsen ist, hat die EQS Group gemeinsam mit dem Berufsverband der Compliance Manager e.V. (BCM) sechs führende Modelle in 120 praxisnahen Anwendungsszenarien getestet – von Risikoanalysen und der Bewertung von Interessenkonflikten bis hin zu Third-Party-Screenings. Das Ergebnis: Für strukturierte Aufgaben wie Klassifizierung oder Entscheidungsfindung liefert KI Ergebnisse mit sehr hoher Genauigkeit von über 95Prozent. Bei komplexeren oder mehrdeutigen Aufgabenstellungen sinkt die Präzision jedoch deutlich. Außerdem macht der Benchmark deutlich, wie rasant sich die Technologie entwickelt: KI-Modelle aus 2025 schneiden signifikant besser ab als solche aus dem Jahr zuvor.

„Für viele Compliance-Verantwortliche ist KI noch weitgehend unbekanntes Terrain“, sagt Moritz Homann, Director Product Innovation und AI bei der EQS Group. „Zu verstehen, wie man KI sinnvoll einsetzt und wo man ihr vertrauen kann, ist nicht einfach – vor allem in einem so sensiblen Bereich wie Compliance, in dem Genauigkeit, Integrität und Rechenschaftspflicht nicht verhandelbar sind.“

„KI kann den Compliance-Beruf auf ein neues Niveau heben. Unsere Verantwortung liegt darin, ihre Anwendung klaren ethischen und rechtlichen Standards zu unterwerfen“, sagt Dr. Gisa Ortwein, Präsidentin des BCM. „Studien wie diese helfen uns, den KI-Hype von der Realität zu trennen – und dort, wo es notwendig ist, den Menschen in den Mittelpunkt zu stellen. So bleibt Integrität der Maßstab für Fortschritt.“

Der EQS AI Benchmark ist die erste Studie, die KI-Performance spezifisch im Compliance-Bereich untersucht – anhand von Aufgaben aus dem Arbeitsalltag von Compliance-Verantwortlichen. Bewertet wurden Genauigkeit, Zuverlässigkeit und praktischer Nutzen, unterteilt nach Aufgabenstruktur: strukturiert, teilstrukturiert oder offen.

Neue Modelle übertreffen Vorgängerversionen deutlich

Die Ergebnisse zeigen, dass sich die Leistung von KI-Modellen in rasantem Tempo weiterentwickelt. Google Gemini 2.5 Pro erreichte mit 86,7 Prozent die höchste Gesamtwertung und überzeugte in allen Aufgabenkategorien. Knapp dahinter lag GPT-5 von OpenAI (seit August 2025 das Standardmodell in ChatGPT) mit 86,5 Prozent – ein Zeichen dafür, dass sich die derzeit besten Modelle in ihrer Leistungsfähigkeit zunehmend annähern. GPT-5 zeigte besondere Stärke bei kreativen Text-Aufgaben, während Gemini bei komplexeren Analyse- und Entscheidungsaufgaben vorne lag.

OpenAI o3 erreichte 83,3 Prozent – und veranschaulicht damit den Fortschritt von GPT-5 gegenüber seinen Vorgängerversionen. Claude Opus 4.1 von Anthropic erzielte 81,5 Prozent, schnitt aber bei strukturierten und analytischen Aufgaben unterdurchschnittlich ab. GPT-4o (72,9 Prozent) und Mistral Large 2 (70,1 Prozent) belegten die letzten Plätze, was ebenfalls die technologische Entwicklung zwischen 2024 und 2025 unterstreicht.

KI in der Compliance-Praxis überzeugt bei klaren Strukturen, stößt bei Nuancen aber an Grenzen

Insgesamt performten alle Modelle besonders stark bei strukturierten Aufgaben mit klaren Regeln. So erreichten sie bei Entscheidungsaufgaben auf Basis definierter Regelwerke im Durchschnitt 90,8 Prozent. Beim Abgleich von Datensätzen lag der Durchschnitt bei 91,8 Prozent – vier von sechs Modellen kamen hier auf über 95 Prozent.

Deutlich stärker unterschied sich die Leistung der KI-Modelle bei komplexeren Analysen: Im Bereich Datenanalyse lag die Differenz zwischen dem besten und dem schlechtesten Modell bei 60 Prozentpunkten – Gemini 2.5 Pro erreichte hier 88 Prozent, GPT-5 nur 62 Prozent, GPT-4o lediglich 28 Prozent.

Offene Aufgaben – etwa das Erstellen von Managementbriefings oder Berichten zu internen Untersuchungen – bleiben selbst für die neuesten KI-Modelle eine Herausforderung. Hier erzielte GPT-5 als bestes Modell 67,4 Prozent. Die Bewertung dieser Aufgaben erfolgte durch eine menschliche Fachjury.

„Einige Aufgaben mit hoher Tragweite würden Compliance-Verantwortliche der KI nicht vollständig überlassen – und das ist auch richtig so“, betont Moritz Homann. „KI ist kein Ersatz für menschliches Urteilsvermögen, sondern ein Multiplikator. Sie kann Routinearbeiten übernehmen und so wertvolle Zeit sparen – damit Compliance-Fachleute sich auf die wirklich kritischen Entscheidungen konzentrieren können.“

Hohe Konsistenz und niedrige Halluzinationsrate

Der Benchmark prüfte auch die Verlässlichkeit der KI-Modelle, indem Multiple-Choice-Aufgaben dreimal wiederholt wurden. Das Ergebnis: In über 95 Prozent der Fälle lieferten die Modelle konsistente Antworten. Halluzinationen – also sachlich falsche Antworten – traten nur in drei Fällen auf, was einer Rate von 0,71 Prozent entspricht. Das zeigt: Bei klarer Aufgabenstellung und streng definiertem Kontext sind heutige Modelle in Compliance-Szenarien in der Lage, stabile und faktenbasierte Ergebnisse zu liefern. Da Halluzinationen jedoch nicht gänzlich auszuschließen sind, bleibt eine Prüfung der Antworten durch menschliche Expertise – gerade bei kritischen Inhalten mit regulatorischem Bezug – unabdingbar.

Modell-Auswahl und Prompt-Design sind entscheidend für die Qualität der Ergebnisse

Die Ergebnisse verdeutlichen außerdem, wie stark die Qualität der Antworten vom Prompting abhängt. Beispielsweise sollten die Modelle Hinweise auf mögliche Risiken in Screening-Daten erkennen. Je nachdem, wie konkret die Fragestellung formuliert war – z.B. ob verbundene Unternehmen mit einbezogen oder die Schwere der Vorwürfe gewichtet werden sollten – unterschieden sich die Ergebnisse deutlich. Die neuesten Modelle – GPT-5 und Gemini 2.5 Pro – waren in der Lage, komplexe Anweisungen besser umzusetzen und strukturierte Antworten zu liefern. Das ist ein klarer Vorteil für Compliance-Teams, die mit umfangreichen Daten und differenzierten Regelwerken arbeiten.

Moritz Homann: „KI ist die neue Realität – und wie wir sie heute implementieren und nutzen, wird ihre zukünftige Rolle in der Compliance prägen. Compliance-Teams sollten KI nicht nur regulieren, sondern selbst aktiv einsetzen. Nur durch den eigenen Umgang entstehen Verständnis, die richtigen Fragestellungen und das notwendige Vertrauen. Mit diesem Benchmark möchten wir durch praktische Hilfestellung, Transparenz und Austausch Orientierung bieten.“

Der vollständige Benchmark steht hier zum Download bereit: https://www.eqs.com/compliance-wpapers/ai-performance-compliance-ethics-eqs/

Methodik

Für den EQS AI Benchmark Report wurden sechs große Sprachmodelle – OpenAI GPT-5, GPT-4o und o3, Google Gemini 2.5 Pro, Anthropic Claude Opus 4.1 sowie Mistral Large 2 – in 120 Aufgaben aus zehn Kernbereichen der Compliance getestet. Zu diesen Aufgaben zählten unter anderem Risikoanalysen, die Auswertung von Whistleblowing-Meldungen, die Evaluation von Trainings, Richtlinienanalysen und regulatorische Gap-Analysen.

Die Aufgaben wurden unter Mitwirkung von Compliance-Praktiker:innen entwickelt und basieren auf realen oder synthetischen Inhalten wie HR-Daten, Trainings-Ergebnissen oder Policy-Texten. Einige Aufgaben hatten eine objektiv richtige Lösung, andere erforderten eine subjektive Bewertung. Offene Aufgaben wurden in Zusammenarbeit mit dem BCM und dessen Mitgliedern durch Fachjurys bewertet.

