Neue TELUS Digital-Studie deckt Sicherheitsrisiken bei GenAI auf

Berlin, 02. Juni 2026 – TELUS Digital, globaler Anbieter für KI-gestützte Customer Experience und digitale Transformation, hat heute den GenAI Safety Model Benchmark veröffentlicht. Die Studie basiert auf mehr als 620.000 Angriffssimulationen gegen 34 führende KI-Modelle und ist die bislang umfangreichste Untersuchung dieser Art aus dem Haus TELUS Digital.

Die Ergebnisse fallen in eine sensible Phase: Mit dem EU AI Act greifen in Europa seit 2025 die ersten verpflichtenden Vorgaben für den sicheren Einsatz von KI in Unternehmen – die regulatorischen Anforderungen an Unternehmen steigen damit deutlich. Gleichzeitig zeigt der Benchmark, dass selbst etablierte KI-Modelle sich mit den richtigen Techniken zu unsicherem Verhalten bewegen lassen. Einige der getesteten Modelle reagierten in mehr als 90 Prozent der Fälle auf schädliche Anfragen.

Die gute Nachricht: Es gibt einen klaren Weg nach vorn. Sicherheitsrisiken lassen sich deutlich reduzieren, wenn KI-Systeme im Maßstab getestet werden – kontinuierlich, automatisiert und mit menschlicher Aufsicht.

Zweite Auflage mit deutlich größerem Umfang

Es ist die zweite Ausgabe des GenAI Safety Model Benchmarks. Die erste erschien im November 2025 und untersuchte 24 Modelle von fünf US-Anbietern. Die neue Auflage hat den Umfang fast verdoppelt: 34 Modelle von 10 Anbietern aus Nordamerika, Europa und China – darunter Claude (Anthropic), GPT (OpenAI), Gemini (Google), LLaMA (Meta), Qwen (Alibaba), ERNIE (Baidu), Seed (ByteDance), GLM (Zhipu AI), Yi (01.AI) und Mistral (Mistral). Die Zahl getesteter Open-Source-Modelle stieg von zwei auf vierzehn.

„Das eigentliche Risiko ist nicht, dass KI-Modelle Schwachstellen haben. Das Risiko ist, dass die meisten Unternehmen nicht wissen, welche Schwachstellen für sie relevant sind“, sagt Bret Kinsella, General Manager und Senior Vice President von Fuel iX bei TELUS Digital. „Wir haben Modelle gesehen, die einen Angriff neunmal abwehren – und beim zehnten Mal scheitern. Andere stoppen Angriffe zuverlässig bei bestimmten Themen und versagen bei anderen komplett. Das liegt in der Natur probabilistischer Systeme: KI antwortet nicht jedes Mal gleich. Ein einzelner Sicherheitstest sagt deshalb so gut wie nichts aus.“

Hinzu komme, so Kinsella, dass das Risiko mit der Wahl des Modells nicht endet: „Schon kleine Änderungen an Konfiguration, Datenquellen oder Tool-Anbindungen können das Verhalten eines Systems verändern – und damit auch dessen Sicherheitsprofil. Unternehmen müssen weg von der einmaligen Prüfung zum Launch und hin zu kontinuierlichem Testen. Sonst lassen sie Risiken offen, die vermeidbar wären.“

Was Entscheider über KI-Sicherheit wissen sollten

Kein getestetes Modell war vollständig immun gegen Angriffe. Die Verwundbarkeitsraten lagen zwischen 1,3 und 93 Prozent – je niedriger, desto sicherer. Zehn Modelle blieben unter 5 Prozent, fünf davon waren Claude-Modelle von Anthropic, inklusive des sichersten Modells der Studie. Aber auch diese zeigten Schwächen. Und im Enterprise-Umfeld, wo es um Geld, Gesundheit oder Reputation geht, sind selbst einstellige Fehlerquoten nur selten akzeptabel.

Drei strukturelle Faktoren erwiesen sich als zuverlässige Indikatoren für Sicherheit: die Art, wie ein Modell denkt, seine Größe und der Ansatz des Entwickler-Teams. Die wichtigsten Befunde im Überblick:

  • Neuere Modelle sind tendenziell robuster.Mit jeder neuen Generation steigt das Sicherheitsniveau – aber nicht garantiert. Einige Hochleistungsmodelle schnitten schlechter ab als ihre Vorgänger.
  • Open Source ist nicht automatisch unsicherer.Im Schnitt waren offene Modelle anfälliger als proprietäre, aber die Quelle eines Modells ist nicht der entscheidende Faktor. GLM 4.7 von Zhipu AI, ein großes Open-Source-Modell, übertraf viele proprietäre Alternativen.
  • Modellgröße ist relevant.Über alle getesteten Modelle hinweg waren kleinere Varianten anfälliger. Größe allein garantiert aber keine Sicherheit: OpenAI zeigte mit Werten zwischen 9,7 und 65,7 Prozent die größte Spannweite – weil einige Modelle bewusst Flexibilität über strikte Schutzmechanismen stellen.
  • Reasoning-Modelle sind deutlich schwerer auszunutzen.Modelle, die ihre Antwort durchdenken, bevor sie antworten, waren mit 19,9 Prozent Verwundbarkeitsrate signifikant sicherer als Modelle ohne diesen Schritt (55,1 Prozent).
  • Geografie spielt keine Rolle.Wo ein Modell entwickelt wurde, ist kein verlässlicher Indikator für Sicherheit. Bei vergleichbarer Größe schnitten Modelle aus Nordamerika, Europa und China ähnlich ab.
  • Datenschutz und Betrug sind die größten Schwachstellen.Während Modelle bei Themen wie politischer Manipulation Fortschritte zeigen, bleiben Privacy-Angriffe, Betrug und Cybersecurity-Bedrohungen problematisch – selbst bei den Top-Performern.

Besondere Aufmerksamkeit verdient ein Muster, das die Forscher „refuse-but-engage“ nennen: Ein Modell lehnt eine schädliche Anfrage zunächst ab, liefert dann aber verwandte Informationen, die missbraucht werden können. Im Benchmark wurde das als Versagen gewertet – eine sichere Ablehnung muss konsequent sein.

Wie wurde getestet?

Die meisten KI-Sicherheits-Benchmarks testen Modelle isoliert. In der Praxis sind KI-Modelle aber in Anwendungen eingebettet – etwa in einen Kundenservice-Chatbot oder einen Banking-Assistenten – und das verändert ihr Verhalten. Der GenAI Safety Model Benchmark wurde so konzipiert, dass er diese Realität abbildet: Alle 34 Modelle erhielten die Rolle eines KI-Assistenten einer Bank, mit klaren Vorgaben, welche Themen sie behandeln durften und welche nicht.

Die Angriffe stammen aus dem Fortify-Framework von TELUS Digital, das ein eigens trainiertes KI-Modell zur Generierung adversarialer Prompts einsetzt – mit Fokus auf sicherheitskritische Themen von Datenexfiltration über unangemessene Anweisungen bis zu Selbstverletzung, Diskriminierung und Terrorismus.

Was Unternehmen jetzt tun sollten

Die Ergebnisse zeigen klar: Investitionen in KI-Sicherheit zahlen sich aus. Trotzdem klafft eine enorme Lücke zwischen dem, was Unternehmen für KI ausgeben, und dem, was sie in deren Absicherung investieren. Die weltweiten KI-Ausgaben werden 2026 voraussichtlich 2,52 Billionen US-Dollar erreichen – aber nur 3,43 Milliarden US-Dollar fließen in AI Trust, Risk und Security Management. Auf 735 US-Dollar für KI-Fähigkeiten kommt also rund 1 US-Dollar für Sicherheit. Gleichzeitig berichten 86 Prozent der Unternehmen, bereits einen KI-bezogenen Sicherheitsvorfall erlebt zu haben – und sowohl in der EU als auch in den USA sind verbindliche KI-Sicherheitsregeln inzwischen in Kraft.

Der Benchmark zeigt, wie Unternehmen ihre Sicherheits-Strategie weiterentwickeln sollten: weg vom Vertrauen auf die Schutzmechanismen der Modell-Anbieter, hin zu mehrstufigen Verteidigungslinien. Dazu gehören das Modell selbst, Guardrails, präzise System-Prompts und saubere Datensätze, die KI-Anwendungen auf beiden Seiten der Konversation absichern. Vor Eingang einer Nutzeranfrage helfen Prompt-Shielding und das Maskieren personenbezogener Daten gegen direkte Angriffe. Vor der Ausgabe sollte die Antwort auf Toxizität und unangemessene Inhalte geprüft werden.

Genauso wichtig: Sicherheitstests selbst müssen sich weiterentwickeln – weg von manuellen, einmaligen oder periodischen Prüfungen, hin zu automatisiertem Testen, das in Entwickler-Workflows integriert ist. Nur so lassen sich Tests im Maßstab durchführen, Regressionen nach Modell-Updates erkennen und neue Bedrohungen in Echtzeit beobachten.

Über Fuel iX Fortify

Effektive KI-Sicherheit braucht die richtige Kombination aus automatisiertem Testen, menschlicher Aufsicht und sauberen Datenpraktiken. Genau hier setzt TELUS Digital an: Fuel iX Fortify ist die kontinuierliche, automatisierte Testing-Lösung des Unternehmens. Sie erzeugt entweder neue Angriffe für jede Session oder greift auf eine bestehende Bibliothek adversarialer Prompts zurück. Fortify testet GenAI-Systeme im Maßstab, führt Tausende Angriffe in Minuten aus und mappt identifizierte Risiken automatisch auf gängige Standards wie OWASP, NIST AI RMF und MITRE ATLAS. Die Lösung ist sowohl für technische als auch nicht-technische Nutzer konzipiert.

Fortify ist Teil des KI-, CX- und Daten-Portfolios von TELUS Digital, das den gesamten Lebenszyklus von Enterprise-KI abdeckt – von der Strategie bis zum Produktivbetrieb. Geleitet wird das Angebot von den Humanity-in-the-Loop-Prinzipien des Unternehmens, die Verantwortung und Nachhaltigkeit als integralen Bestandteil jeder Lösung verstehen.

Der vollständige Bericht zum GenAI Safety Model Benchmark – mit detaillierten Modell-Rankings, Kategorien-Auswertungen und Methodik – ist verfügbar unter www.telusdigital.com/insights/fuel-ix/resource/genai-safety-benchmark-2026.

Mehr Informationen zu Fuel iX Fortify gibt es hier.

Marco Keilhauer
Senior Marketing Specialist | TELUS Digital Europe
M: +49 1511 4539684
TELUS International Germany GmbH
Greifswalder Straße 156, 10409 Berlin
Germany
 
Geschäftsführung: Amanda Mawson, Julia Novak-Pointner, Roger Clancy
Handelsregister: HRB 211299 B, Amtsgericht: Charlottenburg
 
TELUS Digital | Germany
telusdigital.com