OWASP „Vendor Evaluation Criteria for AI Red Teaming Providers & Tooling v1.0”: Wie wähle ich den richtigen Partner aus?

19. Februar 2026

OWASP veröffentlichte vor einigen Tagen die erste Version der Vendor Evaluation Criteria for AI Red Teaming Providers & Tooling v1.0. Der neue Leitfaden unterstützt Unternehmen dabei, Anbieter von Security Analysen KI-basierter Systeme fundiert zu bewerten.

Klare Kriterien für Security Analysen von KI‑Systemen sind entscheidend

Unternehmen integrieren KI-Funktionen mit sehr hoher Geschwindigkeit: Von KI-Chatbots, über Systeme, die per Retrieval-Augmented-Generation (RAG) interne Wissensdatenbanken anbinden, bis hin zu komplexen agentenbasierten KI‑Workflows. 

Als Teil der Unternehmensinfrastruktur unterliegen diese Systeme und Anwendungen den gleichen Sicherheitsbestimmungen wie die bisherige IT-Landschaft. Durch den gesteigerten Bedarf an KI-Analysen wächst der Markt für entsprechende Dienstleistungen rasant. Doch wie wählt man den richtigen Anbieter aus, der nicht nur „AI Security“ verspricht, sondern die Security Analysen mit dem notwendigen Risikoverständnis und der entsprechenden Testtiefe durchführt?

Der OWSAP-Leitfaden bietet Ihnen eine wertvolle Orientierung für die Auswahl.

Die „Vendor Evaluation Criteria for AI Red Teaming” in Kürze

Der OWASP-Leitfaden zeigt Unternehmen auf, worauf sie bei der Auswahl von Anbietern für Security Analysen besonders achten sollten. Obwohl der Titel den Begriff Red Teaming nutzt, werden im deutschsprachigem Raum die beschriebenen Security Analysen als Pentest eingeordnet und nicht als klassisches Red Teaming. Mit Hilfe von Checklisten und Fragenkatalogen können wichtige Kriterien identifiziert werden – sowohl bei der Bewertung automatisierter Prüfverfahren als auch bei der Auswahl eines passenden Pentest-Partners.

Im Kern geht es um folgende Kriterien:

  • Aussagekräftige statt oberflächliche Prüfungen: Der OWASP-Leitfaden macht deutlich, dass professionelle Anbieter eine Analyse nicht auf einfache Einmal‑Prompts oder Standardabfragen reduzieren dürfen. Stattdessen sind mehrstufige, szenariobasierte Tests notwendig, bei denen verschiedene Rollen, Absichten und Informationsflüsse durchgespielt werden.
  • Spezifische Fähigkeiten für unterschiedliche KI‑Einsatz-Szenarien: Je nach eingesetzter Technologie sind zielgerichtete Prüfmethoden erforderlich. Dazu gehören im einfachsten Fall Jailbreak-Tests, aber auch die Exfiltration sensibler Informationen aus angeschlossenen Datenquellen oder die Umgehung von Guardrails. Anbieter sollten ihre Methodik klar benennen und anhand konkreter Beispiele belegen können. 
  • Zusatzkompetenzen für fortgeschrittene Architekturen: Bei komplexeren KI‑Systemen, die tief in bestehende Business-Prozesse integriert sind, benötigen Anbieter zusätzliche Expertise. Es werden kreative Angriffsketten benötigt, die über Tool- und Agenten-Aufrufe hinweg operieren und zur ungewollten Aktionsausführung oder agentenübergreifender Kontextbeeinflussung führen. Ein Anbieter sollte nachvollziehbar erklären können, wie solche Risiken entstehen und wie sie geprüft werden. 
  • Reproduzierbarkeit & Nachvollziehbarkeit: Ein Anbieter sollte erfolgreiche Angriffe nachvollziehbar dokumentieren – inklusive klarer Protokolle der Angriffsversuche und der Erfolgsraten von Jailbreaks.

Wo der OWASP‑Leitfaden an seine Grenzen stößt und was in der Praxis wirklich zählt

Security Analysen unterschiedlichster Systeme und Anwendungen gehören zum täglichen Kerngeschäft unserer Expert*innen im usd HeroLab – zunehmend auch Analysen KI-basierter Lösungen.

Auf Basis unserer bewährten Pentest-Qualitätskriterien, unseres Risikoverständnisses und der Erfahrungen aus aktuellen KI-Projekten haben wir die Kolleg*innen gebeten, den OWASP-Leitfaden für Sie einzuordnen. Ihr Fazit: Er bietet eine solide Orientierung, weist jedoch auch klare Grenzen auf.

1. Die Kategorisierung „Simple vs. Advanced Systems“ ist zu grob

OWASP unterscheidet stark zwischen einfachen und komplexen KI‑Anwendungen. In der Praxis zeigt sich jedoch: Auch ein vermeintlich „einfacher“ KI-Chatbot kann sensible Daten verarbeiten, interne APIs anbinden oder operative Aktionen auslösen. Eine solche Einordnung wird den realen Risiken häufig nicht gerecht.

Unser Ansatz bei der Durchführung von Pentests basiert daher auf Threat Modelling und szenariobasierten Analysen, die unabhängig von pauschalen Kategorien echte Risiken sichtbar machen.

2. Automatisierte Tools prominent dargestellt

Der OWASP-Leitfaden legt einen starken Fokus auf automatisierte Tools. Sie leisten wertvolle Basisarbeit in Form von Standardchecks. Was sie bisher nicht liefern können, ist das, was in der Praxis den Unterschied macht: kreative, kontextbezogene Security Analysen durch erfahrene Sicherheitsexpert*innen. Besonders bei agentenbasierten Systemen, Tool-Calling-Mechanismen und Multi-Agent-Workflows entstehen realistische und belastbare Ergebnisse erst dann, wenn menschliche Expertise gezielt mit intelligenten Prüfwerkzeugen kombiniert wird.

3. Der Fokus ausschließlich auf „AI Red Teaming“ ist zu eng gefasst

KI‑basierte Systeme existieren selten isoliert. Sie sind eingebettet in Web‑Frontend, mobile Apps, Backend‑Services oder APIs. In unseren Projekten betrachten wir deshalb immer das Gesamtsystem, inklusive Datenflüsse, Berechtigungsmodellen und angrenzender Infrastruktur. Dieser ganzheitliche Blick fehlt im OWASP-Leitfaden, ist aber unerlässlich für realistische Risikoanalysen.

Ob wir über AI Red Teaming, LLM Pentests, GenAI Pentests oder Security Analysen von KI-Systemen sprechen: Am Ende geht es immer darum, echte Schwachstellen aufzudecken, Risiken transparent zu machen und Unternehmen dabei zu unterstützen, ihre KI-Systeme sicher zu betreiben. Der neue OWASP‑Leitfaden bestätigt vieles von dem, was wir in unserer Arbeit seit Langem anwenden. An einigen Stellen bleibt er allerdings recht allgemein. Genau deshalb setzen wir weiter auf szenariobasiertes Threat Modelling und ganzheitliche Security Analysen statt auf reine Checklisten.

Florian Kimmes, Senior Consultant IT Security und Experte für Pentests von KI/LLM-Systemen, usd AG
Portrait von Florian Kimmes im Hemd, Senior Consultant IT Security und Experte für Pentests von AI/LLM-Systemen, usd AG.

Sie sind auf der Suche nach einem Anbieter, der Ihre KI‑Anwendungen zuverlässig testet oder Sie zu AI Governance berät? Unsere Expert*innen begleiten Sie auf dem nächsten Schritt zu mehr Sicherheit. Kontaktieren Sie uns.

Auch interessant:

Kategorien

Kategorien