Künstliche Intelligenz ist in vielen Unternehmen längst im Einsatz. Chatbots greifen auf internes Wissen zu, KI unterstützt Entscheidungen oder steuert automatisierte Prozesse. Mit dieser Entwicklung wächst die Angriffsfläche, weil KI-Anwendungen anders funktionieren als klassische Software.
Technisch bestehen solche Anwendungen nicht nur aus einem Sprachmodell. Sie kombinieren Promptverarbeitung, Retrieval‑Mechanismen, (Multi-)Agentenfunktionen, angebundene Tools sowie die Weiterverarbeitung der Ausgaben in nachgelagerten Systemen. Angriffe zielen daher häufig nicht auf eine einzelne Schwachstelle im Code, sondern darauf, das Systemverhalten über direkte Eingaben oder indirekte Kontextmanipulation gezielt zu beeinflussen.
Warum KI/LLM-Systeme eigene Prüfansätze benötigen, welche Risiken in der Praxis besonders relevant sind und wie sich diese Risiken belastbar bewerten lassen, erläutert Florian Kimmes, Senior Security Analyst bei der usd AG und Experte für KI‑Sicherheitsanalysen im usd HeroLab.

Warum stellen KI/LLM-Systeme Unternehmen vor neue Sicherheitsfragen?
KI‑basierte Anwendungen und Large Language Models (LLM) werden fest in operative Abläufe eingebunden und übernehmen zunehmend Aufgaben mit direkter geschäftlicher und regulatorischer Relevanz. Sie erzeugen Inhalte mit Außenwirkung, verarbeiten sensible Informationen oder stoßen automatisierte Aktionen an. Damit werden sie Teil der produktiven IT mit direktem Einfluss auf Daten, Prozesse und Geschäftsrisiken.
Genau diese Rolle verändert jedoch die Sicherheitslage grundlegend. Denn KI‑Systeme verhalten sich nicht deterministisch. Sie treffen Entscheidungen kontextabhängig und probabilistisch. Für Unternehmen ist deshalb entscheidend, zu welchem Grad sich ein System beeinflussen lässt: Wie gut wird das Verhalten des LLM technisch begrenzt und nachvollziehbar und prüfbar gemacht. An dieser Stelle stoßen klassische Sicherheitsprüfungen schnell an ihre Grenzen.
Diese Unterschiede erklären sich aus dem technischen Aufbau von KI‑Anwendungen:
- Die Steuerlogik des Systems ist stark von der stochastischen Natur des LLM abhängig. Das Modell trifft die wichtigen Entscheidungen im System. Das macht die Anwendungen produktiver, aber auch gefährlicher.
- Alle angebundenen Datenquellen, etwa über Retrieval‑Mechanismen, sind direkt im Zugriff des Modells, und damit potenziell für Angreifer erreichbar.
- Komplexe Agenten mit erweitertem Tool-Arsenal haben häufig weitreichende Befugnisse in der IT-Landschaft.
In genau diesen Architekturen nutzen Angreifer weniger klassische Schwachstellen. Vielmehr beeinflussen sie das System über Eingaben, Kontexte und Interaktionen, um das Modell zu unerwünschtem Verhalten zu bewegen. Entscheidend ist deshalb nicht das isolierte Sprachmodell, sondern das Zusammenspiel aus Modell, Prompting, Datenquellen, angebundenen Tools, APIs und der Weiterverarbeitung der erzeugten Ausgaben.
Was sind typische Schwachstellen in KI/LLM-Systemen?
Aus der Architekturperspektive ergeben sich in der Praxis wiederkehrende Angriffsmuster und Schwachstellen. Sie entstehen nicht punktuell, sondern entlang der gesamten technischen Verarbeitungskette. Und genau an diesen Punkten setzen wir bei einem Pentest von KI/LLM‑Systemen an.
Angreifer setzen Prompt Injections ein, um Schutzmechanismen zu umgehen oder das Modell zu unerwünschten Aktionen oder Aussagen zu bewegen.
Über Retrieval‑Mechanismen werden dem LLM häufig sensible Unternehmensdaten zugänglich gemacht. Angreifer machen sich das zu Nutze, indem sie externe oder interne Inhalte gezielt manipulieren, um diese sensiblen Informationen durch das LLM exfiltrieren zu lassen.
Besonders kritisch wird es, wenn KI‑Agenten mit zu weitreichenden Rechten ausgestattet sind. In solchen Fällen kann das Modell nicht nur Inhalte erzeugen, sondern aktiv Aktionen auslösen, etwa API‑Aufrufe, Systemänderungen oder automatisierte Workflows. Daraus können Angreifer ihre Zugriffsmöglichkeiten innerhalb der IT‑Landschaft ausweiten.
Hinzu kommen ressourcenbasierte Angriffe, bei denen die hinterlegten Budgets oder Leistungskapazitäten der rechenintensiven LLM-Infrastrukturen mittels gezielter Eingaben rapide ausgelastet werden, um die Kosten oder Verfügbarkeit massiv zu beeinflussen. Da KI/LLM-Anwendungen häufig als Web-, Mobil- oder API-Anwendung zur Verfügung gestellt werden, spielen klassische Schwachstellen zudem eine nicht zu vernachlässigende Rolle. Besonders in diesem sich rapide entwickelnden Umfeld arbeiten Entwicklerteams unter hohem Zeitdruck, der sicherheitskritische Fehler begünstigt.
Wie werden Risiken bei KI/LLM-Systemen messbar?
Um die Kritikalität von Schwachstellen in KI/LLM‑Systemen einschätzen zu können, reicht es nicht aus, einzelne Auffälligkeiten zu dokumentieren. Abhängig von der Schwachstellenkategorie ist es häufig auch entscheidend, wie stabil und reproduzierbar sich unerwünschtes Verhalten auslösen lässt. Genau hier setzt der quantitative Ansatz an.
Ein Pentest von KI/LLM‑Systemen ergänzt qualitative Analysen deshalb um gezielte Messungen. Angriffe werden systematisch wiederholt und variiert, um zu bewerten, wie zuverlässig sie tatsächlich funktionieren. Gemessen wird dabei unter anderem:
- Wie häufig ein Angriff erfolgreich ist
- Wie konsistent sich unerwünschtes Verhalten reproduzieren lässt
Metriken wie die Attack Success Rate (ASR) zeigen, mit welcher Erfolgsquote Angriffe greifen. Diese ist besonders relevant, wenn eine Schwachstelle im System genutzt werden soll, um andere Nutzer anzugreifen; um erfolgreich zu sein, muss der Angriff hier beim Klick des Opfers mit nahezu absoluter Sicherheit erfolgen. pass@k beschreibt die Wahrscheinlichkeit, dass ein Angriff innerhalb mehrerer Versuche mindestens einmal erfolgreich ist. Das ist bei allen gravierenden technischen Schwachstellen relevant, wo Angreifer viele Versuche haben, um beispielsweise eine Ausgabe des LLM dazu zu nutzen ein Folgesystem zu übernehmen.
Diese Kennzahlen machen Risiken vergleichbar, priorisierbar und über Zeit bewertbar. So lassen sich technische Risiken im Schwachstellenmanagement realistisch einschätzen und gezielt adressieren.
Wie entsteht aus Threat Modeling ein realistisch prüfbares Angriffsszenario?
Damit ein Pentest von KI/LLM‑Systemen nicht auf Vermutungen basiert, beginnt er in der Regel mit einem erweiterten Threat Modeling, das speziell auf KI‑Architekturen zugeschnitten ist. Die Entwicklung rund um LLM‑Anwendungen ist rasant, viele Organisationen können Risiken und relevante Testziele noch schwer einordnen – und ein reines „Blackbox“-Vorgehen wäre aufgrund der stochastischen Natur der Modelle besonders ineffizient. Deshalb analysieren wir gemeinsam die tatsächliche Anwendungsarchitektur und leiten daraus konkrete, realistische Angriffspfade ab.
Im Threat Modeling klären wir zunächst die zentralen Rahmenbedingungen und Angriffsflächen wie Anwendungsexposition, Datenquellen und Tools. Darauf aufbauend machen wir eine Datenflussanalyse entlang der Verarbeitungskette:
- Welche Komponenten nehmen Fremddaten entgegen (z. B. Nutzerinput, externe Inhalte, Dokumente)?
- Wo wird diese Information gespeichert oder angereichert?
- An welchen Stellen wird sie anschließend in Prompts übernommen?
Genau an diesen Trust‑Boundaries entstehen in der Praxis die belastbaren Angriffsszenarien, wie Prompt‑Injections über externe Inhalte, Datenabfluss über Retrieval-Mechanismen, oder missbräuchliche Tool‑Nutzung durch überprivilegierte Agenten. Aus den identifizierten Pfaden leiten wir anschließend unsere Testfälle ab und priorisieren etwaige gefundene Schwachstellen nach Geschäftskontext und technischen Risiken. So können wir zielgerichtet und nachvollziehbar testen.
Wie sind Begriffe wie AI Red Teaming und Pentest von KI/LLM-Systemen einzuordnen?
Ob von AI Red Teaming, LLM‑Pentests, Pentests von KI/LLM-Systemen oder Security Analysen von KI‑Systemen gesprochen wird: Im Kern geht es immer darum, reale Schwachstellen aufzudecken, Risiken transparent zu machen und den sicheren Betrieb von KI‑Anwendungen zu ermöglichen.
International etabliert sich zunehmend der Begriff AI Red Teaming für die gezielte sicherheitstechnische Analyse von KI‑Systemen. Im deutschsprachigen Raum werden diese Prüfungen überwiegend als Pentests verstanden.
Der Unterschied liegt weniger im Ziel als im Vorgehen. Pentests von KI/LLM‑Systemen folgen einem strukturierten, prüfbaren Ansatz mit klarer Methodik und nachvollziehbaren Ergebnissen. Sie liefern eine belastbare Grundlage für Sicherheitsentscheidungen, Risikomanagement und Audit‑Vorbereitung rund um den produktiven Einsatz von KI.
Sie möchten wissen, wie sich Risiken in Ihren KI/LLM‑Systemen realistisch bewerten lassen? Sprechen Sie uns gern an und gemeinsam klären wir, welche Prüfansätze für Ihre konkrete Anwendung sinnvoll sind.



