Sofortige Injektion
Die Prompt-Injection ist eines der größten Risiken für Anwendungen, die auf großen Sprachmodellen (LLMs) basieren.
Eine Schwachstelle durch Prompt-Injection tritt auf, wenn eine Eingabe das Verhalten oder die Ausgabe eines LLM auf unbeabsichtigte Weise verändert. Diese Manipulationen sind für Menschen unter Umständen gar nicht erkennbar. Wenn das Modell den Inhalt analysiert, kann es beeinflusst werden.
Im Gegensatz zu herkömmlichen Injektionsfehlern nutzt die Prompt-Injection nicht die Syntaxanalyse einer Datenbank oder eines Interpreters aus. Sie nutzt vielmehr die Art und Weise aus, wie Modelle Sprache verarbeiten. Wenn es einem Angreifer gelingt, den Prompt-Kontext zu manipulieren, kann er das Modell dazu bringen, Anweisungen zu ignorieren, Sicherheitsvorkehrungen zu umgehen, auf sensible Daten zuzugreifen oder Aktionen auszuführen, die über den vorgesehenen Anwendungsbereich hinausgehen.
Techniken wie „Retrieval-Augmented Generation“ (RAG) und Fine-Tuning verbessern zwar die Relevanz und Genauigkeit, beseitigen jedoch nicht das Risiko von Prompt-Injection.
Wichtigste Erkenntnisse
- „Prompt Injection“ steht auf Platz 1 der OWASP LLM Top 10 2025 und tritt auf, wenn speziell gestaltete Eingaben dazu führen, dass sich ein LLM auf unbeabsichtigte Weise verhält, beispielsweise durch Umgehung von Sicherheitsrichtlinien oder die Ausführung nicht autorisierter Aktionen
- Es gibt zwei Formen: die direkte Injektion, bei der der Nutzer das Modell durch seine Eingaben manipuliert, und die indirekte Injektion, bei der bösartige Anweisungen in externen Inhalten versteckt sind, die das LLM abruft
- Prompt-Injection und Jailbreaking sind zwar miteinander verwandt, aber dennoch zwei unterschiedliche Phänomene; Jailbreaking ist eine Unterkategorie der Prompt-Injection, die speziell darauf abzielt, ein Modell dazu zu bringen, seine Sicherheitsprotokolle vollständig zu ignorieren
- Multimodale KI-Systeme sind einer größeren Angriffsfläche ausgesetzt, da böswillige Befehle in Bildern oder anderen nicht-textuellen Eingaben versteckt sein können, die sich nur schwer filtern und erkennen lassen
- Es gibt keine hundertprozentig sichere Vorbeugung, doch lassen sich Risiken durch eine Kombination aus systemseitigen Beschränkungen, dem Prinzip der geringsten Berechtigungen, der Filterung von Ein- und Ausgabedaten sowie der manuellen Freigabe bei risikoreichen Vorgängen mindern
Prompt-Injection vs. Jailbreaking
Prompt-Injection und Jailbreaking sind eng miteinander verbunden, aber nicht identisch.
Bei der Prompt-Injection werden die Modellantworten durch gezielte Eingaben manipuliert, um das Verhalten zu verändern. Dies kann das Umgehen von Sicherheitsvorkehrungen oder die Veränderung der Entscheidungslogik beinhalten. Jailbreaking ist eine spezielle Form der Prompt-Injection, bei der der Angreifer versucht, das Modell dazu zu bringen, seine Sicherheitskontrollen vollständig zu ignorieren. Zwar können Entwickler Sicherheitsvorkehrungen in die System-Prompts und die Eingabeverarbeitung integrieren, doch erfordert die Verhinderung von Jailbreaking kontinuierliche Modellverbesserungen und laufende Sicherheitsupdates.
Arten der Prompt-Injektion
Direkte Einspeisung
Eine direkte Eingabe erfolgt, wenn die Eingabe eines Benutzers das Verhalten des Modells direkt beeinflusst. Dies kann beabsichtigt sein, indem ein böswilliger Akteur gezielt eine Eingabeformulierung erstellt, um die Systemkontrollen zu umgehen. Es kann sich aber auch um unbeabsichtigte Aktionen handeln, bei denen beispielsweise ein legitimer Benutzer eine Eingabe macht, die unerwartet ein unsicheres Verhalten auslöst. Das Endergebnis ist dasselbe.
Indirekte Eingabeaufforderung
Eine indirekte Injektion liegt vor, wenn ein LLM externe Inhalte wie Webseiten, Dokumente, E-Mails oder Repositorien verarbeitet. In diesen externen Inhalten versteckte oder eingebettete Anweisungen können das Modell bei der Analyse beeinflussen. Diese Angriffe können absichtlich oder unbeabsichtigt erfolgen.
Mögliche Auswirkungen
Der Schweregrad einer Prompt-Injection hängt stark davon ab, wie das LLM integriert ist und über welche Handlungsfreiheit es innerhalb des Systems verfügt. Eine erfolgreiche Prompt-Injection kann zu folgenden Folgen führen, wobei die Auswirkungen vom Umfang der Modellprivilegien abhängen.
- Offenlegung sensibler Informationen
- Offenlegung von Systemmeldungen oder Details zur internen Infrastruktur
- Manipulierte oder verzerrte Ergebnisse
- Unbefugter Zugriff auf Funktionen
- Ausführung von Befehlen in vernetzten Systemen
- Manipulation kritischer Entscheidungsprozesse
Risiken bei multimodalen Injektionen
Da KI-Systeme zunehmend mehrere Modalitäten (Text, Bilder, Audio, Dokumente) verarbeiten, vergrößert sich die Angriffsfläche. Böswillige Anweisungen können in Bilder oder andere nicht-textuelle Eingaben eingebettet sein. Wenn multimodale Systeme diese Eingaben zusammen mit Text interpretieren, können versteckte Eingabeaufforderungen das Verhalten auf eine Weise beeinflussen, die schwer zu erkennen ist. Cross-modale Angriffe stellen einen sich weiterentwickelnden Bereich der Forschung und Abwehr dar.
Strategien zur Prävention und Schadensminderung
Aufgrund des probabilistischen Charakters generativer KI lassen sich Prompt-Injektionen nicht vollständig ausschließen. Unternehmen können das Risiko jedoch durch architektonische Kontrollmaßnahmen und mehrschichtige Abwehrmechanismen wie die folgenden erheblich verringern.
- Schränken Sie das Verhalten des Modells ein, indem Sie dessen Rolle, Anwendungsbereich und Grenzen in den Systemaufforderungen klar definieren. Achten Sie auf die strikte Einhaltung des Kontexts und weisen Sie das Modell ausdrücklich an, Versuche, zentrale Anweisungen zu überschreiben, zu ignorieren.
- Definieren und validieren Sie Ausgabeformate, indem Sie strukturierte Ausgabeformate vorschreiben, gegebenenfalls Begründungen und Quellenangaben verlangen und deterministische Validierungslogik einsetzen, um die Einhaltung der Vorgaben sicherzustellen.
- Implementieren Sie Eingabe- und Ausgabefilterung, indem Sie Kategorien für sensible Daten definieren, semantische Filterung und Zeichenfolgenprüfung anwenden und Antworten anhand von Kontextrelevanz, Fundiertheit und Übereinstimmung zwischen Frage und Antwort bewerten.
- Setzen Sie das Prinzip der geringsten Berechtigungen durch, indem Sie den Modellzugriff auf die unbedingt erforderlichen Informationen beschränken, API-Token auf Anwendungsebene verwenden, anstatt dem Modell privilegierte Anmeldedaten offenzulegen, und sensible Aktionen in kontrollierten Codepfaden abwickeln.
- Für risikoreiche Aktionen sollte eine menschliche Freigabe erforderlich sein, indem für privilegierte oder irreversible Vorgänge eine Überprüfung durch einen Menschen eingeführt wird.
- Externe Inhalte trennen, indem nicht vertrauenswürdige Inhalte eindeutig identifiziert und isoliert werden und verhindert wird, dass externe Daten Anweisungen auf Systemebene direkt beeinflussen.
- Führen Sie adversarische Tests durch, indem Sie regelmäßig Penetrationstests und Red-Teaming-Übungen durchführen, das Modell als nicht vertrauenswürdigen Akteur behandeln und Grenzverletzungen sowie Versuche der Rechteausweitung simulieren.
Beispiele für Angriffsszenarien
Die Prompt-Injektion tritt in realen Anwendungen in vielfältiger Form auf.
- Direkte Eingabe: Ein Chatbot wird angewiesen, bisherige Richtlinien zu ignorieren und private Daten abzurufen.
- Indirekte Injektion: Eine Webseite enthält versteckte Anweisungen, die dazu führen, dass ein zusammenfassendes LLM Konversationsdaten abgreift.
- Unbeabsichtigte Eingabe: Ein in eine Stellenanzeige eingebetteter Befehl löst ein unerwartetes Verhalten der KI aus.
- RAG-Manipulation: Ein in einer Wissensdatenbank geändertes Dokument beeinflusst die generierte Antwort.
- Code-Injektion: Ein Angreifer nutzt Schwachstellen in einem LLM-basierten Tool aus, um die Ausgabeergebnisse zu manipulieren.
- Aufteilung der Nutzlast: Schädliche Befehle werden auf die Eingaben verteilt und vom Modell wieder zusammengesetzt.
- Multimodale Eingabe: In Bilder eingebettete versteckte Eingabeaufforderungen verändern das Systemverhalten.
- Böswillige Suffixe: Verschleierte Zeichenfolgen umgehen Sicherheitsfilter.
- Mehrsprachige/verschlüsselte Angriffe: Anweisungen, die durch Übersetzung oder Verschlüsselung verborgen sind, entgehen der Erkennung.
Warum es wichtig ist
Prompt-Injection ist nicht nur eine Schwachstelle auf Modellebene. Es handelt sich um ein Risiko für die Anwendungssicherheit. Je mehr Handlungsspielraum und Integrationsmöglichkeiten ein LLM bietet – Funktionsaufrufe, Datenbankzugriff, E-Mail-Versand, Workflow-Automatisierung –, desto größer sind die potenziellen Auswirkungen einer erfolgreichen Injection. Der Schutz vor Prompt-Injection erfordert klare Vertrauensgrenzen, eine strenge Ausgabeverwaltung, eine kontrollierte Delegierung von Berechtigungen sowie kontinuierliche Tests und Validierungen.
LLM-basierte Systeme müssen unter der Annahme konzipiert werden, dass das Modell beeinflusst werden kann. Die Robustheit hängt davon ab, wie gut die umgebende Anwendung Grenzen durchsetzt. Die Eingabe von Prompts ist ein grundlegender Aspekt bei der Konzeption für einen sicheren Einsatz von KI.
< Zurück zu Glossar der Begriffe