Zum Inhalt springen Weiter zur Suche
Testversion
Glossar 

Daten- und Modellvergiftung

Unter Daten- und Modellvergiftung versteht man die Manipulation von Trainings-, Feinabstimmungs- oder Einbettungsdaten, um Schwachstellen, Hintertüren oder Verzerrungen in ein großes Sprachmodell (LLM) einzuschleusen. Diese Manipulation kann die Integrität des Modells gefährden, die Leistung beeinträchtigen, das ethische Verhalten verändern oder eine spätere Ausnutzung ermöglichen. Datenvergiftung wird als Integritätsangriff eingestuft, da sie die Fähigkeit des Modells beeinträchtigt, genaue und vertrauenswürdige Vorhersagen zu treffen.

Wichtigste Erkenntnisse

  • Datenvergiftung ist ein Integritätsangriff, bei dem Trainings-, Feinabstimmungs- oder Einbettungsdaten manipuliert werden, um Hintertüren, Verzerrungen oder Schwachstellen einzubauen, die die Modellausgaben beeinträchtigen
  • Vergiftungsangriffe können in jeder Phase des LLM-Lebenszyklus erfolgen – beim Vortraining, beim Fine-Tuning oder bei der RAG-Einbettung – und stellen damit eine der größten Angriffsflächen in der KI-Entwicklung dar
  • Backdoor-Angriffe sind besonders gefährlich, da sie das Verhalten des Modells unter normalen Bedingungen unverändert lassen und erst bei Vorliegen eines bestimmten Auslösers aktiv werden – wodurch das Modell praktisch zu einem Schläferagenten wird
  • Modelle, die über Open-Source-Plattformen verbreitet werden, können Risiken mit sich bringen, die über Datenvergiftung hinausgehen, darunter Malware, die durch Techniken wie bösartiges Pickling eingebettet wird und beim Laden des Modells ausgeführt wird
  • Zur Prävention sind die Rückverfolgung der Datenherkunft, strenge Sandboxing-Maßnahmen, die Erkennung von Anomalien in den Trainingsdaten, die Zusammenarbeit mit Teams für adversariale Netzwerke sowie die Überwachung des Trainingsverlusts auf Anzeichen von Manipulation erforderlich

Wo es im LLM-Lebenszyklus zu einer Verfälschung kommt

Modellvergiftung kann verschiedene Phasen der Modellentwicklung und -bereitstellung betreffen. Im Vortrainingsschritt, während des groß angelegten Lernens anhand allgemeiner Datensätze, können Angreifer bösartige oder irreführende Inhalte in öffentlich zugängliche Korpora einschleusen. Während des Feinabgleichs, bei der Anpassung eines Modells an bestimmte Anwendungsfälle, können vergiftete domänenspezifische Datensätze gezielte Verzerrungen, Schwachstellen oder versteckte Verhaltensweisen hervorrufen. Bei Embeddings können manipulierte Embedding-Daten oder Vektordarstellungen die Art und Weise verzerren, wie Informationen in Retrieval-Augmented-Generation-Systemen (RAG) abgerufen, bewertet oder interpretiert werden. Das Verständnis dieser Lebenszyklusphasen hilft dabei, die Ursprünge von Integritätsrisiken zu identifizieren.

Wesentliche Risiken und Auswirkungen

Eine erfolgreiche Manipulation kann zu einer Verschlechterung der Modellleistung, zu verzerrten oder schädlichen Ergebnissen, zur Verbreitung von Fehlinformationen, zur Auslösung von Hintertüren, zu Verstößen gegen ethische Grundsätze oder Compliance-Vorgaben sowie zur Ausnutzung nachgelagerter Systeme führen. Modelle, die aus gemeinsam genutzten Repositorys oder offenen Plattformen stammen, können zusätzliche Risiken mit sich bringen, darunter in serialisierte Modelldateien eingebettete Malware (z. B. durch bösartige Pickling-Techniken), die beim Laden ausgeführt wird.

Durch „Poisoning“ können auch Hintertüren eingebaut werden – versteckte Auslöser, die das Modellverhalten nur unter bestimmten Bedingungen verändern. Diese „Schläfer“-Verhaltensweisen können herkömmlichen Tests entgehen und bis zu ihrer Aktivierung im Verborgenen bleiben.

Häufige Sicherheitslückenmuster

Datenvergiftung ist besonders gefährlich, wenn externe oder von der Community bereitgestellte Datenquellen ohne Validierung verwendet werden. Böswillige Akteure können schädliche Beispiele in die Trainingsdaten einschleusen und so die Ergebnisse beeinflussen. Techniken wie „Split-View Data Poisoning“ oder „Frontrunning Poisoning“ nutzen die Dynamik des Trainings aus. Angreifer können gefälschte oder verzerrte Dokumente in Datensätze einschleusen. Sensible oder geschützte Benutzerinformationen können unwissentlich in Trainingspipelines einfließen. Fehlende Zugriffskontrollen können die Einbindung unsicherer oder ungeprüfter Datenquellen ermöglichen. Und schließlich führen nicht validierte externe Datenanbieter manipulierte Datensätze ein.

Beispiele für Angriffsszenarien

Beispiele für Angriffsszenarien umfassen unter anderem Folgendes:

Szenario 1 – Manipulation der Ausgabe mit Voreingenommenheit

Ein Angreifer manipuliert Trainingsdaten oder nutzt Prompt-Injection aus, um die Ergebnisse zu verfälschen und Falschinformationen zu verbreiten.

Szenario 2 – Aufnahme fehlerhafter Daten

Ungefilterte toxische Inhalte werden in den Trainingsdatenbestand integriert, was zu schädlichen oder voreingenommenen Antworten führt.

Szenario 3 – Gefälschte Ausbildungsunterlagen

Ein böswilliger Akteur erstellt gefälschte Dokumente, die später für das Training verwendet werden, was zu systematischen Ungenauigkeiten in den Modellantworten führt.

Szenario 4 – Einbindung über Datenpipelines

Eine unzureichende Filterung ermöglicht es, dass schädliche Inhalte über die Erfassungspipelines in den Datensatz des Modells gelangen.

Szenario 5 – Einfügen eines Backdoor-Triggers

Ein Angreifer baut während des Trainings einen versteckten Auslöser in das Modell ein. Wird dieser aktiviert, ermöglicht er die Umgehung der Authentifizierung, den Diebstahl von Daten oder die Ausführung versteckter Befehle.

Strategien zur Prävention und Schadensminderung

Um Daten- und Modellvergiftung zu verhindern, sind Governance, Validierung und Lebenszykluskontrolle erforderlich.

Datenherkunft und -nachverfolgung

  • Herkunft und Umwandlungen von Daten nachverfolgen
  • Verwenden Sie ML-BOM oder Tools wie OWASP CycloneDX, um Komponenten zu dokumentieren
  • Überprüfen Sie die Datenvalidität in jeder Entwicklungsphase

Lieferanten- und Quellenvalidierung

  • Datenanbieter von Drittanbietern gründlich prüfen
  • Ergebnisse anhand vertrauenswürdiger Referenzquellen überprüfen

Zugriffskontrollen und Sandboxing

  • Den Modellzugriff auf nicht verifizierte externe Daten einschränken
  • Strenge Infrastrukturkontrollen einführen
  • Einschränkung der Aufnahme unsicherer Inhalte

Versionsverwaltung für Datensätze

  • Verwenden Sie die Datenversionskontrolle (DVC), um Änderungen zu überwachen
  • Versionshistorie pflegen, um unbefugte Änderungen zu erkennen

Segmentierte Feinabstimmung

  • Verwenden Sie zweckgebundene Datensätze, die auf definierte Ziele zugeschnitten sind
  • Vermeiden Sie es, nicht zueinander passende Lernquellen unnötig miteinander zu vermischen

Steuerungen für das Einholen und Aufsetzen

  • Speichern Sie vom Benutzer bereitgestellte Daten in Vektordatenbanken, anstatt Modelle neu zu trainieren
  • Verwenden Sie bei der Inferenz „Retrieval-Augmented Generation“ (RAG) und Grounding-Techniken

Überwachung und Erkennung

  • Verluste bei der Ausbildung und Verhaltensauffälligkeiten überwachen
  • Legen Sie Schwellenwerte fest, um ungewöhnliche Ausgabemuster zu erkennen
  • Durchführung von Red-Team-Übungen und Tests zur Widerstandsfähigkeit gegen Angriffe
  • Entdecken Sie Techniken wie das föderierte Lernen, um die Offenlegung zentral gespeicherter Daten zu reduzieren

Grundlegendes Sicherheitsprinzip

Die Integrität von LLM hängt vollständig von der Integrität ihrer Daten ab. Datenpipelines, Modellartefakte und externe Abhängigkeiten müssen als wertvolle Ressourcen behandelt werden, die einer strengen Steuerung und Validierung unterliegen. Eine Verfälschung führt nicht immer zu unmittelbaren oder offensichtlichen Fehlern. Sie kann das Verhalten subtil verändern, versteckte Auslöser einbetten oder das Vertrauen im Laufe der Zeit untergraben. Sichere KI-Systeme erfordern verifizierte Datenquellen, kontrollierte Trainingsprozesse, strenge Zugriffsbeschränkungen, kontinuierliche Überwachung und ein Bewusstsein für die Sicherheit der Lieferkette.

Schützen Sie die Daten, schützen Sie das Modell und schützen Sie die Integrität von KI-Systemen.

< Zurück zu Glossar der Begriffe