Offenlegung vertraulicher Informationen
Die Offenlegung sensibler Informationen stellt nach wie vor eines der größten Risiken bei Systemen dar, die auf großen Sprachmodellen basieren.
Große Sprachmodelle (LLMs) verarbeiten, generieren und speichern mitunter Daten, die persönliche, finanzielle, medizinische, rechtliche oder geschützte Informationen enthalten können. Bei unsachgemäßer Konfiguration oder unzureichender Kontrolle können LLMs und die damit verbundenen Anwendungen diese Daten über Modellausgaben, Trainingsprozesse oder Integrationen offenlegen. Dieses Risiko betrifft sowohl das Modell selbst als auch den Anwendungskontext, in dem es eingesetzt wird.
Wichtigste Erkenntnisse
- Eine Offenlegung sensibler Informationen liegt vor, wenn große Sprachmodelle (LLMs) personenbezogene Daten, Geschäftsdaten, proprietäre Algorithmen oder Sicherheitszugangsdaten in ihren Ausgaben preisgeben, sei es unbeabsichtigt oder durch Missbrauch.
- Offen gelegte Trainingsdaten können Modellinversionsangriffe ermöglichen, bei denen Angreifer sensible Eingaben rekonstruieren oder geschützte Informationen aus dem Modell selbst extrahieren.
- Eingabeaufforderungsbeschränkungen können das Risiko von Datenpreisgaben verringern, sind jedoch für sich genommen nicht zuverlässig, da sie durch das Einfügen von Eingabeaufforderungen umgangen werden können; daher sind mehrschichtige Abwehrmaßnahmen unerlässlich.
- Techniken zum Schutz der Privatsphäre wie föderiertes Lernen, differentielle Privatsphäre und homomorphe Verschlüsselung verringern das Risiko einer Datenpreisgabe, indem sie den zentralen Datenzugriff einschränken und es erschweren, einzelne Datenpunkte zurückzuverfolgen.
- Prävention beruht auf einer Kombination aus Datensanierung vor dem Training, strengen Zugriffskontrollen, einer soliden Validierung von Ein- und Ausgabedaten sowie klaren Richtlinien für Nutzer hinsichtlich der Datenaufbewahrung und des Widerspruchsrechts.
Was versteht man unter sensiblen Informationen in LLM-Systemen?
Zu den sensiblen Informationen gehören unter anderem:
- Personenbezogene Daten (PII)
- Finanzunterlagen
- Gesundheitsinformationen
- Vertrauliche Geschäftsdaten
- Sicherheitsdaten und Zugriffstoken
- Rechtsdokumente
- Proprietäre Algorithmen und Quellcode
Darüber hinaus können proprietäre Trainingsmethoden, Modellarchitekturen und Datensätze für die Feinabstimmung selbst als sensibel eingestuft werden, insbesondere bei geschlossenen oder auf Basis von Foundation-Modellen basierenden Implementierungen.
Wenn große Sprachmodelle (LLMs) in Unternehmensabläufe, kundenorientierte Tools oder interne Systeme integriert werden, kann ein unsachgemäßer Umgang mit Daten zu Datenschutzverletzungen, dem Verlust geistigen Eigentums und unbefugtem Zugriff führen.
Wie die Offenlegung erfolgt
Die Offenlegung sensibler Informationen kann auf vielfältige Weise erfolgen. Das Modell gibt Daten aus Trainingsdatensätzen wieder. Von Nutzern bereitgestellte Daten werden unbeabsichtigt in Antworten an andere Nutzer einbezogen. Systemaufforderungen oder interne Konfigurationsdetails werden offengelegt. Externe Integrationen geben mehr Daten zurück als beabsichtigt. Durch Prompt-Injection werden Filterkontrollen umgangen.
Verbraucher können bei Interaktionen auch unbeabsichtigt vertrauliche Informationen preisgeben. Ohne angemessene Sicherheitsvorkehrungen können diese Daten gespeichert, wiederverwendet oder später in den Ergebnissen offengelegt werden. Um dies zu verhindern, sind sowohl technische Kontrollmaßnahmen als auch klare Transparenzrichtlinien erforderlich.
Häufige Beispiele für Sicherheitslücken
- Verletzung des Datenschutzes: Ein LLM gibt personenbezogene Daten eines anderen Nutzers preis, da die Isolierung oder Bereinigung unzureichend ist.
- Offenlegung proprietärer Algorithmen: Eine fehlerhafte Konfiguration kann dazu führen, dass interne Logik, Trainingsdaten oder proprietäre Algorithmen offengelegt werden. Im Extremfall ermöglicht die Offenlegung von Trainingsdaten Modell-Extraktion oder Inversionsangriffe. So haben beispielsweise dokumentierte Forschungsergebnisse wie der „Proof Pudding“-Angriff (CVE-2019-20634) gezeigt, wie durchgesickerte Trainingsdaten die Modell-Extraktion erleichterten und Sicherheitskontrollen umgingen.
- Offenlegung sensibler Geschäftsdaten: Die generierten Antworten enthalten unbeabsichtigt vertrauliche Unternehmensinformationen, wie beispielsweise interne Finanzprognosen oder Geschäftsgeheimnisse.
Strategien zur Prävention und Schadensminderung
Um das Risiko von Datenpreisungen zu verringern, sind mehrstufige Kontrollmechanismen erforderlich, die den Umgang mit Daten, die Modellkonfiguration und die Transparenz für die Nutzer abdecken.
Datenbereinigung
Integrieren Sie Verfahren zur Datenbereinigung, um sensible Daten zu bereinigen oder zu maskieren, bevor sie in das Modelltraining oder in Verarbeitungspipelines einfließen. Stellen Sie außerdem eine robuste Eingabevalidierung sicher, um schädliche oder sensible Eingaben zu erkennen und herauszufiltern, bevor sie das Modell erreichen.
Zugriffskontrollen
Setzen Sie das Prinzip der geringsten Berechtigungen durch, indem Sie den Zugriff auf sensible Daten auf das für einen bestimmten Benutzer oder Prozess erforderliche Maß beschränken. Beschränken Sie die Datenquellen, um die Orchestrierung von Laufzeitdaten sorgfältig zu verwalten und zu sichern und eine unbeabsichtigte Offenlegung durch externe Integrationen zu verhindern.
Föderiertes Lernen und Datenschutztechniken
Nutzen Sie Federated Learning, um Modelle anhand dezentraler Datensätze über mehrere Systeme hinweg zu trainieren und so das Risiko zentralisierter Daten zu verringern, sowie Differential Privacy, um statistisches Rauschen in Daten oder Ausgaben einzufügen und so die Rekonstruktion einzelner Datensätze zu verhindern.
Benutzerschulung und Transparenz
Weisen Sie die Nutzer wie immer in den sicheren Umgang mit den Systemen ein und geben Sie ihnen Hinweise dazu, wie sie die Eingabe sensibler Daten in LLM-Systeme vermeiden können. Sorgen Sie darüber hinaus für Transparenz bei der Datennutzung, indem Sie klare Richtlinien zur Datenspeicherung, -nutzung und -löschung veröffentlichen und Opt-out-Möglichkeiten für die Einbeziehung in Trainingsdaten anbieten.
Sichere Systemkonfiguration
Verbergen Sie System-Präambeln und interne Eingabeaufforderungen, um den Zugriff der Benutzer auf Anweisungen auf Systemebene und interne Konfigurationen zu beschränken. Befolgen Sie bewährte Verfahren für eine sichere Konfiguration, indem Sie etablierte Richtlinien wie die OWASP-Empfehlungen zur API-Sicherheit anwenden, um Datenlecks durch Fehlkonfigurationen oder ausführliche Fehlermeldungen zu verhindern.
Fortgeschrittene Datenschutztechniken
Setzen Sie fortschrittliche Datenschutztechniken wie homomorphe Verschlüsselung ein, um eine datenschutzkonforme Datenverarbeitung zu ermöglichen, bei der die Daten während der Berechnung verschlüsselt bleiben, sowie Tokenisierung und Schwärzung, um sensible Inhalte mithilfe von Musterabgleich und Vorverarbeitung vor der Interaktion mit dem Modell zu erkennen und zu schwärzen.
Beispiele für Angriffsszenarien
Es gibt zahlreiche Beispiele für Angriffsszenarien, die zum Schutz sensibler Daten berücksichtigt werden sollten.
- Unbeabsichtigte Offenlegung von Daten: Ein Nutzer erhält aufgrund unzureichender Sicherheitsmaßnahmen eine Antwort, die die personenbezogenen Daten eines anderen Nutzers enthält.
- Gezielte Eingabeaufforderung: Ein Angreifer umgeht Eingabefilter und entlockt dem System vertrauliche Informationen durch manipulierte Eingabeaufforderungen.
- Datenlecks beim Training: Sensible Unternehmensdaten werden versehentlich in das Modelltraining einbezogen und tauchen später in den Antworten auf.
Warum es wichtig ist
Großes Sprachmodelle (LLMs) steigern sowohl die Produktivität als auch das Risiko. Wenn sie in Anwendungen eingebettet sind, können sie in großem Umfang auf sensible Daten zugreifen, diese verarbeiten und generieren. Ohne strenge Kontrollen birgt dies die Gefahr von unbefugter Offenlegung, Datenschutzverletzungen, Verlust geistigen Eigentums, regulatorischen Risiken und letztlich einem Vertrauensverlust seitens der Nutzer. Die Offenlegung sensibler Informationen ist nicht nur ein Problem des Modells, sondern ein Problem der Systemgestaltung.
Sichere LLM-Implementierungen erfordern klare Richtlinien zur Datenverwaltung, die strikte Durchsetzung von Zugriffskontrollen, Technologien zum Schutz der Privatsphäre, eine kontinuierliche Überwachung sowie Adversarial Testing und eine transparente Kommunikation mit den Nutzern.
Unternehmen müssen LLM-Systeme als Verarbeiter hochsensibler Daten behandeln und sie entsprechend auslegen; Sicherheit und Datenschutz müssen vom Entwurf bis zur Bereitstellung integriert werden.
< Zurück zu Glossar der Begriffe