LLM-Fehlinformationen
Fehlinformationen bei großen Sprachmodellen (LLM) stellen eine zentrale Schwachstelle in LLM-basierten Systemen dar. Sie treten auf, wenn ein Modell falsche, irreführende oder erfundene Informationen generiert, die glaubwürdig und maßgeblich wirken.
Da LLMs flüssige und überzeugende Antworten liefern, können Falschinformationen leicht mit verifizierten Fakten verwechselt werden. Dies kann zu Sicherheitsverletzungen, rechtlicher Haftung, Reputationsschäden, finanziellen Verlusten oder Schäden für Einzelpersonen führen. Das Risiko von Falschinformationen steigt erheblich, wenn Systeme oder Nutzer den Modellausgaben übermäßiges Vertrauen schenken.
Wichtigste Erkenntnisse
- Fehlinformationen bei LLM-Modellen treten auf, wenn Modelle falsche oder irreführende Inhalte erzeugen, die glaubwürdig wirken. Dies ist in erster Linie auf Halluzinationen zurückzuführen, bei denen das Modell Wissenslücken anhand statistischer Muster statt anhand verifizierter Fakten füllt.
- Ein übermäßiges Vertrauen erhöht das Risiko: Wenn Nutzer den Ergebnissen von LLM ohne unabhängige Überprüfung vertrauen, fließen Fehlinformationen in wichtige Entscheidungen ein, was den Schaden im Gesundheitswesen, im Rechtswesen und in der Wirtschaft noch verstärkt
- „Package Hallucination“ ist ein aktiv ausgenutzter Angriffsvektor: Angreifer ermitteln häufig fälschlicherweise erratene Namen von Code-Bibliotheken, veröffentlichen unter diesen Namen schädliche Pakete und warten darauf, dass Entwickler diese unwissentlich auf Vorschlag eines KI-Codierungsassistenten installieren
- Das Risiko von Fehlinformationen setzt keinen böswilligen Akteur voraus, wie der Fall des Air-Canada-Chatbots zeigt; bereits unzureichende Aufsicht und mangelnde Zuverlässigkeitskontrollen können Unternehmen dem Risiko von Reputationsschäden und rechtlicher Haftung aussetzen
- Zur Risikominderung ist es erforderlich, RAG mit verifizierten Wissensquellen, einer automatischen Validierung der Ergebnisse, einer menschlichen Überprüfung bei Entscheidungen mit hohem Risiko sowie einer übersichtlichen Benutzeroberfläche zu kombinieren, die die Grenzen der KI verdeutlicht und zur eigenständigen Überprüfung anregt
Die eigentlichen Ursachen
Halluzination
Eine Halluzination liegt vor, wenn ein LLM Inhalte generiert, die plausibel klingen, aber jeder Grundlage entbehren. Dies geschieht, weil LLMs Texte statistisch vorhersagen. Sie füllen Wissenslücken mit erlernten Mustern und „verstehen“ Inhalte nicht wirklich. Das Ergebnis mag zutreffend erscheinen, ist aber möglicherweise völlig falsch.
Verzerrte oder unvollständige Trainingsdaten
Verzerrungen oder fehlende Informationen in den Trainingsdaten können zu verzerrten Sichtweisen, ungenauen Verallgemeinerungen und irreführenden Schlussfolgerungen führen.
Übermäßiges Vertrauen
Eine übermäßige Abhängigkeit von den Informationen entsteht, wenn Nutzer den Ergebnissen von LLMs übermäßiges Vertrauen schenken, die Informationen nicht eigenständig überprüfen und KI-generierte Inhalte ohne die erforderliche kritische Prüfung in ihre Entscheidungen einfließen lassen. Diese übermäßige Abhängigkeit verstärkt den durch Falschinformationen verursachten Schaden.
Häufige Risikokategorien von Falschinformationen
Sachliche Ungenauigkeiten
Falsche Angaben können zu Fehlentscheidungen führen. So lieferte beispielsweise ein Chatbot falsche Informationen zu den Reiserichtlinien, was rechtliche Konsequenzen für das Unternehmen hatte, das ihn einsetzte.
Unbegründete Behauptungen
Großsprachmodelle können juristische Zitate, medizinische Quellenangaben oder glaubwürdig klingende Quellen erfinden. So werden beispielsweise erfundene Rechtsfälle generiert und vor Gericht eingereicht, was schwerwiegende berufliche Konsequenzen nach sich ziehen kann.
Vortäuschung von Fachkompetenz
Großsprachenmodelle (LLMs) können den Eindruck erwecken, über Fachwissen zu verfügen, das über ihre tatsächliche Zuverlässigkeit hinausgeht. So haben beispielsweise Chatbots im Gesundheitsbereich den Stand des medizinischen Konsenses falsch dargestellt und Nutzer in die Irre geführt, sodass diese glaubten, dass unbewiesene Behandlungsmethoden noch immer zur Debatte stünden.
Erzeugung unsicherer Code
Große Sprachmodelle (LLMs) können unsichere Bibliotheken vorschlagen, nicht vorhandene Pakete empfehlen oder unsichere Programmiermuster vorschlagen. Werden diese Vorschläge blind übernommen, können sie Sicherheitslücken verursachen.
Beispiele für Angriffsszenarien
Szenario 1 – Exploit durch ein „Hallucinated Package“
Angreifer identifizieren häufig vorkommende, von Codierungsassistenten vorgeschlagene Paketnamen. Anschließend veröffentlichen sie unter diesen Namen schädliche Pakete. Entwickler installieren das schädliche Paket unwissentlich, was zu Hintertüren, Datenexfiltration und unbefugtem Zugriff führt. Dieser Angriff nutzt sowohl die Täuschung als auch das übermäßige Vertrauen aus.
Szenario 2 – Unsichere medizinische Beratung
Ein Unternehmen setzt einen medizinischen Chatbot ohne ausreichende Validierung ein. Der Chatbot gibt ungenaue Anweisungen, wobei kein böswilliger Angreifer beteiligt ist. Dies führt dazu, dass das Unternehmen Patienten Schaden zufügt, mit Klagen konfrontiert wird und Reputationsschäden erleidet. Schon Fehlinformationen allein können zu schwerwiegender Haftung führen.
Strategien zur Prävention und Schadensminderung
Retrieval-Augmented Generation (RAG): Nutzung vertrauenswürdiger externer Wissensquellen bei der Generierung von Antworten, um die Ergebnisse auf verifizierte Daten zu stützen, Fehlinformationen zu reduzieren und die sachliche Zuverlässigkeit zu verbessern.
Modell-Feineinstellung: Verbesserung der Zuverlässigkeit durch domänenspezifische Feineinstellung, parameter-effiziente Optimierung (PET) und strukturierte Eingabeaufforderungen (z. B. Chain-of-Thought-Techniken).
Gegenprüfung und menschliche Kontrolle: Faktenprüfung für risikoreiche Ergebnisse vorschreiben, menschliche Prüfer schulen, um eine übermäßige Abhängigkeit zu vermeiden, und Prüfungsabläufe für kritische Bereiche einführen
Die Überprüfung durch Menschen ist in Systemen des Gesundheitswesens, des Rechtswesens, des Finanzwesens sowie in sicherheitskritischen Systemen von entscheidender Bedeutung.
Automatische Validierungsmechanismen: Implementieren Sie automatisierte Prüfungen für risikoreiche Ergebnisse, validieren Sie Zitate, Quellenangaben oder strukturierte Ergebnisse und kennzeichnen Sie unklare oder nicht überprüfbare Aussagen.
Auf Risiken hinweisen: Weisen Sie die Nutzer deutlich darauf hin, dass die Ergebnisse fehlerhaft sein können, dass KI kein Ersatz für professionelle Beratung ist und dass bei wichtigen Entscheidungen stets eine Überprüfung erforderlich ist. Transparenz verringert den Missbrauch.
Sichere Programmierpraktiken: Überprüfen Sie vorgeschlagene Bibliotheken vor der Verwendung, scannen Sie Abhängigkeiten, verifizieren Sie die Echtheit von Paketen und vermeiden Sie die Integration von nicht geprüften, KI-generierten Code.
Verantwortungsbewusstes UI- und API-Design: AI-generierte Inhalte sollten eindeutig gekennzeichnet, Inhaltsfilter integriert, Unsicherheiten gegebenenfalls hervorgehoben und Einschränkungen hinsichtlich der vorgesehenen Nutzung definiert werden. Das Design der Benutzeroberfläche hat einen starken Einfluss auf die übermäßige Abhängigkeit.
Schulung und Weiterbildung: Klären Sie die Nutzer über die Grenzen der Modelle auf, bieten Sie fachspezifische Schulungen zur Bewertung an und fördern Sie kritisches Denken. Die Unternehmenskultur wirkt sich auf die Sicherheit von KI aus.
Die Kernaussage von Core Security
Großskalige Sprachmodelle (LLMs) sind probabilistische Textgeneratoren. Sie sind keine Faktenmaschinen. Falschinformationen sind nicht immer böswillig. Sie können aus dem normalen Systemverhalten resultieren. Das eigentliche Risiko entsteht, wenn Systeme den Ergebnissen der KI ohne Überprüfung vertrauen. Nutzer gehen von der Richtigkeit der Informationen aus, und Organisationen versäumen es, die Grenzen der KI zu kommunizieren.
Fehlinformationen stellen ein systemisches Risiko bei KI-gestützten Anwendungen dar. Um dieses Risiko zu mindern, sind fundierte Grundlagen, Überprüfung, Aufsicht, verantwortungsbewusstes UX-Design und die Aufklärung der Nutzer erforderlich. Vertrauen darf niemals als selbstverständlich vorausgesetzt werden. Überprüfen Sie immer alles.
< Zurück zu Glossar der Begriffe