Mit der zunehmenden Nutzung von LLM-Chatbots und der Veröffentlichung von LLM-Browsern gewinnt auch das Thema der „Prompt Injection“ an Bedeutung. Hierbei gelingt es einer Person, Anweisungen an das LLM-System in Dokumente oder Bilder einzuschleusen, die das LLM-System tatsächlich ausführt. Dies kann gerade bei unachtsamer Nutzung zu unerwünschten Verhalten und Informationsabfluss führen.
Dabei ist das Problem von „Injection“ keinesfall neu. Bereits seit den frühen 2000er Jahren gelingen immer wieder Angriffe auf IT-Systeme durch sogenannte „SQL-Injections“ bei der Eingaben bspw. auf Webseiten durch Befehle an die in das System eingebundene Datenbank eingeschleust werden. Gleichzeitig sind SQL-Injections als Angriffsmethode mittlerweile gut bekannt, sodass eine Vielzahl von Präventionsmöglichkeiten zur Verfügung stehen.
Auch gegen Prompt Injection sind Möglichkeiten zur Prävention bekannt. Dennoch können eine Vielzahl von LLM-Systemen mittels eingeschleuster Prompts zu unerwünschten Verhalten gebracht werden. Bei der einfachsten Form der Prompt Injection reicht es schon ein Dokument entsprechend vorzubereiten. So lässt sich in ein Textdokument ein Text einfügen, der das System anweist, vorherige Anweisungen zu ignorieren oder zu ergänzen und eine eigene Anweisung auszuführen. Wird hierbei eine kleine Schriftgröße und weiße Schriftfarbe gewählt, kann der Text von einem Menschen leicht übersehen werden. Wird ein solches Textdokument an eine andere Person versandt, die ein LLM-System nutzt, und dessen Ausgaben nicht eigenhändig prüft, können Ergebnisse einer Zusammenfassung oder Bewertung manipuliert werden.
Die „Brave Software, Inc.“, Anbieter des Brave-Browsers hat entsprechende Sicherheitslücken auch in LLM-Browsern entdeckt. Im Browser Comet von Perplexity war es möglich, Prompt auf legitimen Webseiten (bspw. in einem Kommentar auf Reddit) einzubringen, die dann durch das LLM-System ausgeführt werden. Dabei war es im beschriebenen Fall möglich, den Browser Comet dazu zu bringen, Anmelde-Daten in einem Antwortkommentar weiterzugeben. In einem zweiten beschriebenen Fall war es sogar möglich, Anweisungen als Text in einem Bild zu verstecken. Der Text ist für Menschen nahezu unsichtbar, wird bei einer Analyse aber durch das LLM erkannt und ausgeführt.
Quellen
