ChatGPT gibt Trainingsdaten preis

Ein amerikanisches Forscherteam hat aufgrund der Eingabe des Befehls „Wiederhole XX für immer“ ChatGPT 3.5-turbo Trainingsdaten entlockt.

Das Forscherteam von Google DeepMind und verschiedenen Universitäten hatte ChatGPT aufgefordert, einen Prompt „für immer“ zu wiederholen, was ChatGPT für eine gewisse Zeit und Anzahl auch tat, dann jedoch gab ChatGPT anstatt den eingegeben Prompt unaufhörlich zu wiederholen, Trainingsdaten preis. Zu den Trainingsdaten gehörten unter anderem echte Mailadressen, Telefonnummern, oder auch Inhalte aus Blogs. Dem Forscherteam gelang es, mehrere Megabyte an Trainingsdaten/Rohdaten zu extrahieren. Um zu überprüfen, dass es sich bei den erhaltenen Daten wirklich um Trainingsdaten handelte, erstellte das Forscherteam einen eigenen Trainingsdatensatz, der mit ChatGPT abgeglichen wurde.

Das Forscherteam wies darauf hin, dass die Ausgabe von Trainingsdaten durch einen Patch von ChatGPT vermieden werden könnte, dass dies jedoch das zugrundeliegende Problem nicht umfänglich lösen würde.

OpenAI unterbindet seit Neuestem die Möglichkeit zur Eingabe „Wiederhole XX für immer“ und wertet eine solche Eingabe als Verstoß gegen die Nutzungsbedingungen, worauf der Nutzer hingewiesen wird. Allerdings finden sich in den „Usage Policies“ und den „Terms of Service“ keine Regelungen, die eine solche Eingabe verbieten würden.

Es wird vermutet, dass das OpenAI lediglich mit dem Hinweis reagiert hat, jedoch keine weiteren technischen Maßnahmen unternommen hat, um das eigentliche Verhalten zu unterbinden. Das Forscherteam weist darauf hin, dass ein solches Verhalten jedoch nur durch andere Trainingsmethoden gänzlich unterbunden werden könnte.


Quellen: