Künstliche Intelligenz und Urheberrecht – Extracting Books from Production Language Models

Ausgangspunkt war die Stanford-Studie „Extracting Books from Production Language Models“, die empirisch untersucht, ob große Sprachmodelle trotz implementierter Schutzmechanismen in der Lage sind, urheberrechtlich geschützte Werke in langen, nahezu wortgleichen Textpassagen wiederzugeben. Im Zentrum stand dabei die Frage, ob sich aus produktiv eingesetzten Modellen tatsächlich reproduzierbare Outputs erzeugen lassen, die inhaltlich mit geschützten Werken übereinstimmen.

Untersucht wurden die Modelle Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro und Grok 3.

Die Forschenden gingen dabei zweistufig vor. In einem ersten Schritt forderten sie die Modelle auf, bekannte Textpassagen – etwa den Beginn des ersten Kapitels von „Harry Potter and the Philosopher’s Stone“ – wortgleich fortzusetzen. Wurde dies abgelehnt, wurde der Prompt systematisch variiert, teils bis zu 10.000 Mal. Diese Vorgehensweise wird als „Best-of-N“ (BoN) bezeichnet und gilt als Umgehung bestehender Sicherheitsschranken. In einem zweiten Schritt wurde der jeweils erzeugte Text fortlaufend weitergeführt, indem das Modell erneut zur Fortsetzung aufgefordert wurde. Die Übereinstimmung mit dem Referenzwerk wurde anhand der sogenannten „near verbatim recall“-Metrik gemessen, die auf dem längsten identischen Textsegment basiert. Berücksichtigt wurden ausschließlich zusammenhängende Passagen mit mindestens 100 Wörtern.

Die Ergebnisse zeigen deutliche Unterschiede zwischen den getesteten Modellen. Für Claude 3.7 Sonnet wurde für das erste Harry-Potter-Buch ein near-verbatim-recall-Wert von bis zu 95,8 % festgestellt, für Gemini 2.5 Pro und Grok 3 Werte von 76,8 % bzw. 70,3 %. GPT-4.1 verweigerte die Zusammenarbeit weitgehend; hier lag der Recall-Wert bei etwa 4 %. Nach Darstellung der Autoren konnte Claude 3.7 in einzelnen Fällen nahezu vollständige Bücher reproduzieren, darunter neben „Harry Potter“ auch „1984“. Gemini und Grok folgten den Aufforderungen teilweise ohne weitergehendes Prompt-Engineering (Jailbreak).

Die Studie kommt zu dem Ergebnis, dass große Sprachmodelle entgegen den Aussagen ihrer Anbieter Teile ihrer Trainingsdaten memorisieren und dass bestehende Sicherheitsmechanismen auf Modell- und Systemebene nicht in allen Fällen verhindern, dass urheberrechtlich geschützte Inhalte extrahiert werden können. 

Rechtlich ist in diesem Zusammenhang auf die im Verfahren GEMA vs. OpenAI vertretene Linie zu verweisen. Danach kann sowohl die Memorisierung geschützter Inhalte im Modell als auch deren nahezu wortgleiche Wiedergabe im Output eine Vervielfältigung im Sinne von § 16 UrhG darstellen, sofern die Werke in reproduzierbarer Form wiedergegeben werden. Die Stanford-Studie ist in diesem Zusammenhang von Bedeutung, da sie die tatsächliche Reproduzierbarkeit urheberrechtlich geschützter Inhalte empirisch untersucht.

Quellen:

Ahmed / Cooper / Koyejo / Liang, Extracting Books from Production Language Models, abrufbar unter: https://arxiv.org/abs/2601.02671
Heise Online, Autocomplete: Large language models can repeat training data verbatim, abrufbar unter: https://www.heise.de/en/news/Autocomplete-Large-language-models-can-repeat-training-data-verbatim-11139443.html