Vorkehrungen der LLM-Anbieter zur Vermeidung urheberrechtlicher Konflikte

Die Anbieter großer Sprachmodelle implementieren mehrstufige Schutzmaßnahmen, um  potenzielle Urheberrechtsverletzungen bereits im Trainingsprozess zu vermeiden.

Diese Vorkehrungen erstrecken sich über sämtliche Phasen der Modellentwicklung, die ich kurz darstellen möchte.

In der initialen Phase der Datenbeschaffung setzen die Anbieter entweder auf den Kauf von vorgefertigten Datensets von Drittanbietern („Prepackaging“) oder nutzen Web-Crawler, um große Datenmengen aus dem frei zugänglichen Internet zu sammeln. Die erstgenannte Option birgt allerdings das Risiko unbekannter Datenqualität und -quantität mit potenziellen Auswirkungen auf Modellverzerrungen in Form von Bias. Das alternative Web-Crawling ermöglicht es bereits in einem frühen Stadium auf die erklärten Nutzungsvorbehalte der Webseitenbetreiber zu reagieren und diese Daten nicht zu crawlen.

Während des Pre-Trainings greifen mehrere Schutzmechanismen ineinander: Einerseits nutzen Anbieter wie OpenAI lizensierte Partnerschaften wie bspw. Shutterstock für die Bildgenerierung. Andererseits kommen bei unlizenzierten Inhalten spezialisierte Filter und Klassifikatoren zum Einsatz, welche die Daten nach Kriterien wie Sicherheit, personenbezogenen Daten, explizite Opt-Outs und Datenqualität scannen und problematische Inhalte markieren. Fortschrittliche Datenfilterprozesse reinigen die Datensätze zusätzlich von unerwünschten Inhalten. Von besonderer Bedeutung ist die sogenannte „Deduplizierung“, bei der algorithmisch doppelte oder stark ähnliche Datenpunkte eliminiert werden, um das „Overfitting“ als übermäßiges Auswendiglernen einzelner Datenpunkte (Memorization) zu verhindern.

Während des eigentlichen Trainingsprozesses findet keine urheberrechtlich relevante Vervielfältigung im rechtlichen Sinne statt. Die Daten werden eben nicht als explizite Kopien im Modell gespeichert (wie bei einer Datenbank), sondern durch Parametrisierung abstrahiert: Informationen, Strukturen und Muster werden in die Gewichte des neuronalen Netzes überführt. Das Modell erlernt somit abstrakte Ideen, Fakten, Stile und Logiken, nicht jedoch konkrete Werke. 

Im Post-Training erfolgt eine Verhaltensausrichtung durch Methoden wie das Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF), um das Modell „hilfreich, ehrlich und harmlos“ zu gestalten. Die Modelle werden explizit darauf trainiert, Anfragen zur Reproduktion urheberrechtlich geschützter Inhalte abzulehnen. Sie lernen durch Beispiele, problematische Anfragen zu erkennen und zu verweigern. Gut trainierte Modelle erkennen zudem die Absicht (Intent) des Nutzers. Wenn dieser darauf abzielt, einen geschützten Inhalt durch ein „Jailbreak“ zu reproduzieren, verweigert es durch das gelernte Handeln die Ausgabe. Zusätzlich analysieren separate Klassifikatoren den Output in Echtzeit, um die Generierung von geschützten Inhalten zu blockieren.

Trotz dieser umfassenden Schutzmaßnahmen zeigen Fälle wie das GEMA-Urteil und die Stanford-Studie von dem Vortrag letzter Woche, dass Memorization-Effekte nicht vollständig ausgeschlossen werden können. Die urheberrechtliche Bewertung solcher Reproduktionen folgt nach der EuGH-Rechtsprechung und der Literatur einer dreistufigen Prüfung: Zunächst werden KI-Output und Ausgangswerk auf Ähnlichkeiten verglichen, sodann wird ermittelt, welche dieser ähnlichen Merkmale des Ausgangswerks überhaupt urheberrechtlichen Schutz genießen, und schließlich wird geprüft, ob eben diese Merkmale in einem „wiedererkennbaren Maße“ übernommen wurden. Dabei ist jedoch der Gestaltungsspielraum des Ausgangswerkes zu beachten, da Werke mit geringem Gestaltungsspielraum häufig nur einen geringen Wiedererkennungswert aufweisen. Erst wenn alle drei Prüfungsstufen bejaht werden, kommt eine Urheberrechtsverletzung in Betracht. Der BGH nimmt darüber hinaus eine Gesamtbetrachtung vor, nach der die einzelnen Gestaltungsmerkmale im Gesamtkontext des Werks zu würdigen sind, so wie es sich dem Betrachter präsentiert.

In der anschließenden Diskussion sind wir auf die Frage eingegangen, ob die Anbieter im Rahmen einer „verschärften Transparenzpflicht“ ihre Filter und Klassifikatoren offenlegen sollten. Zurecht wurde angesprochen, dass diese Pflicht die Anbieter unverhältnismäßig einschränken würde. Der Vorschlag, auf bereits vorgefertigte und von lizenzpflichtigen Inhalten bereinigte Datensets i.R.d. „Prepackaging“ zurückzugreifen führte zu der zutreffenden Ansicht, dass dies eine erhebliche Auswirkung auf die Entwicklung und die Fähigkeiten des Modells haben würde und somit nicht wirklich konkurrenzfähig ist.

Quellen:

  1. Systemcards von OpenAI (GPT-4.5, vom 27.02.2025; GPT-4o, vom 08.08.2024) und Anthropic (Claude Sonnet 4.5,vom September 2025).
  2. Anthropic, Claude´s Constitution, vom 21.01.2026, leadauthors: Amanda Askell and Joe Carlsmith.
  3. Baumann, Malte, Generative KI und Urheberrecht –Urheber und Anwender im Spannungsfeld, NJW 2023, 3673 ff.
  4. Schumacher, Pablo, Whitepaper zu Urheberrecht und generativer KI -Technische und rechtliche Hintergründe und Möglichkeiten für Urheberinnen und Urheber, bitkome.V., aus 2024.