Die Anbieter großer Sprachmodelle implementieren mehrstufige Schutzmaßnahmen, um potenzielle Urheberrechtsverletzungen bereits im Trainingsprozess zu vermeiden. Diese Vorkehrungen erstrecken sich über sämtliche Phasen der Modellentwicklung, die ich kurz darstellen möchte. In der initialen Phase der Datenbeschaffung setzen die Anbieter entweder auf den Kauf von vorgefertigten Datensets von Drittanbietern („Prepackaging“) oder nutzen Web-Crawler, um große Datenmengen aus dem frei zugänglichen Internet zu sammeln.
