
Das Paradoxon des Parasiten: Eine Welt, die von einem unsichtbaren Wirt ernährt wird
Wir stehen am Beginn einer neuen Ära, die von künstlicher Intelligenz angetrieben wird. Im Zentrum dieses Wandels steht ein faszinierendes Gedankenexperiment: Wenn jeder nur noch KI-Anwendungen wie Google Gemini nutzt, um Antworten zu erhalten, welchen Wert hat dann die Arbeit der Millionen von Menschen, die das Wissen, die Kreativität und die Daten als Grundlage dafür quasi kostenfrei zur Verfügung stellen? Ist das nicht zutiefst unfair? Diese Frage ist keine akademische Spitzfindigkeit. Sie deckt ein grundlegendes Paradoxon auf, das im Herzen des aktuellen KI-Ökosystems schlägt: Die generative KI funktioniert in ihrer jetzigen Form wie ein Parasit, der sich von einem riesigen, unsichtbaren Wirt – den von Menschen geschaffenen Inhalten des Internets – ernährt, während sie gleichzeitig die ökonomischen Grundlagen untergräbt, die diesen Wirt am Leben erhalten.
Das Ausmaß der Nahrungsaufnahme
Um die Dimensionen dieses Prozesses zu verstehen, muss man sich die schiere Menge an Daten vor Augen führen, die für das Training eines großen Sprachmodells (Large Language Model, LLM) wie Gemini erforderlich ist. Es handelt sich nicht um ein abstraktes „Lernen“, sondern um das systematische, groß angelegte Kopieren und Verarbeiten der gesamten Bandbreite menschlichen digitalen Ausdrucks. LLMs werden mit einer „massiven Datenmenge“ trainiert, die Milliarden von Texten und anderen Inhalten umfasst.1 Die Grundlage dafür bilden riesige Web-Crawls von gemeinnützigen Organisationen wie
Common Crawl. Diese Organisation archiviert Petabytes an Daten und fügt monatlich 3 bis 5 Milliarden neue Seiten hinzu.2 Diese Datensätze sind das Fundament, das durch kuratierte Quellen wie Wikipedia, Bücher (sowohl gemeinfreie als auch illegal beschaffte), wissenschaftliche Arbeiten und Code-Archive ergänzt wird.4 OpenAI gibt explizit an, öffentlich zugängliche Informationen aus dem Internet, Daten von Drittpartnern und Nutzerinformationen zu verwenden.7
Diese Abhängigkeit ist nicht nur fundamental, sondern birgt auch ein systemisches Risiko. LLMs benötigen einen konstanten Strom an riesigen, vielfältigen und aktuellen Daten, um relevant und präzise zu bleiben.1 Diese Daten werden überwiegend von menschlichen Kreativen produziert, die innerhalb verschiedener Wirtschaftsmodelle agieren.9 Das aktuelle KI-Modell stört jedoch genau diese Modelle, indem es den Traffic und damit die Einnahmen reduziert.12 Indem die KI-Industrie ihre eigene Datenquelle untergräbt, schafft sie eine langfristige Nachhaltigkeitskrise für sich selbst. Wenn der „Wirt“ geschwächt wird, wird der „Parasit“ letztendlich unter einem Mangel an frischer, hochwertiger Nahrung leiden, was zu einer Stagnation oder Verschlechterung der Modelle führen wird.
Die wahre Natur der „Bestie“: Stochastische Papageien, keine denkenden Maschinen
Um die ethischen und rechtlichen Implikationen zu bewerten, ist es entscheidend, die Funktionsweise eines LLM zu verstehen. Es handelt sich nicht um ein bewusstes Wesen, das „versteht“, sondern um ein hochkomplexes statistisches Modell. Der Begriff „stochastischer Papagei“ beschreibt dies treffend: Es sind Systeme, die statistische Zusammenhänge nutzen, um überzeugend menschenähnlichen Text zu generieren, ohne dabei ein echtes semantisches Verständnis zu besitzen.14 Sie sind darauf trainiert, das wahrscheinlichste nächste Wort in einer Sequenz vorherzusagen.4 Sie sind Meister der Nachahmung und Mustererkennung, nicht des Verstehens. Obwohl sie emergente Fähigkeiten zur logischen Schlussfolgerung zeigen können, ist ihre Grundlage probabilistisch, nicht kognitiv.17 Diese Unterscheidung ist von zentraler Bedeutung, da sie die später zu diskutierende Analogie zum „menschlichen Lernen“ entkräftet.
Die Ungerechtigkeit im Kern
Hier liegt das zentrale ethische Dilemma. Der Wert wird von Millionen von Menschen geschaffen, aber von einer Handvoll Technologiegiganten erfasst und kommerzialisiert, die für das grundlegende Rohmaterial nicht bezahlt haben. Der Prozess umfasst das Scraping von allem, von persönlichen Blogs und Nachrichtenartikeln bis hin zu urheberrechtlich geschützten Büchern aus Pirateriequellen wie Books3.18 Dies geschieht, um kommerzielle Produkte zu entwickeln, die, wie der Anstieg der Marktkapitalisierung von Microsoft um eine Billion Dollar zeigt, immens wertvoll sind.21
Die KI-Industrie verwendet den Begriff „Trainingsdaten“, um dieses Material zu beschreiben. Dies ist jedoch ein beschönigender Euphemismus, der die wahre Natur der verwendeten Inhalte verschleiert. Der Begriff „Daten“ impliziert rohe, unstrukturierte und wertneutrale Informationen.1 Tatsächlich handelt es sich jedoch um „Werke“ – Romane, Artikel, Fotografien, Code –, von denen jedes ein fertiges Produkt menschlicher Arbeit, Kreativität und geistigen Eigentums darstellt.18 Indem „kreative Werke“ als „Trainingsdaten“ umgedeutet werden, minimiert die Industrie den wahrgenommenen Wert und die geistigen Eigentumsansprüche der ursprünglichen Schöpfer. Der Akt des massenhaften Kopierens erscheint so eher als neutraler technischer Prozess denn als die Aneignung fertiger Güter.
Der alte Pakt ist gebrochen: Wie die KI den Klick getötet hat
Jahrzehntelang basierte das digitale Veröffentlichungswesen auf einem ungeschriebenen Pakt zwischen Inhaltserstellern und Suchmaschinen. Dieser implizite Vertrag besagte: Google und andere durchsuchen und indexieren Inhalte und schicken im Gegenzug wertvollen, monetarisierbaren Traffic an die Websites der Ersteller. Dieser Pakt wurde nun einseitig von der KI aufgekündigt, was eine existenzielle Krise für die gesamte digitale Medienlandschaft auslöst.
Der Motor der Creator Economy
Die Creator Economy, von einzelnen Bloggern bis hin zu großen Nachrichtenorganisationen, hat ihre Arbeit historisch durch eine Vielzahl von Einnahmequellen finanziert, die fast alle vom Website-Traffic abhängig sind. Dazu gehören Werbeeinnahmen (oft an Seitenaufrufe oder Klicks gekoppelt), Affiliate-Marketing, gesponserte Beiträge, Abonnements und Paywalls, der Verkauf digitaler Produkte und direkte Spenden.9 Über Jahrzehnte war die Google-Suche der primäre Motor, der den Traffic lieferte, der diese Modelle antrieb.
Die große Kannibalisierung
Die Einführung von KI-gestützten Zusammenfassungen (AI Overviews) und Chatbots hat diese Dynamik radikal verändert. Indem sie direkte Antworten liefern, machen sie es für den Nutzer überflüssig, auf die ursprüngliche Quell-Website zu klicken. Dadurch wird die lebenswichtige Verbindung zwischen Inhaltserstellung und Monetarisierung gekappt. Die Daten zeichnen ein düsteres Bild:
- Verleger berichten von „plötzlichen und anhaltenden“ Traffic-Rückgängen von 25 % bis 30 %.12
- Der Eigentümer der Daily Mail gibt an, dass die Klickraten bei einigen Suchanfragen um bis zu 89 % gesunken sind.12
- Eine Studie unter den 500 meistbesuchten Publishern zeigt einen Rückgang der Besuche um 27 % im Jahresvergleich.30
- Die World History Encyclopedia verzeichnete einen Einbruch des Traffics um 25 %, nachdem sie in den AI Overviews prominent platziert wurde.31
Führungskräfte aus der Medienbranche beschreiben dies als einen „zweigleisigen Angriff“ und eine „existenzielle Krise“.12 Der Wandel von der „Suche“ zur „Antwort“ gestaltet die ökonomische Geografie des Internets grundlegend um. Das alte Web war ein Netzwerk von Zielen (Websites), und Suchmaschinen waren die Verzeichnisse, die die Reise dorthin erleichterten. Der Wert (Werbeeinnahmen, Abonnements) wurde am Zielort erfasst. KI-Schnittstellen wie Gemini und ChatGPT werden nun selbst zum Ziel. Sie verweisen nicht nur auf Informationen, sie synthetisieren und präsentieren sie. Da die Nutzer ihre Antworten direkt von der KI erhalten, schwindet die Notwendigkeit, die ursprünglichen Quell-Websites zu besuchen.30 Dies führt zu einer massiven Verlagerung der wirtschaftlichen Macht. Der Wert, der einst auf Millionen von Websites verteilt war, wird nun innerhalb der KI-Plattformen konsolidiert, die über ihnen stehen.
Das gebrochene Versprechen
Die offiziellen Erklärungen von Google, dass die KI-Suche „qualitativ hochwertige Klicks“ fördere, stehen in direktem Widerspruch zu den Daten und Erfahrungen der Verleger. Liz Reid, Leiterin der Google-Suche, behauptet, die KI treibe „mehr Suchanfragen und qualitativ hochwertige Klicks“ an.12 Publisher-Verbände wie Digital Content Next (DCN) und die Professional Publishers Association (PPA) legen jedoch Daten vor, die Rückgänge von 10 % bis 25 % im Jahresvergleich belegen.13 Der implizite Vertrag – Google crawlt Inhalte und schickt im Gegenzug Traffic – ist zerbrochen.31
Dieser Wandel schafft auch ein „Vertrauensdefizit“, das nicht nur den Verlagen, sondern auch dem Nutzen der KI selbst schadet. Früher verlieh ein hohes Ranking bei Google selbst unbekannten Publishern eine gewisse Glaubwürdigkeit, da die Quelle sichtbar war.13 AI Overviews synthetisieren Informationen oft ohne prominente, klare Quellenangabe oder, schlimmer noch, „halluzinieren“ Fakten und schreiben sie fälschlicherweise seriösen Quellen zu.32 Dies untergräbt das Vertrauen der Nutzer in die bereitgestellten Informationen. Wenn Nutzer die Quelle nicht leicht überprüfen können oder der Zusammenfassung der KI nicht trauen, sinkt der Wert der „Antwort“. Dies führt zu einem Teufelskreis: Verlage verlieren Traffic und den Anreiz, qualitativ hochwertige, überprüfbare Inhalte zu produzieren, was wiederum die Trainingsdaten für zukünftige KIs verschlechtert und sie noch unzuverlässiger macht.
Der Raubzug am helllichten Tag: Urheberrecht, „Fair Use“ und die falsche Analogie des „Lernens“
Die Frage der „Unfairness“ findet ihren juristischen und ethischen Kern im Konflikt um das Urheberrecht. Die Verteidigung der KI-Unternehmen stützt sich auf die Doktrin des „Fair Use“ (in den USA) und eine verführerische, aber zutiefst fehlerhafte Analogie: die Gleichsetzung des maschinellen Trainings mit menschlichem Lernen. Diese Argumentation ist ein eigennütziger Versuch, eine beispiellose Urheberrechtsverletzung zu legitimieren.
Das juristische Schlachtfeld
Mehrere wegweisende Klagen definieren derzeit die Grenzen dieses Konflikts:
- The New York Times gegen OpenAI & Microsoft: In dieser Klage wird massiver Urheberrechtsmissbrauch vorgeworfen. Es wird dargelegt, wie ChatGPT nahezu wörtliche Auszüge aus Artikeln hinter der Paywall reproduziert und damit direkt mit dem Kernprodukt der Times konkurriert und dieses entwertet.21
- Authors Guild gegen Anthropic: Diese Klage konzentriert sich auf die Verwendung von raubkopierten Buchdatensätzen. Ein historischer Vergleich in Höhe von 1,5 Milliarden US-Dollar erkennt den Schaden an, der durch die Verwendung illegal beschaffter Werke entsteht.19
- Getty Images gegen Stability AI: Hier geht es um das Scraping von Millionen urheberrechtlich geschützter Bilder, einschließlich der Reproduktion von Wasserzeichen in KI-generierten Ausgaben, was auch eine Markenrechtsverletzung darstellt.22
Die Dekonstruktion von „Fair Use“
Die „Fair Use“-Doktrin des US-Urheberrechts basiert auf vier Faktoren: (1) Zweck und Charakter der Nutzung, (2) Art des urheberrechtlich geschützten Werks, (3) Umfang und Wesentlichkeit des verwendeten Teils und (4) Auswirkung auf den Markt.40 KI-Unternehmen argumentieren, ihre Nutzung sei „transformativ“, da das Ziel darin bestehe, ein Modell zu trainieren und nicht, das ursprüngliche Werk neu zu veröffentlichen.40 Sie behaupten, der Trainingsprozess sei analog zum Lesen von Büchern durch einen Menschen zu Forschungszwecken.43
Die „Fair Use“-Verteidigung ist jedoch ein strategischer Versuch, ein Geschäftsmodell nachträglich zu legalisieren, das auf der Annahme beruhte, dass eine massenhafte Urheberrechtsverletzung zu schwierig oder zu teuer zu verfolgen wäre. Der Aufbau eines grundlegenden Modells erfordert die Aufnahme des größtmöglichen Datensatzes.1 Eine Lizenzierung dieser Inhalte
vor dem Training wäre unerschwinglich teuer und logistisch unmöglich gewesen. Die Industrie verfolgte daher einen Ansatz des „erst scrapen, dann um Verzeihung bitten“ und nahm alles, was öffentlich zugänglich war (und einiges, was es nicht war, wie raubkopierte Bücher).18 Das „Fair Use“-Argument ist kein Prinzip, mit dem sie begannen, sondern ein juristischer Schutzschild, den sie nun im Nachhinein zu errichten versuchen, um ihr Multi-Billionen-Dollar-Unternehmen zu schützen. Das Aufkommen eines Lizenzmarktes 45 untergräbt den vierten Faktor des Fair Use – den Marktschaden – tödlich, indem es beweist, dass ein Markt existiert, der geschädigt werden kann.
Die falsche Analogie: Warum KI-Training NICHT menschliches Lernen ist
Die zentrale Verteidigung der KI-Industrie bricht bei genauerer Betrachtung zusammen.
- Maßstab und Perfektion: Menschen lernen aus einer begrenzten Anzahl von Werken und behalten „unvollkommene Eindrücke“ zurück.42 Das KI-Training beinhaltet die Erstellung perfekter, vollständiger digitaler Kopien von Millionen oder Milliarden von Werken in einem übermenschlichen Maßstab.46 Ein Student kann nicht legal die gesamte Bibliothek kopieren, um zu „lernen“.48
- Kommerzielle Ausbeutung: Menschliches Lernen dient der persönlichen Bereicherung oder der Schaffung eines neuen, eigenständigen Werks. Das KI-Training ist ein direkter, zwischengeschalteter Schritt beim Aufbau eines kommerziellen Produkts, das oft direkt mit den Quellen konkurriert, auf denen es trainiert wurde.48 Der Gesellschaftsvertrag, der davon ausgeht, dass Menschen aus veröffentlichten Werken lernen, hat nie eine Maschine vorweggenommen, die dies tut, um ein konkurrierendes Produkt in großem Maßstab zu schaffen.46
- Fehlende Kognition: Die Analogie des „Lernens“ ist eine gefährliche Anthropomorphisierung.46 KI-Systeme sind keine Menschen; sie sind komplexe Werkzeuge. Sie „verstehen“ nicht und haben keine „Ideen“. Sie replizieren statistisch Muster aus ihren Trainingsdaten.14 Diesen mechanischen Prozess mit menschlicher Kognition gleichzusetzen, ist ein Kategorienfehler, der dazu dient, die Schutzmechanismen und Freiheiten zu beanspruchen, die wir menschlichem Denken gewähren.
Die juristischen Ergebnisse schaffen zudem einen zersplitterten und widersprüchlichen Präzedenzfall, bei dem die Methode der Beschaffung härter beurteilt wird als der Akt des Trainings selbst. Im Fall Anthropic entschied der Richter, dass das Training mit legal erworbenen Werken Fair Use sei, die Beschaffung dieser Werke durch Piraterie jedoch nicht.43 Dies schafft eine bizarre Rechtslandschaft. Es legt nahe, dass der Akt des massenhaften Kopierens für das Training zulässig ist, solange die ursprüngliche Kopie legal beschafft wurde (z. B. durch den Kauf eines Buches vor dem Scannen). Diese Logik adressiert jedoch nicht den Kernschaden für die Schöpfer: die Schaffung eines abgeleiteten, konkurrierenden Produkts, das das Original entwertet, unabhängig davon, wie die Trainingsdaten beschafft wurden.
Eine Gabelung am Weg: Die Gestaltung einer neuen digitalen Wirtschaft
Nach der Analyse des Problems ist es an der Zeit, die aufkommenden Lösungen zu untersuchen. Die Auseinandersetzung zwischen KI-Entwicklern und Inhaltserstellern erzwingt die Entwicklung neuer ökonomischer Modelle. Es zeichnen sich verschiedene Wege ab, die die Zukunft der Inhaltemonetarisierung und -vergütung im Zeitalter der KI prägen könnten.
Der Pakt der Barone: Pauschale Lizenzgeschäfte
Der vorherrschende Trend sind massive, hinter verschlossenen Türen ausgehandelte Abkommen zwischen den KI-Giganten und den größten Medienkonzernen. OpenAI hat Verträge mit Verlagen wie Associated Press, Axel Springer, Le Monde und der Financial Times unterzeichnet, deren Wert von 1-5 Millionen US-Dollar pro Jahr bis zu den 250 Millionen US-Dollar über fünf Jahre für News Corp reicht.53 Diese Deals bieten den KI-Firmen Rechtssicherheit und den großen Verlagen eine neue Einnahmequelle.
Die Revolution der Mikrozahlungen: Nutzungsbasierte Vergütung
Es entstehen auch granularere und potenziell gerechtere Modelle, die die Bezahlung an die tatsächliche Nutzung knüpfen. Perplexity AI hat ein Modell zur Umsatzbeteiligung vorgeschlagen, bei dem Verlage einen „zweistelligen“ Prozentsatz der Werbeeinnahmen erhalten, wenn ihre Inhalte zitiert werden.58 Bill Gross von ProRata schlägt ein Modell vor, das eine „Crawl-Gebühr“ (z. B. einen Cent pro Crawl) mit einer 50/50-Lizenzgebühr kombiniert, wenn Inhalte in einer Antwort verwendet werden, ähnlich dem Spotify-Modell.59
Der Fonds der Schöpfer: Direkte Vergütung für das Training
Einige Plattformen gehen einen anderen Weg und bezahlen die Kreativen direkt für ihren Beitrag zu den Trainingsdatensätzen selbst. Adobe hat einen Bonuspool für seine Adobe-Stock-Beitragenden eingerichtet, deren Arbeiten zum Training seines Firefly-Modells verwendet werden.60 Canva hat einen 200-Millionen-Dollar-Fonds geschaffen, um Kreative zu entschädigen, die zustimmen, dass ihre Arbeiten für das KI-Training genutzt werden.60
Der souveräne Verleger: Geschlossene Gärten und markeneigene LLMs
Eine defensive Strategie für Verlage besteht darin, ihre eigenen proprietären KI-Tools zu entwickeln. Verlage können ihre Inhalte lizenzieren, um ihre eigenen, markengeschützten Chatbots zu trainieren, die auf KI-Infrastruktur (wie der von OpenAI) laufen, aber ausschließlich auf ihren eigenen Archiven trainiert sind.59 Der Policy Intelligence Assistant von Politico Pro ist ein frühes Beispiel dafür. Er schafft ein hochwertiges, differenziertes Produkt, das seine einzigartigen Daten monetarisiert.59
Die folgende Tabelle fasst diese aufkommenden Modelle zusammen und vergleicht ihre Mechanismen und potenziellen Auswirkungen.
Tabelle 1: Ein Vergleich aufkommender KI-Vergütungsmodelle
| Modell | Funktionsweise | Hauptbefürworter/Beispiele | Mögliche Vorteile | Mögliche Nachteile |
| Pauschale Lizenzierung | KI-Firmen zahlen hohe, pauschale Gebühren für den Zugriff auf ganze Inhaltsarchive. | OpenAI & News Corp 55, Microsoft & Axel Springer 55 | Garantierte Einnahmen für Verlage; rechtliche Klarheit für KI-Firmen. | Bevorzugt große Akteure; schließt unabhängige Kreative aus; fehlt nutzungsbasierter Wert; intransparente Bedingungen. |
| Umsatzbeteiligung | KI-Plattformen teilen einen Prozentsatz der Werbeeinnahmen, die neben KI-Antworten generiert werden. | Perplexity AI 58 | Verknüpft Vergütung direkt mit Nutzung/Sichtbarkeit; schafft eine fortlaufende Partnerschaft. | Komplex zu verfolgen und zu prüfen; Einnahmen anfangs möglicherweise gering; abhängig vom Werbeerfolg der KI-Plattform. |
| Crawl-Gebühren & Lizenzgebühren | Mikrozahlungen für jeden gecrawlten Inhalt, plus Lizenzgebühren bei Verwendung in einer Ausgabe. | ProRata (Bill Gross) 59 | Granular und theoretisch fair; bewertet jeden Inhalt; skalierbar. | Technisch anspruchsvoll in der Umsetzung; erfordert universelle Akzeptanz; Potenzial für geringe Gesamtauszahlungen. |
| Direkte Vergütungsfonds | Plattformen legen einen Fonds auf, um Boni an Kreative zu zahlen, deren Arbeit im Training verwendet wird. | Adobe Firefly 60, Canva 60 | Direkte Bezahlung an Kreative; erkennt den Wert der Trainingsdaten selbst an. | Auszahlungen oft willkürlich, intransparent und nicht an die tatsächliche Wirkung gekoppelt; kann als symbolische Geste angesehen werden. |
| Markeneigene LLMs | Verlage nutzen KI-Technologie, um proprietäre Tools zu entwickeln, die ausschließlich auf ihren eigenen Inhalten trainiert sind. | Politico Pro 59 | Volle Kontrolle über Inhalt und Monetarisierung; schafft ein einzigartiges Premium-Produkt; baut einen defensiven Schutzwall auf. | Hohe Entwicklungskosten; nur für Marken mit starken, umfangreichen und einzigartigen Archiven realisierbar. |
Fazit: Das menschliche Signal bewerten, bevor es im Rauschen untergeht
Wir kehren zur Ausgangsfrage zurück: Welchen Wert hat die menschliche Arbeit in einer Welt, die von KI-Antworten dominiert wird? Die Analyse zeigt, dass das aktuelle Modell nicht nur unfair, sondern auch langfristig selbstzerstörerisch ist. Wir riskieren, in einen informationellen Ouroboros zu geraten – eine Endlosschleife, in der KIs auf den synthetischen, abgeleiteten Ausgaben anderer KIs trainiert werden. Dies würde zu einem geschlossenen Kreislauf von immer faderen, fehleranfälligeren und homogenisierten Inhalten führen, ohne neue menschliche Erfahrungen, Untersuchungen und Kreativität.
Der eigentliche Wert von von Menschen geschaffenen Inhalten liegt nicht in ihrer Nützlichkeit als statistisches Muster für eine Maschine. Ihr Wert liegt in ihrer Verbindung zur Realität: gelebte Erfahrung, verifizierte Fakten, originäre Forschung und einzigartiger künstlerischer Ausdruck. Das ist das „menschliche Signal“.
Es ist an der Zeit für einen neuen, expliziten digitalen Pakt. Dieser Rahmen muss über die zerbrochene implizite Vereinbarung der Suchmaschinen-Ära hinausgehen. Er erfordert eine Kombination aus technologischen Lösungen (wie transparente Quellenangaben und Nutzungsverfolgung), rechtlicher Klarheit (Reform des Urheberrechts oder Klärung von Fair Use für KI) und neuen Wirtschaftsmodellen (wie die in Abschnitt 4 untersuchten), die die menschliche Schöpfung angemessen bewerten und vergüten. Das Ziel ist nicht, die KI aufzuhalten, sondern sie in ein Ökosystem zu integrieren, das weiterhin Anreize für die menschliche Arbeit schafft, die ihr überhaupt erst einen Wert verleiht. Ein Scheitern wäre nicht nur unfair gegenüber den Schöpfern – es würde letztendlich die KI selbst wertlos machen.
Referenzen
- Large Language Models (LLMs) with Google AI, Zugriff am September 10, 2025, https://cloud.google.com/ai/llms
- en.wikipedia.org, Zugriff am September 10, 2025, https://en.wikipedia.org/wiki/Common_Crawl
- Common Crawl – Open Repository of Web Crawl Data, Zugriff am September 10, 2025, https://commoncrawl.org/
- How Large Language Models (LLMs) Are Trained – Medium, Zugriff am September 10, 2025, https://medium.com/@arohipatel270/how-large-language-models-llms-are-trained-43644f703829
- What datasets are used to train LLMs? – Milvus, Zugriff am September 10, 2025, https://milvus.io/ai-quick-reference/what-datasets-are-used-to-train-llms
- LLM Training Data: The 8 Main Public Data Sources – Oxylabs, Zugriff am September 10, 2025, https://oxylabs.io/blog/llm-training-data
- How ChatGPT and our foundation models are developed – OpenAI Help Center, Zugriff am September 10, 2025, https://help.openai.com/en/articles/7842364-how-chatgpt-and-our-language-models-are-developed
- An overview of the Gemini app, Zugriff am September 10, 2025, https://gemini.google/overview/
- 15+ Ways to Make Money Online as a Content Creator [Free Expert Tips] – Riverside, Zugriff am September 10, 2025, https://riverside.com/blog/how-to-make-money-online
- 15 Ways to Monetize a Blog (+ Marketing Strategies) – Make a Living Writing, Zugriff am September 10, 2025, https://makealivingwriting.com/ways-to-monetize-a-blog/
- What is the Content Creator Economy? – The Tilt Publishing, Zugriff am September 10, 2025, https://www.thetilt.com/what-is-the-creator-economy
- ‘Existential crisis’: how Google’s shift to AI has upended the online news model, Zugriff am September 10, 2025, https://www.theguardian.com/media/2025/sep/06/existential-crisis-google-use-ai-search-upended-web-publishers-models
- Google AI Overviews linked to 25% drop in publisher referral traffic, new data shows, Zugriff am September 10, 2025, https://digiday.com/media/google-ai-overviews-linked-to-25-drop-in-publisher-referral-traffic-new-data-shows/
- What is a Stochastic Parrot? – Moveworks, Zugriff am September 10, 2025, https://www.moveworks.com/us/en/resources/ai-terms-glossary/stochastic-parrot
- www.moveworks.com, Zugriff am September 10, 2025, https://www.moveworks.com/us/en/resources/ai-terms-glossary/stochastic-parrot#:~:text=Stochastic%20parrots%20are%20AI%20systems%20that%20use%20statistical%20relationships%20learned,understanding%20behind%20the%20word%20patterns.
- Introduction to Large Language Models | Machine Learning – Google for Developers, Zugriff am September 10, 2025, https://developers.google.com/machine-learning/resources/intro-llms
- The Stochastic Parrot Hypothesis is debatable for the last generation of LLMs – LessWrong, Zugriff am September 10, 2025, https://www.lesswrong.com/posts/HxRjHq3QG8vcYy4yy/the-stochastic-parrot-hypothesis-is-debatable-for-the-last
- You Just Found Out Your Book Was Used to Train AI. Now What? – The Authors Guild, Zugriff am September 10, 2025, https://authorsguild.org/news/you-just-found-out-your-book-was-used-to-train-ai-now-what/
- Anthropic to pay authors $1.5 billion to settle lawsuit over pirated books used to train AI chatbots, Zugriff am September 10, 2025, https://apnews.com/article/anthropic-copyright-authors-settlement-training-f294266bc79a16ec90d2ddccdf435164
- Anthropic to pay $1.5 billion to settle authors’ copyright lawsuit – CBS News, Zugriff am September 10, 2025, https://www.cbsnews.com/news/anthropic-copyright-lawsuit-class-action-settlement-authors-1-5-billion/
- The New York Times v. OpenAI: The Biggest IP Case Ever – Sunstein LLP, Zugriff am September 10, 2025, https://www.sunsteinlaw.com/publications/the-new-york-times-v-openai-the-biggest-ip-case-ever
- Getty Images Statement, Zugriff am September 10, 2025, https://newsroom.gettyimages.com/en/getty-images/getty-images-statement
- www.captions.ai, Zugriff am September 10, 2025, https://www.captions.ai/blog-post/how-much-do-content-creators-make#:~:text=YouTube%20content%20creators%20often%20earn,on%20audience%20demographics%20and%20engagement.
- How Much Do Content Creators Make in 2025? – Captions, Zugriff am September 10, 2025, https://www.captions.ai/blog-post/how-much-do-content-creators-make
- How Much Do Content Creators Make In 2025? (+ my tips inside) – by Ramit Sethi, Zugriff am September 10, 2025, https://www.iwillteachyoutoberich.com/how-much-do-content-creators-make/
- How to Make Money as a Creator: A Comprehensive Guide for 2025 – Fourthwall, Zugriff am September 10, 2025, https://fourthwall.com/blog/how-to-make-money-as-a-creator-a-comprehensive-guide
- Monetize News Website: Top Ways To Earn Money From News Blog – 7Search PPC, Zugriff am September 10, 2025, https://www.7searchppc.com/blog/monetize-news-websites/
- Exploring Different Content Monetization Models – AIContentfy, Zugriff am September 10, 2025, https://aicontentfy.com/en/blog/exploring-different-content-monetization-models-1
- What is the Creator Economy?, Zugriff am September 10, 2025, https://creatoreconomyjobs.co/posts/what-is-the-creator-economy
- AI overviews: How are publishers adapting to the rise of clickless search? | The Current, Zugriff am September 10, 2025, https://www.thecurrent.com/marketing-strategy-ai-overviews-publishers-rise-clickless-search
- AI Took My Readers: Inside a Publisher’s Traffic Collapse – CMSWire.com, Zugriff am September 10, 2025, https://www.cmswire.com/digital-experience/ai-took-my-readers-inside-a-publishers-traffic-collapse/
- Stolen Stories or Fair Use? The New York Times v. OpenAI and the Limits of Machine Learning – Columbia Undergraduate Law Review, Zugriff am September 10, 2025, https://www.culawreview.org/ddc-x-culr-1/nyt-v-openai-and-microsoft
- Will AI Replace Google? The Future of AI and Google Search – SEO.com, Zugriff am September 10, 2025, https://www.seo.com/ai/will-ai-replace-google/
- The New York Times v. OpenAI and Microsoft – Smith & Hopen, Zugriff am September 10, 2025, https://smithhopen.com/2025/07/17/nyt-v-openai-microsoft-ai-copyright-lawsuit-update-2025/
- NYT v. OpenAI: The Times’s About-Face – Harvard Law Review, Zugriff am September 10, 2025, https://harvardlawreview.org/blog/2024/04/nyt-v-openai-the-timess-about-face/
- What Authors Need to Know About the $1.5 Billion Anthropic Settlement, Zugriff am September 10, 2025, https://authorsguild.org/news/what-authors-need-to-know-about-the-anthropic-settlement/
- Getty Images v Stability AI: why the remaining copyright claims are of more than secondary significance – Pinsent Masons, Zugriff am September 10, 2025, https://www.pinsentmasons.com/out-law/analysis/getty-images-v-stability-ai-copyright-claims-significance
- Getty Images v. Stability AI | BakerHostetler, Zugriff am September 10, 2025, https://www.bakerlaw.com/getty-images-v-stability-ai/
- Generative AI in the courts – Getty Images v Stability AI, Zugriff am September 10, 2025, https://www.penningtonslaw.com/news-publications/latest-news/2024/generative-ai-in-the-courts-getty-images-v-stability-ai
- Copyright Office Issues Key Guidance on Fair Use in Generative AI Training – Wiley Rein, Zugriff am September 10, 2025, https://www.wiley.law/alert-Copyright-Office-Issues-Key-Guidance-on-Fair-Use-in-Generative-AI-Training
- The Boundaries of Playing “Fair” When Training AI – Clifford Chance, Zugriff am September 10, 2025, https://www.cliffordchance.com/insights/resources/blogs/talking-tech/en/articles/2025/03/the-boundaries-of-playing-fair-when-training-ai.html
- Copyright and Generative AI: Recent Developments on the Use of Copyrighted Works in AI, Zugriff am September 10, 2025, https://www.mcguirewoods.com/client-resources/alerts/2025/9/copyright-and-generative-ai-recent-developments-on-the-use-of-copyrighted-works-in-ai/
- Two US decisions find that reproducing works to train large language models is fair use – Part 3: Comparing the Anthropic and Meta decisions – Norton Rose Fulbright, Zugriff am September 10, 2025, https://www.nortonrosefulbright.com/en/knowledge/publications/6c3dd9c0/two-us-decisions-find-that-reproducing-works-to-train-large
- IP Alert | Two Big AI/LLM Copyright Rulings: Fair Use OK, But Piracy/Output Still Matters, Zugriff am September 10, 2025, https://bannerwitcoff.com/ip-alert-two-big-ai-llm-copyright-rulings-fair-use-ok-but-piracy-output-still-matters/
- How the Emerging Market for AI Training Data is Eroding Big Tech’s ‘Fair Use’ Copyright Defense | TechPolicy.Press, Zugriff am September 10, 2025, https://www.techpolicy.press/how-the-emerging-market-for-ai-training-data-is-eroding-big-techs-fair-use-copyright-defense/
- Comparing AI Training to Human Learning Is Cartoonishly Absurd | Copyright Alliance, Zugriff am September 10, 2025, https://copyrightalliance.org/ai-training-is-not-human-learning/
- Training is Everything: Artificial Intelligence, Copyright, and “Fair Training” – Insight @ Dickinson Law, Zugriff am September 10, 2025, https://insight.dickinsonlaw.psu.edu/cgi/viewcontent.cgi?article=1189&context=dlr
- Copyright Office Weighs In on AI Training and Fair Use | Skadden, Arps, Slate, Meagher & Flom LLP, Zugriff am September 10, 2025, https://www.skadden.com/insights/publications/2025/05/copyright-office-report
- Court Rules AI Training on Copyrighted Works Is Not Fair Use — What It Means for Generative AI – Davis+Gilbert LLP, Zugriff am September 10, 2025, https://www.dglaw.com/court-rules-ai-training-on-copyrighted-works-is-not-fair-use-what-it-means-for-generative-ai/
- Against most, but not all, AI risk analogies – Effective Altruism Forum, Zugriff am September 10, 2025, https://forum.effectivealtruism.org/posts/QPDxEgnDdG748kf3j/against-most-ai-risk-analogies
- AI is like… A literature review of AI metaphors and why they matter for policy, Zugriff am September 10, 2025, https://law-ai.org/ai-policy-metaphors/
- Anthropic Wins on Fair Use for Training its LLMs; Loses on Building a “Central Library” of Pirated Books – Authors Alliance, Zugriff am September 10, 2025, https://www.authorsalliance.org/2025/06/24/anthropic-wins-on-fair-use-for-training-its-llms-loses-on-building-a-central-library-of-pirated-books/
- Some French publishers are giving AI revenue directly to journalists. Could that ever happen in the U.S.? | Nieman Journalism Lab, Zugriff am September 10, 2025, https://www.niemanlab.org/2025/09/in-france-ai-revenue-is-going-directly-to-journalists-could-that-happen-in-the-u-s/
- Who’s suing AI and who’s signing: Brazilian newsbrand sues OpenAI and Japanese newspaper sues Perplexity – Press Gazette, Zugriff am September 10, 2025, https://pressgazette.co.uk/platforms/news-publisher-ai-deals-lawsuits-openai-google/
- 2024 in review: A timeline of the major deals between publishers and AI companies, Zugriff am September 10, 2025, https://digiday.com/media/2024-in-review-a-timeline-of-the-major-deals-between-publishers-and-ai-companies/
- ChatGPT-maker OpenAI signs deal with AP to license news stories, Zugriff am September 10, 2025, https://apnews.com/article/openai-chatgpt-associated-press-ap-f86f84c5bcc2f3b98074b38521f5f75a
- AP, Open AI agree to share select news content and technology in new collaboration | The Associated Press, Zugriff am September 10, 2025, https://www.ap.org/media-center/press-releases/2023/ap-open-ai-agree-to-share-select-news-content-and-technology-in-new-collaboration/
- Perplexity to Share Ad Revenue with Content Creators – Just Think AI, Zugriff am September 10, 2025, https://www.justthink.ai/blog/perplexity-to-share-ad-revenue-with-content-creators
- How publishers are getting paid for AI use of their content – ContentGrip, Zugriff am September 10, 2025, https://www.contentgrip.com/ai-publishers-crawl-fees/
- How should creators be compensated for their work training AI models? – Quartz, Zugriff am September 10, 2025, https://qz.com/how-should-creators-be-compensated-for-their-work-train-1850932454
KI-gestützt. Menschlich veredelt.
Martin Käßler ist ein erfahrener Tech-Experte im Bereich AI, Technologie, Energie & Space mit über 15 Jahren Branchenerfahrung. Seine Artikel verbinden fundiertes Fachwissen mit modernster KI-gestützter Recherche- und Produktion. Jeder Beitrag wird von ihm persönlich kuratiert, faktengeprüft und redaktionell verfeinert, um höchste inhaltliche Qualität und maximalen Mehrwert zu garantieren.
Auch bei sorgfältigster Prüfung sehen vier Augen mehr als zwei. Wenn Ihnen ein Patzer aufgefallen ist, der uns entgangen ist, lassen Sie es uns bitte wissen: Unser Postfach ist martinkaessler, gefolgt von einem @ und dem Namen dieser Webseite (also meine-domain) mit der Endung .com. Oder besuchen Sie Ihn gerne einfach & direkt auf LinkedIn.
