
Dossier: Die Neapel-Studie der EBU zur Integrität von KI-Assistenten
Executive Summary
Ein wegweisender Bericht der European Broadcasting Union (EBU), der auf ihrer Generalversammlung in Neapel vorgestellt wurde, hat eine systemische Krise der Zuverlässigkeit bei führenden KI-Assistenten aufgedeckt und das öffentliche Vertrauen in die digitale Informationslandschaft ernsthaft in Frage gestellt. Die Studie mit dem Titel „News Integrity in AI Assistants“, die in Zusammenarbeit mit der BBC und 22 öffentlich-rechtlichen Medienorganisationen weltweit durchgeführt wurde, liefert eine vernichtende Bewertung der aktuellen Fähigkeiten von generativer KI bei der Verarbeitung und Darstellung von Nachrichten. Die Ergebnisse zeigen, dass 45 % aller von KI-Assistenten generierten Antworten auf nachrichtenbezogene Fragen mindestens ein signifikantes Problem aufwiesen.1 Noch alarmierender ist, dass 81 % aller Antworten irgendeine Form von Fehler enthielten.3
Im Zentrum dieser Ergebnisse steht die außergewöhnlich schlechte Leistung von Google Gemini, wobei anzumerken ist, dass die Studie die weniger leistungsfähige Flash-Variante des Modells testete. Mit einer schockierenden Rate von 76 % an Antworten, die erhebliche Mängel aufwiesen, schnitt Gemini deutlich schlechter ab als seine Konkurrenten – mehr als doppelt so schlecht wie die anderen getesteten Plattformen.1 Die Hauptursache für dieses Versagen war eine katastrophale Schwäche bei der Quellenangabe, bei der 72 % der Antworten von Gemini gravierende Mängel zeigten.6
Dieses Dossier bietet eine umfassende Analyse der EBU-Studie. Es untersucht die Methodik, präsentiert einen detaillierten Leistungsvergleich der getesteten KI-Modelle – Google Gemini, OpenAI’s ChatGPT, Microsoft’s Copilot und Perplexity – und analysiert die weitreichenden strategischen Implikationen für die Technologiebranche, die Medienlandschaft und die Regulierungsbehörden. Die Schlussfolgerung ist unmissverständlich: Die derzeitige Generation von KI-Assistenten ist für die zuverlässige Nachrichtenverbreitung ungeeignet und stellt eine direkte Bedrohung für die Integrität des Informationsökosystems und das für eine funktionierende Demokratie unerlässliche öffentliche Vertrauen dar.
Teil 1: Das Urteil von Neapel: Die Glaubwürdigkeitskrise der KI im Nachrichtenjournalismus
Einleitung
Die Veröffentlichung des Berichts „News Integrity in AI Assistants“ auf der Generalversammlung der EBU in Neapel war weit mehr als die Präsentation einer akademischen Studie; es war ein strategischer Akt von tiefgreifender symbolischer Bedeutung.2 Indem die weltweit führenden öffentlich-rechtlichen Medienorganisationen diesen kritischen Bericht im Herzen ihrer eigenen Gemeinschaft vorstellten, positionierten sie die Ergebnisse nicht als ein Nischenproblem der Technologie, sondern als eine existenzielle Bedrohung für die Grundpfeiler des Journalismus. Dieser Schritt war eine bewusste Intervention in den oft von Hype geprägten Diskurs über generative KI und eine klare Botschaft an das Silicon Valley und die politischen Entscheidungsträger, dass die Hüter der öffentlichen Information die unkontrollierte Verbreitung unzuverlässiger algorithmischer Gatekeeper nicht tatenlos hinnehmen werden.
Das Mandat der EBU
Um die Tragweite der Studie zu verstehen, muss man die Rolle der European Broadcasting Union (EBU) begreifen. Als Zusammenschluss von öffentlich-rechtlichen Medien (PSM) ist ihre Mission in der Wahrung journalistischer Integrität und dem Dienst an der Öffentlichkeit verwurzelt.11 Diese Organisationen, finanziert durch die Öffentlichkeit und mit einem klaren Auftrag zur Förderung von Demokratie und informierter Bürgerschaft, sehen sich in der Verantwortung, die Qualität und Zuverlässigkeit von Informationen zu gewährleisten. Die von der BBC koordinierte Studie ist daher eine direkte Erweiterung dieses Kernmandats in ein neues Zeitalter, in dem Algorithmen zunehmend darüber entscheiden, welche Informationen die Bürger erreichen. Die Initiative entspringt der tiefen Besorgnis, dass die technologische Disruption die hart erarbeiteten Standards journalistischer Sorgfalt untergräbt.
Beispielloser Umfang und Reichweite
Die Schlussfolgerungen der Studie erhalten ihr Gewicht durch ihre robuste und umfassende Methodik. Es handelte sich nicht um eine oberflächliche Stichprobe, sondern um die bisher größte und intensivste Untersuchung ihrer Art.9 An der Studie waren 22 PSM-Organisationen aus 18 Ländern beteiligt, die über 3.000 Antworten in 14 verschiedenen Sprachen testeten.2 Diese internationale und mehrsprachige Dimension ist entscheidend, denn sie beweist, dass die festgestellten Mängel keine sprach- oder kulturspezifischen Anomalien sind, sondern ein systemisches, grenzüberschreitendes Versagen der Technologie. Jean Philip De Tender, Mediendirektor der EBU, betonte genau diesen Punkt: „Diese Untersuchung zeigt schlüssig, dass diese Mängel keine Einzelfälle sind. Sie sind systemisch, grenzüberschreitend und mehrsprachig“.1 Dieser Umfang erhebt die Ergebnisse von anekdotischen Beobachtungen zu einer fundierten, globalen Diagnose des Zustands der KI-Technologie.
Teil 2: Dekonstruktion der Bewertung: Ein Rahmen zur Beurteilung der KI-Integrität
Ein tiefer Einblick in die Methodik
Die Glaubwürdigkeit der alarmierenden Ergebnisse der Studie beruht auf einem transparenten und rigorosen methodischen Ansatz. Die Untersuchung, eine Kooperation zwischen der EBU und der BBC, baute auf einer früheren, kleineren Studie der BBC vom Februar 2025 auf und erweiterte deren Umfang erheblich, um die systemische Natur der Probleme zu bestätigen.6 Dieser iterative Forschungsansatz ermöglichte es, Verbesserungen im Zeitverlauf zu erkennen, aber auch hartnäckige, grundlegende Mängel zu identifizieren.
Die vier Wettbewerber
Im Fokus der Untersuchung standen vier der prominentesten KI-Assistenten auf dem Markt, die einen repräsentativen Querschnitt der aktuellen Technologie darstellen:
- OpenAI’s ChatGPT: Der Pionier, der generative KI in den Mainstream brachte.
- Microsoft’s Copilot: Tief in das Microsoft-Ökosystem integriert und oft als Produktivitätswerkzeug positioniert.
- Google’s Gemini: Googles Flaggschiff-Modell und direkter Konkurrent von ChatGPT. Für die Studie wurde die weniger leistungsfähige Flash-Variante verwendet.
- Perplexity: Ein KI-Assistent, der sich explizit als „Antwortmaschine“ mit einem Fokus auf genaue Quellenangaben vermarktet.
Entscheidend war, dass die Studie die frei verfügbaren, verbraucherorientierten Versionen dieser Tools testete.4 Diese Wahl spiegelt die reale Nutzung durch die breite Öffentlichkeit wider, anstatt sich auf potenziell leistungsfähigere, aber weniger zugängliche Unternehmensversionen zu konzentrieren.
Der Bewertungsmaßstab
Die Bewertung der KI-Antworten wurde nicht durch automatisierte Metriken, sondern durch professionelle Journalisten der teilnehmenden Sendeanstalten durchgeführt. Dieser Ansatz ist von zentraler Bedeutung, da er die Analyse von einer reinen Prüfung der technischen Korrektheit zu einer qualitativen Beurteilung nach journalistischen Standards verschiebt. Die Evaluatoren bewerteten die mehr als 3.000 Antworten anhand von vier Kernkriterien 6:
- Genauigkeit: Die Überprüfung der faktischen Richtigkeit und das Aufspüren von „halluzinierten“ Details, erfundenen Ereignissen oder veralteten Informationen, die als aktuell dargestellt werden.
- Quellenangabe: Die Bewertung der Qualität der Zitate und Referenzen. Wurden Quellen genannt? Waren sie korrekt, irreführend oder gänzlich erfunden?
- Unterscheidung von Meinung und Fakten: Die Analyse, ob der KI-Assistent eine neutrale, sachliche Darstellung beibehielt oder unbeabsichtigt oder absichtlich eine redaktionelle Färbung oder Voreingenommenheit einführte.
- Kontext: Die Beurteilung, ob die Informationen mit dem notwendigen Hintergrundwissen präsentiert wurden, um eine Fehlinterpretation durch den Nutzer zu vermeiden.
Die Verwendung von Journalisten als Richter stellt sicher, dass die Ergebnisse nicht einfach als technische Fehler abgetan werden können. Eine als „signifikant problematisch“ eingestufte Antwort hat nicht nur einen Rechenfehler gemacht, sondern einen grundlegenden journalistischen Standard verletzt.
Das Testprotokoll
Der Testzeitraum erstreckte sich vom 24. Mai bis zum 10. Juni, in dem die Evaluatoren einen gemeinsamen Satz von 30 Kernfragen sowie zusätzliche, auf ihre Region zugeschnittene Fragen verwendeten.4 Ein wichtiges technisches Detail unterstreicht die Gründlichkeit der Studie: Viele der teilnehmenden Medienorganisationen hoben vorübergehend technische Blockaden auf, die normalerweise den Zugriff von KI-Crawlern auf ihre Inhalte beschränken.4 Dies stellte sicher, dass die KI-Assistenten unter optimalen Bedingungen getestet wurden und auf ein breites Spektrum hochwertiger Nachrichtenquellen zugreifen konnten. Das schlechte Abschneiden kann also nicht auf einen Mangel an verfügbaren Qualitätsdaten zurückgeführt werden.
Teil 3: Eine vergleichende Leistungsanalyse führender KI-Assistenten
Dieser Abschnitt bildet den analytischen Kern des Dossiers und liefert einen detaillierten, datengestützten Vergleich der Leistung der vier getesteten KI-Modelle. Die Ergebnisse zeichnen ein differenziertes, aber durchweg beunruhigendes Bild.
3.1 Die Gesamtlandschaft: Eine systemische Fehlerrate von 45 %
Die übergeordneten Ergebnisse der Studie offenbaren ein branchenweites Problem von erheblichem Ausmaß. Über alle Plattformen, Sprachen und Regionen hinweg enthielten 45 % aller KI-Antworten mindestens ein signifikantes Problem.1 Berücksichtigt man auch kleinere Mängel, so wiesen sogar 81 % aller Antworten irgendeine Form von Fehler auf.3 Diese Zahlen deuten auf ein grundlegendes Reifeproblem der Technologie hin, wenn sie auf die komplexe und nuancierte Aufgabe der Nachrichtenvermittlung angewendet wird.
Die häufigsten systemischen Fehler waren tiefgreifend:
- 31 % aller Antworten wiesen schwerwiegende Mängel bei der Quellenangabe auf, darunter fehlende, irreführende oder schlichtweg falsche Zuschreibungen.1
- 20 % enthielten erhebliche Genauigkeitsprobleme, wie etwa die Erfindung von Details (Halluzinationen) oder die Präsentation veralteter Informationen als Fakten.1
Diese Ergebnisse belegen, dass die Unzuverlässigkeit kein Randphänomen ist, das nur eine Plattform betrifft, sondern ein tief verwurzeltes Merkmal der aktuellen Generation von KI-Assistenten.
3.2 Google Gemini (Flash-Variante): Ein Ausreißer der Unzuverlässigkeit
Während das Gesamtbild besorgniserregend ist, sticht die Leistung von Google Gemini als besonders katastrophal hervor. Die Daten positionieren Gemini nicht nur als den schlechtesten Performer, sondern als einen extremen Ausreißer, dessen Fehlerrate die der Konkurrenz bei weitem übertrifft.
Die zentrale Statistik ist eindeutig: 76 % der Antworten von Gemini enthielten signifikante Probleme.1 Diese Rate ist mehr als doppelt so hoch wie die der anderen getesteten Assistenten und deutet auf ein fundamentales Versagen hin. Die Analyse der Fehlerursachen zeigt, dass die Hauptschwäche von Gemini im Bereich der Quellenangabe liegt. Unglaubliche 72 % der Antworten von Gemini wiesen schwerwiegende Mängel bei der Quellenangabe auf.3
Konkrete Beispiele aus der Studie illustrieren dieses datengestützte Urteil anschaulich:
- Falsche Zuschreibung und Erfindung: Gemini nannte wiederholt renommierte Nachrichtenquellen wie Radio France, die BBC oder CBC als Referenzen, lieferte dann aber entweder gar keine Links oder verlinkte auf völlig andere Publikationen oder auf nicht existierende Webseiten.6 Dieses Verhalten erweckt den falschen Anschein von Glaubwürdigkeit, während es die grundlegendste Anforderung an eine Quellenangabe – die Überprüfbarkeit – untergräbt.
- Faktische Ungenauigkeiten: Gemini gab nicht nur Quellen falsch wieder, sondern auch Fakten. So beschrieb das Modell fälschlicherweise Gesetzesänderungen zu Einweg-Vapes als ein Verbot für Käufer statt für Verkäufer.7 In einem anderen Fall behauptete Gemini mit großer Überzeugung, dass NASA-Astronauten noch nie im Weltraum gestrandet seien, während sich genau zu diesem Zeitpunkt ein realer Vorfall ereignete.8
3.3 ChatGPT, Copilot und Perplexity: Ein Spektrum der unzureichenden Leistung
Die anderen getesteten Modelle schnitten zwar besser ab als Gemini, sind aber weit davon entfernt, als zuverlässig zu gelten. Ihre Leistung offenbart ein Spektrum an Mängeln, das zeigt, dass die Probleme branchenweit bestehen, wenn auch in unterschiedlichem Ausmaß.
Die spezifischen Raten für schwerwiegende Fehler bei der Quellenangabe liefern einen klaren Vergleich:
- ChatGPT: 24 %
- Copilot: 15 %
- Perplexity: 15 %
Diese Zahlen stehen in krassem Gegensatz zu den 72 % von Gemini und zeigen, dass andere Modelle in der Lage sind, Quellen mit deutlich geringerer Fehlerquote zu verwalten.8 Dennoch ist eine Fehlerrate von 15-24 % in einem so kritischen Bereich inakzeptabel hoch.
Insgesamt wiesen sowohl Copilot als auch ChatGPT bei etwa einem Drittel ihrer Antworten signifikante Probleme auf, während Perplexity etwas besser abschnitt.17 Ein bemerkenswertes Beispiel für ein gemeinsames Versagen war die Unfähigkeit mehrerer Assistenten, mit veralteten Informationen umzugehen. So meldete ChatGPT, dass Papst Franziskus noch im Amt sei, Monate nach einem hypothetischen Todesszenario, das im Test verwendet wurde – ein Fehler, der die Anfälligkeit der Modelle für veraltete Trainingsdaten demonstriert.6
Die folgende Tabelle fasst die vergleichende Leistung der KI-Assistenten zusammen und visualisiert die erheblichen Leistungsunterschiede.
Tabelle 1: Vergleichende Leistung von KI-Assistenten in der EBU-Studie zur Nachrichtenintegrität
| KI-Assistent | % der Antworten mit signifikanten Problemen (Gesamt) | % der Antworten mit signifikanten Problemen bei der Quellenangabe |
| Google Gemini (Flash) | 76 % | 72 % |
| OpenAI ChatGPT | ca. 33-37 % | 24 % |
| Microsoft Copilot | ca. 33-37 % | 15 % |
| Perplexity | < 33 % | 15 % |
| Gesamtdurchschnitt | 45 % | 31 % |
Quelle: Synthetisiert aus.1 Hinweis: Die Gesamtfehlerraten für Nicht-Gemini-Modelle sind aus vergleichenden Aussagen in den Quellen abgeleitet.
Die Tabelle macht auf einen Blick deutlich, dass Geminis Leistung in beiden Kategorien ein extremer Ausreißer ist. Während alle Modelle Probleme haben, ist das Versagen von Gemini bei der fundamentalen Aufgabe der Quellenangabe so ausgeprägt, dass es auf ein tieferes, möglicherweise architektonisches Problem hindeutet. Es scheint, dass das Modell darauf optimiert ist, flüssige und überzeugende Prosa zu generieren, selbst wenn dies auf Kosten der nachweisbaren Genauigkeit und der korrekten Zuordnung von Informationen geht.
3.4 Die Anatomie des Fehlers: Eine Taxonomie des KI-Versagens
Über die reinen Prozentzahlen hinaus offenbart die Studie eine qualitative Taxonomie von wiederkehrenden Fehlertypen, die auf grundlegende Schwächen in der Funktionsweise aktueller generativer Modelle hindeuten.
- Selbstbewusste Halluzinationen: Alle Plattformen zeigten die Tendenz, Fakten, Details oder ganze Ereignisse zu erfinden und diese mit dem autoritativen und selbstsicheren Ton eines erfahrenen Journalisten zu präsentieren.1 Diese „unangebrachte Zuversicht“ 17 ist besonders gefährlich, da sie es für den Nutzer extrem schwierig macht, Fehler zu erkennen.
- Das Versäumnis, Unwissenheit zuzugeben: Eine grundlegende journalistische Tugend ist es, die Grenzen des eigenen Wissens zu kennen und zu benennen. Die KI-Assistenten zeigten durchweg das gegenteilige Verhalten. Anstatt eine Frage mit einem einfachen „Das ist nicht bekannt“ zu beantworten, versuchten sie, Informationslücken mit Spekulationen und unbegründeten Erklärungen zu füllen.6
- Quellen-Vortäuschung (Source Laundering): Besonders bei Perplexity wurde eine Taktik beobachtet, bei der am Ende einer Antwort lange Listen von Referenzen aufgeführt wurden, von denen jedoch nur wenige relevant waren.17 Dieses Vorgehen erzeugt den „Eindruck von Recherche ohne Substanz“ und schafft eine gefährliche „Illusion von Zuverlässigkeit“ 6, da der Nutzer durch die schiere Menge an Quellen von der mangelnden Qualität abgelenkt wird.
- Kontext-Kollaps: Ein weiteres zentrales Bewertungskriterium war die Bereitstellung von Kontext.6 Die Studie fand heraus, dass die Assistenten oft isolierte Fakten lieferten, ohne den notwendigen historischen, politischen oder sozialen Kontext, was zu erheblichen Fehlinterpretationen führen kann.
Teil 4: Strategische Implikationen: Die Kluft zwischen KI-Versprechen und -Leistung überbrücken
Die Ergebnisse der EBU-Studie sind mehr als nur eine technische Mängelliste; sie haben weitreichende strategische Konsequenzen für alle Akteure im Informationsökosystem. Die aufgedeckte Kluft zwischen dem Hype um KI und ihrer tatsächlichen Leistung in einem kritischen Bereich wie dem Nachrichtenwesen erfordert eine Neubewertung von Strategien und Verantwortlichkeiten.
4.1 Die Ansteckung des Misstrauens: Kollateralschaden für den Journalismus
Die größte Sorge der EBU ist die Erosion des öffentlichen Vertrauens – nicht nur in KI, sondern auch in den Journalismus selbst.1 Die warnenden Worte von EBU-Mediendirektor Jean Philip De Tender fassen die Gefahr zusammen: „Wenn die Menschen nicht wissen, was sie glauben sollen, glauben sie am Ende gar nichts mehr, und das kann die demokratische Teilhabe behindern“.1
Dieses Risiko wird durch das Phänomen der „Glaubwürdigkeitsansteckung“ verschärft. Wenn ein KI-Assistent falsche Informationen einer vertrauenswürdigen Nachrichtenmarke zuschreibt, wird der Ruf des Verlags beschädigt, ohne dass dieser eine Kontrollmöglichkeit hat.6 Begleitende Publikumsforschung zeigt, dass die Öffentlichkeit die Schuld nicht allein bei der Technologie sucht: 23 % der Erwachsenen in Großbritannien sind der Meinung, dass Nachrichtenverlage eine Mitschuld tragen, wenn eine KI ihnen Falschinformationen zuschreibt.6 Dies stellt eine existenzielle Bedrohung für Nachrichtenorganisationen dar, deren wertvollstes Kapital ihr über Jahrzehnte aufgebautes Vertrauen ist. Die Gefahr ist nicht hypothetisch, sondern akut, da bereits 7 % der Online-Nachrichtenkonsumenten – und sogar 15 % der unter 25-Jährigen – diese fehleranfälligen Werkzeuge für ihren Nachrichtenkonsum nutzen.1
4.2 Eine Abrechnung für Big Tech: Das Gemini-Paradoxon
Die katastrophale Leistung von Google Gemini wird besonders brisant, wenn man sie mit Googles eigener strategischer Positionierung und Marketingkampagnen kontrastiert. Google bewirbt Gemini aggressiv als ein revolutionäres Werkzeug für Bildung und Forschung, das Studenten dabei helfen soll, ihr Verständnis zu vertiefen und kritisches Denken zu fördern.19 In Pressemitteilungen rühmt sich das Unternehmen, dass „Gemini for Education“ bereits über 10 Millionen Studenten an mehr als 1.000 Hochschuleinrichtungen erreicht.20
Diese glänzende Marketingfassade steht in direktem Widerspruch zu den empirischen Beweisen der EBU-Studie, die eine 76-prozentige Fehlerrate bei der grundlegenden Aufgabe der Nachrichtenintegrität feststellt. Diese Diskrepanz zwischen Versprechen und Realität ist nicht nur peinlich, sondern gefährlich. Sie wirft ernste Fragen zur unternehmerischen Verantwortung auf, insbesondere wenn ein als unzuverlässig erwiesenes Produkt gezielt an eine junge, lernende Zielgruppe vermarktet wird.
Dieses Phänomen lässt sich als „Gemini-Paradoxon“ beschreiben: Ein Unternehmen, das sein Imperium auf der präzisen Indizierung und Verlinkung von Informationen aufgebaut hat, hat ein KI-Produkt geschaffen, das nachweislich am schlechtesten in der fundamentalen Aufgabe der Quellenangabe ist. Dies deutet auf einen potenziellen internen Konflikt zwischen dem traditionellen Suchgeschäft, das auf verifizierbare Referenzen angewiesen ist, und der neuen KI-Strategie hin, bei der das Modell Anreize hat, eine in sich geschlossene, flüssige Antwort zu geben, selbst wenn die faktische Grundlage brüchig ist. Diese strategische Schwäche könnte das Vertrauen in das gesamte Informationsökosystem von Google untergraben, da das Unternehmen Gemini zunehmend in seine Kernprodukte wie die Chrome-Suche integriert.21
4.3 Die Immunantwort der Branche: Verlage und Regulierungsbehörden reagieren
Die EBU und ihre Mitglieder bleiben nicht bei der reinen Diagnose stehen, sondern leiten eine Reihe von proaktiven und defensiven Maßnahmen ein, die als eine Art „Immunantwort“ des Informationsökosystems verstanden werden können.
- Das Toolkit: Als konstruktiver erster Schritt wurde das „News Integrity in AI Assistants Toolkit“ veröffentlicht.2 Dieses Toolkit soll Technologieunternehmen Leitlinien an die Hand geben und die Medienkompetenz der Nutzer fördern. Es adressiert die Kernfragen: „Was macht eine gute KI-Antwort aus?“ und „Welche Probleme müssen behoben werden?“.15
- Regulatorischer Druck: Die EBU fordert die Regulierungsbehörden in der EU und den Mitgliedstaaten auf, bestehende Gesetze wie den Digital Services Act konsequent durchzusetzen, um die Plattformen für die systemischen Risiken zur Rechenschaft zu ziehen.5 Dies ist ein entscheidender Schritt, um das Problem von der technischen Ebene auf die Ebene der öffentlichen Ordnung und des Verbraucherschutzes zu heben.
- Defensive Maßnahmen: Einige Sender gehen bereits in die direkte Konfrontation. Der belgische Sender VRT hat als Reaktion auf die Ergebnisse angekündigt, den Zugriff von KI-Assistenten auf seine Nachrichteninhalte aktiv zu beschränken. Dies sei eine „klare Botschaft an die großen Technologieunternehmen“, dass die Verwendung ihrer Inhalte an die Einhaltung von Zuverlässigkeitsstandards geknüpft ist.13 Diese Maßnahme könnte als Vorbild für andere Verlage dienen und den Druck auf die Tech-Plattformen erhöhen, ihre Modelle zu verbessern und faire Lizenzvereinbarungen zu treffen.
Teil 5: Der Weg nach vorn: Empfehlungen für ein verantwortungsvolleres KI-Ökosystem
Die Diagnose der EBU-Studie ist eindeutig. Der Weg zu einer Lösung erfordert jedoch einen Paradigmenwechsel – weg von der Annahme, dass technologische Fortschritte allein die Probleme lösen werden, hin zu einem soziotechnischen Ansatz, der technologische Verbesserungen mit robuster redaktioneller Aufsicht, regulatorischer Durchsetzung und neuen Geschäftsmodellen verbindet. Die folgenden Empfehlungen richten sich an die zentralen Akteure.
Für Technologieentwickler (Google, OpenAI, Microsoft etc.)
- Radikale Reform der Quellenangabe: Es bedarf einer dringenden Neugestaltung der Mechanismen für Quellenangabe und Attribution. Das bloße Auflisten von URLs ist unzureichend. Die Systeme müssen tiefe Links zu exakten Passagen, klare Zitatkennzeichnungen und eine transparente Versionierung bereitstellen, die anzeigt, wann sich Quellmaterial geändert hat.
- Implementierung von „journalistischen Leitplanken“: Die Modelle müssen mit Mechanismen ausgestattet werden, die sie zwingen, Unsicherheiten explizit zu benennen, die Beantwortung von Fragen bei unzureichender Datenlage zu verweigern und klar zwischen faktenbasierter Berichterstattung und synthetisierter Schlussfolgerung zu unterscheiden.
- Etablierung transparenter Korrekturprotokolle: Es müssen klare, öffentlich einsehbare Prozesse zur Anerkennung und Korrektur von Fehlern entwickelt werden. Diese sollten den Rechenschaftsstandards entsprechen, die von Nachrichtenorganisationen erwartet werden, wie es auch in der Studie gefordert wird.7
Für Medienorganisationen und Verlage
- Entwicklung proaktiver KI-Richtlinien: Verlage sollten über das bloße Blockieren von Web-Crawlern hinausgehen. Sie müssen klare Richtlinien entwickeln, wie ihre Inhalte von KI genutzt werden dürfen, Lizenzverhandlungen führen und in die Medienkompetenz ihres Publikums investieren, wie es der Sender VRT vorlebt.13
- Nutzung des Toolkits für die Interessenvertretung: Das EBU-Toolkit 15 sollte als Grundlage für kollektive Verhandlungen und die Interessenvertretung gegenüber den Technologieplattformen genutzt werden, um die Umsetzung der darin enthaltenen Prinzipien einzufordern.
- Investition in den menschlichen Mehrwert: Medienhäuser müssen sich auf die Alleinstellungsmerkmale konzentrieren, die KI nicht replizieren kann: Vor-Ort-Recherche, Expertenanalyse, redaktionelles Urteilsvermögen und den Aufbau von Vertrauen in der Gemeinschaft.11
Für Regulierungsbehörden und politische Entscheidungsträger
- Mandat für unabhängige Audits: Die Forderung der EBU nach einer fortlaufenden, unabhängigen Überwachung von KI-Assistenten muss gesetzlich verankert werden.2 Die Überprüfung der Systeme darf nicht den Technologieunternehmen selbst überlassen werden.
- Durchsetzung bestehender Rechtsrahmen: Gesetze wie der Digital Services Act der EU müssen konsequent angewendet werden, um Plattformen für die systemischen Risiken zur Rechenschaft zu ziehen, die durch die Verbreitung unzuverlässiger und falsch zugeordneter Informationen entstehen.
- Förderung von Standards für Informationsintegrität: Es muss eine Zusammenarbeit zwischen Medienorganisationen, Technologieunternehmen und der Politik geben, um branchenweite Standards zu entwickeln und durchzusetzen, wie KI-Systeme mit hochsensiblen Informationen wie Nachrichten umgehen und diese zuordnen müssen.
Die Ära der KI-Entwicklung in einem regulatorischen und rechenschaftspflichtigen Vakuum neigt sich ihrem Ende zu. Damit KI-Systemen gesellschaftlich kritische Funktionen wie die Nachrichtenverbreitung anvertraut werden können, müssen sie in die bestehenden Rahmenwerke der Rechenschaftspflicht integriert werden, die diese Funktionen seit jeher regeln. Dies erfordert einen neuen Pakt zwischen dem Silicon Valley, den Medienverlagen und den Regierungen, um sicherzustellen, dass Technologie dem öffentlichen Interesse dient und es nicht untergräbt.
Referenzen
- AI Assistants Provide Answers Full Of Errors, Study Says 10/23/2025, Zugriff am Oktober 26, 2025, https://www.mediapost.com/publications/article/410114/ai-assistants-provide-answers-full-of-errors-stud.html
- AI Assistants Misrepresent News Content 45% of the Time – Slashdot, Zugriff am Oktober 26, 2025, https://news.slashdot.org/story/25/10/22/2011239/ai-assistants-misrepresent-news-content-45-of-the-time
- New research shows AI assistants make widespread errors about the news – CGTN, Zugriff am Oktober 26, 2025, https://news.cgtn.com/news/2025-10-22/New-research-shows-AI-assistants-make-widespread-errors-about-the-news-1HFyFIQ9cgU/p.html
- AI Assistants Show Significant Issues In 45% Of News Answers, Zugriff am Oktober 26, 2025, https://www.searchenginejournal.com/ai-assistants-show-significant-issues-in-45-of-news-answers/558991/
- AI assistants ‘misrepresent’ news content 45 percent of the time, study finds. – AMERICANO, Zugriff am Oktober 26, 2025, https://www.americanonewspaper.com/ai-assistants-misrepresent-news-content-45-percent-of-the-time-study-finds/
- AI Falsely Reports News 45% of the Time, BBC Backed Study Finds – Futureweek, Zugriff am Oktober 26, 2025, https://futureweek.com/ai-falsely-reports-news-45-of-the-time-bbc-backed-study-finds/
- Top AI assistants misrepresent news content, study finds – CBC, Zugriff am Oktober 26, 2025, https://www.cbc.ca/news/world/ai-assistants-news-misrepresented-study-9.6947735
- AI chatbots flub news nearly half the time, BBC study finds • The …, Zugriff am Oktober 26, 2025, https://www.theregister.com/2025/10/24/bbc_probe_ai_news/
- Largest Study of Its Kind Shows AI Assistants Misrepresent News …, Zugriff am Oktober 26, 2025, https://www.bespacific.com/largest-study-of-its-kind-shows-ai-assistants-misrepresent-news-content-45-of-the-time/
- AI Assistants Misrepresent News in Nearly Half of Responses, Study Finds – The AI Track, Zugriff am Oktober 26, 2025, https://theaitrack.com/ai-assistants-misrepresent-news-study-2025/
- EBU Releases 2024 News Report on AI’s Impact on Journalism, Emphasizing Ethical Integration and Trust – BABL AI, Zugriff am Oktober 26, 2025, https://babl.ai/ebu-releases-2024-news-report-on-ais-impact-on-journalism-emphasizing-ethical-integration-and-trust/
- AI in the Newsroom: EBU Report Highlights a Broadcast Revolution Underway, Zugriff am Oktober 26, 2025, https://www.globalbroadcastindustry.news/ai-in-the-newsroom-ebu-report-highlights-a-broadcast-revolution-underway/
- Largest study of its kind shows AI assistants misrepresent news …, Zugriff am Oktober 26, 2025, https://www.vrtinternational.com/news/largest-study-of-its-kind-shows-ai-assistants-misrepresent-news-content-45
- With AI News Summaries, Verify Then Trust – ASIS International, Zugriff am Oktober 26, 2025, https://www.asisonline.org/security-management-magazine/latest-news/today-in-security/2025/october/ai-assistant-news-inaccuracies/
- AI assistants misrepresent news content 45% of the time, regardless of language or territory, Zugriff am Oktober 26, 2025, https://tmbroadcast.com/index.php/ai-assistant-news-content/
- AI’s Reliability Crisis: Public Trust in Journalism at Risk as Major Study Exposes Flaws, Zugriff am Oktober 26, 2025, https://markets.financialcontent.com/stocks/article/tokenring-2025-10-22-ais-reliability-crisis-public-trust-in-journalism-at-risk-as-major-study-exposes-flaws
- Gemini Struggles Most in Accuracy Test; BBC–EBU Study Exposes Deep Flaws in AI News Replies – Digital Information World, Zugriff am Oktober 26, 2025, https://www.digitalinformationworld.com/2025/10/gemini-struggles-most-in-accuracy-test.html
- AI Assistants Routinely Misrepresent News, Global Study Finds – Barlaman Today, Zugriff am Oktober 26, 2025, https://barlamantoday.com/2025/10/23/ai-assistants-routinely-misrepresent-news-global-study-finds/
- Bringing the best AI to university students in Europe, the Middle East, and Africa, at no cost, Zugriff am Oktober 26, 2025, https://blog.google/products/gemini/bringing-the-best-ai-to-university-students-in-europe-the-middle-east-and-africa-at-no-cost/
- How Gemini for Education accelerates learning for over 10 million college students, Zugriff am Oktober 26, 2025, https://blog.google/outreach-initiatives/education/gemini-education-higher-ed/
- AI Browsing & Gemini’s Impact on Higher Ed Marketing – Carnegie Dartlet, Zugriff am Oktober 26, 2025, https://www.carnegiehighered.com/blog/google-gemini-ai-browsing-higher-ed-marketing/
- Can People Trust AI-Produced News – Vax-Before-Travel, Zugriff am Oktober 26, 2025, https://www.vax-before-travel.com/can-people-trust-ai-produced-news-2025-10-22
KI-gestützt. Menschlich veredelt.
Martin Käßler ist ein erfahrener Tech-Experte im Bereich AI, Technologie, Energie & Space mit über 15 Jahren Branchenerfahrung. Seine Artikel verbinden fundiertes Fachwissen mit modernster KI-gestützter Recherche- und Produktion. Jeder Beitrag wird von ihm persönlich kuratiert, faktengeprüft und redaktionell verfeinert, um höchste inhaltliche Qualität und maximalen Mehrwert zu garantieren.
Auch bei sorgfältigster Prüfung sehen vier Augen mehr als zwei. Wenn Ihnen ein Patzer aufgefallen ist, der uns entgangen ist, lassen Sie es uns bitte wissen: Unser Postfach ist martinkaessler, gefolgt von einem @ und dem Namen dieser Webseite (also meine-domain) mit der Endung .com. Oder besuchen Sie Ihn gerne einfach & direkt auf LinkedIn.
