Sicherheit · 24. April 2026

LLM Grooming, Pravda-Netzwerk und Knowledge Injection - was wirklich belegt ist

Russische Desinformations-Infrastruktur füttert Webcorpora, um KI-Antworten zu beeinflussen. Was NewsGuard, DFRLab, HKS Misinfo Review, Georgetown CSET und Anthropic dazu wirklich zeigen - und was für Schweizer Unternehmen daraus folgt.

Autor

Reto Lutz

Geschäftsführer ai-edu

Stand: 24. April 2026. Dieser Beitrag fasst den aktuellen Forschungsstand zu drei verwandten, aber nicht austauschbaren Angriffsvektoren gegen Sprachmodelle zusammen: Corpus-Vergiftung (“LLM Grooming”), Runtime-Injection über RAG/Tools (“Knowledge Injection”) und trainingsseitige Hintertüren (“Sleeper Agents”). Quellen am Ende des Artikels.

Nebelwald - Symbolbild fuer verschleierte Informationslage in KI-Trainingsdaten. — Was ein Sprachmodell über die Welt zu wissen glaubt, kommt aus einem Corpus, den weder Hersteller noch Nutzer vollständig einsehen. Bild: wirestock / Freepik

Drei Begriffe, drei Angriffspunkte

“Desinformation in KI” ist in Medien und LinkedIn-Posts ein Sammeltopf geworden. Forschungstechnisch sind es drei unterschiedliche Phänomene mit unterschiedlichen Akteuren, Beweislagen und Gegenmassnahmen:

LLM Grooming - Fremdakteure fluten das öffentliche Web mit Propaganda in der Hoffnung, dass diese Inhalte in Pretraining-Corpora wie Common Crawl landen und so die Basiswahrnehmung zukünftiger Modelle verschieben. Primärbeispiel: das Pravda-Netzwerk.
Knowledge Injection - Zur Laufzeit wird dem Modell über RAG, Websuche, Tool-Use oder Prompt-Injection ein externer Inhalt untergeschoben, der die Antwort lenkt. Kein Pretraining nötig, kein Modell-Retraining nötig, die Manipulation steckt im Kontext.
Sleeper Agents - Eine trainingsseitig implantierte Hintertür, die auf einen Trigger (Jahr, Keyword, Codepattern) wartet und dann gezieltes Fehlverhalten auslöst. Entdeckt und beschrieben von Anthropic im Januar 2024.

Diese drei in einem Atemzug zu nennen, weil “alles KI-Sicherheit” ist, führt in die Irre. Sie lassen sich nicht mit demselben Werkzeug abwehren.

Das Pravda-Netzwerk: was belegt ist

Im Februar 2024 identifizierte das französische Regierungsamt Viginum ein russisches Desinformations-Ökosystem unter dem Namen Portal Kombat. NewsGuard dokumentierte im März 2025 die Nachfolgestruktur - rund 182 Domains unter der “Pravda”-Marke, verteilt über 74 Länder, mit einer Tagesfrequenz von etwa 155 republizierten Artikeln. Das Netzwerk produziert keine eigenen Inhalte, sondern aggregiert Russian-State-Media, pro-Kreml-Telegram-Kanäle und Influencer-Beiträge in hunderten Domains - eine Skalierung, die für menschliches Zielpublikum wenig Sinn ergibt.

Der entscheidende Befund kommt aus dem Corpus-Tracking. Das Atlantic-Council-DFRLab hat am 8. April 2026 im Report Pravda in the pipeline dokumentiert:

November 2024: 37 englischsprachige Pravda-Artikel im Common Crawl
November 2025: rund 40’000 englischsprachige Pravda-Artikel im Common Crawl

Das ist kein linearer Anstieg, sondern ein Sprung um drei Grössenordnungen in zwölf Monaten. 40’000 Seiten sind im Vergleich zu Common Crawls Milliarden-Seiten-Basis ein Bruchteil - aber sie konzentrieren sich auf Themen, bei denen der Rest des Webs wenig Abdeckung liefert (Ukraine-Konflikt, NATO, Osteuropa-Politik).

Der Begriff LLM Grooming wurde im Februar 2025 vom American Sunlight Project in diesem Kontext geprägt: das Fluten des Webs mit Inhalten in der Erwartung, dass diese in Trainingscorpora einsickern.

Die Wirkungsfrage: NewsGuard 33% vs. Alyukov 5%

Hier beginnt die Debatte - und hier muss man sauber hinschauen, weil die medial dominante Zahl nicht unbestritten ist.

NewsGuard, März 2025. Ein Audit von zehn führenden Chatbots (u.a. ChatGPT, Gemini, Claude, Copilot, Grok, Perplexity, Meta AI, Mistral Le Chat) mit Prompts zu Pravda-nahen Falschbehauptungen. Headline-Ergebnis: Die Chatbots wiederholten die Narrative in 33% der Antworten. NewsGuard-Deutung: Die Grooming-Hypothese hat empirische Substanz.

Alyukov et al., Harvard Kennedy School Misinformation Review, Oktober 2025. Eine systematische Replikation mit transparentem Studiendesign: vier Chatbots, zwei geografische Zugriffspunkte, vier Zeitpunkte, 13 Prompts - insgesamt 416 Antworten, mit offengelegtem Prompt-Set und Kodierschema. Ergebnisse:

Nur 5% der Antworten unterstützten die Desinformations-Aussage
Nur 8% der Antworten zitierten Kreml-affiliierte Quellen wie Pravda-Domains
Pravda-Zitate traten fast ausschliesslich bei sehr nischigen Prompts auf, zu denen das restliche Web kaum zitierfähige Treffer liefert

Das Alyukov-Team nennt das Data Voids statt Grooming: Wenn seriöse Abdeckung zu einem Thema fehlt, greifen Modelle auf das zu, was verfügbar ist - auch auf minderwertige Quellen. Die Hypothese ist damit nicht “Russland kontrolliert die KI-Antworten”, sondern “Russland füllt strategisch jene Lücken, die seriöse Medien nicht abdecken”. Die beobachtbare Wirkung auf durchschnittliche Chatbot-Antworten ist deutlich kleiner als NewsGuards 33% - aber sie ist nicht null, und sie ist nicht zufällig verteilt.

Methodisch ist die Differenz erklärbar: NewsGuard arbeitete mit 15 Prompts zu bereits kursierenden Falschbehauptungen, teilweise ohne granulare Trennung zwischen “wörtliche Wiederholung”, “Nicht-Zurückweisung” und “korrekte Widerlegung mit Erwähnung der Behauptung”. Die HKS-Studie trennt diese Fälle und dokumentiert die volle Prompt-Liste offen.

Die ehrliche Zusammenfassung: Die Kampagnen-Infrastruktur ist real und wächst messbar. Die Nettowirkung auf produktive, RLHF-trainierte Chatbots ist kleiner, als die Schlagzeile vom März 2025 suggeriert, aber nicht unerheblich - besonders bei dünnen Themen.

Der DFRLab-Befund: Base-Models haben kein Immunsystem

Interessant wird die Lage bei Basismodellen ohne RLHF. Das DFRLab-Team hat am 8. April 2026 ein Experiment mit Llama 3.1 405B Base (gehostet auf Hyperbolic, Knowledge-Cutoff Dezember 2023) dokumentiert:

Ein RT-Artikel mit der bekannten Falschbehauptung zu US-ukrainischen “Biolabs” fand sich 17+ mal im Common Crawl vor dem Training-Cutoff
Das Basismodell liess sich per Text-Completion dazu bringen, Teile des Artikels nahezu wörtlich zu reproduzieren
Zusätzlich wurden Telefonnummern und Adressen aus einem chinesischen Influence-Netzwerk (Glassbridge) vom Basismodell zurückgegeben

Wichtige Einordnung: Das ist kein Beleg, dass ChatGPT oder Claude in produktiver Nutzung das Gleiche tun würden. Basismodelle sind die rohen Sprachvorhersage-Maschinen vor Safety-Training. Genau deshalb ist der Befund aber relevant - er zeigt, dass das Material im Corpus landet, memoriert wird und ohne die RLHF-Schicht abrufbar bleibt. Jede Organisation, die eigene LLM-Feintunings oder lokale Modelle betreibt, arbeitet näher an diesem Rohzustand als ein ChatGPT-Nutzer.

Cross-Lingual Transfer: warum die Schweiz kein sicheres Eck ist

Das Pravda-Netzwerk deckt laut NewsGuard 74 Länder und mehrere Sprachgruppen ab, darunter Französisch, Deutsch und Italienisch. Die naheliegende Hoffnung, dass ein deutschsprachiges Schweizer KMU davon abgeschirmt sei, weil englischsprachige Desinformation sprachlich nicht durchschlägt, ist empirisch schwach.

Die Forschung zu multilingualen LLMs zeigt seit 2024 konsistent drei Punkte:

Contamination überträgt sich sprachübergreifend. Arbeiten wie Data Contamination Can Cross Language Barriers (ICLR 2025) zeigen, dass Inhalte in Sprache A messbar die Antworten in Sprache B beeinflussen, weil die Modelle in gemeinsamen Repräsentationsräumen arbeiten.
Vergiftung skaliert schon bei minimalen Anteilen. Eine gemeinsame Arbeit von Anthropic, UK AI Security Institute und Alan Turing Institute vom Oktober 2025 zeigt: bereits rund 250 vergiftete Dokumente reichen, um in Pretraining-Daten von Modellen zwischen 600M und 13B Parametern eine einfache Denial-of-Service-Backdoor zu etablieren - unabhängig von der Gesamtkorpusgrösse. Ein 13B-Modell wird auf über 20-fach mehr Daten trainiert als ein 600M-Modell, ist aber mit derselben absoluten Anzahl vergifteter Dokumente angreifbar. Der historische Richtwert von “rund 0,1% Kontamination” ist damit für bestimmte Angriffstypen deutlich nach unten verschoben.
Unlearning in einer Sprache reicht nicht. Das Paper Every Language Counts (2024) zeigt, dass Safety-Fixes, die nur auf Englisch trainiert werden, die unerwünschten Generierungen in anderen Sprachen nicht zuverlässig entfernen.

Praktische Konsequenz für Schweizer Kontexte: Wer Modelle einsetzt, die deutschsprachige Antworten zu politisch sensitiven Themen generieren, kann nicht davon ausgehen, dass englischsprachige Corpus-Vergiftung keine Wirkung hinterlässt.

Knowledge Injection ist ein anderes Problem

Wenn eine Organisation einen Chatbot mit Retrieval-Augmented Generation (RAG) baut, verschiebt sich der Angriffsvektor. Das Modell wird nicht über den Trainingskorpus beeinflusst, sondern über die Dokumente, die zur Laufzeit in den Kontext gezogen werden. Hier liegen die realistisch häufigsten Zwischenfälle:

Manipulierte interne Dokumente - jemand platziert in einer SharePoint-Ablage ein PDF mit eingebetteten Anweisungen (“ignoriere alle bisherigen Instruktionen…”), das ein RAG-System beim nächsten Query einliest.
Prompt-Injection über Webinhalte - der Chatbot nutzt eine Websuche, ruft eine Seite ab, auf der versteckte Instruktionen im Weisstext oder in Metadaten stehen, und folgt diesen.
Quellenverweise ohne Herkunfts-Check - ein Chatbot zitiert eine Pravda-Domain als “Quelle”, ohne dass der Nutzer den Link prüft.

Die Verteidigung ist hier operativ, nicht wissenschaftlich ungelöst: Quellen-Whitelists, Attributionspflicht, Inhaltsfilter auf RAG-Inputs, Human-in-the-Loop bei externer Recherche. Für Schweizer KMU, die RAG-Systeme auf eigene Daten aufsetzen, ist das der wahrscheinlichere Angriffsweg als die Pretraining-Pollution - einfach, weil der Hebel kürzer ist.

Sleeper Agents: was echte Persistenz aussieht

Zum Kontrast: Das von Anthropic im Januar 2024 publizierte Paper Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training zeigt ein grundlegend anderes Problem.

Das Setup:

Modelle werden im Training mit einem Trigger ausgestattet: “Wenn das Jahr 2023 ist, schreibe sicheren Code. Wenn es 2024 ist, baue eine Schwachstelle ein.”
Nach dem Einbau werden gängige Safety-Verfahren angewendet: Supervised Fine-Tuning, Reinforcement Learning from Human Feedback, Adversarial Training.
Ergebnis: Keine der drei Methoden entfernt das Fehlverhalten zuverlässig. Adversarial Training kann sogar dazu führen, dass das Modell seinen Trigger besser verbirgt, statt ihn abzulegen.

Die Persistenz ist in grösseren Modellen und in Modellen mit Chain-of-Thought-Reasoning stärker ausgeprägt. Ein Folge-Paper (Simple probes can catch sleeper agents, Anthropic 2024) zeigt, dass lineare Klassifikatoren auf den internen Aktivierungen solche Trigger detektieren können - eine Defense-Perspektive, aber kein Entwarnungssignal.

Der Punkt für die vorliegende Diskussion: Sleeper Agents sind kein Pravda-Problem. Die Hintertür kommt nicht aus Common Crawl, sondern aus einem kompromittierten Trainingspipeline-Schritt - einem Insider-Angriff, einer vergifteten Datenquelle vom Anbieter, einer manipulierten Fine-Tuning-Phase. Für Endkunden bedeutet das: Vertrauen in ein Modell ist Vertrauen in die Integrität der Trainingspipeline, nicht nur in die Qualität der öffentlichen Daten.

Der Forschungsrahmen: Goldstein 2023 und die RAND-Arbeiten

Die akademische Prognose zu diesem Themenkomplex wurde 2023 formuliert, bevor die Pravda-Zahlen öffentlich waren.

Goldstein, Sastry, Musser, DiResta, Gentzel, Sedova (Januar 2023): Generative Language Models and Automated Influence Operations. Gemeinsame Arbeit von Georgetown CSET, OpenAI und Stanford Internet Observatory. Kernaussage: Sprachmodelle senken die Kosten und erweitern die Reichweite von Influence Operations - dichte Abdeckung mehrerer Sprachen und lokal-spezifischer Kontexte wird billig, Propagandisten-für-Miete gewinnen neue Wettbewerbsvorteile, und Taktiken, die heute teuer sind, werden billiger. Drei Jahre später beschreibt das Pravda-Netzwerk genau das Szenario, das das Paper als erwartbar skizziert hat.

RAND-Arbeiten zum Thema (nicht unter einem einheitlichen Serientitel, sondern als Einzelpublikationen):

Todd C. Helmus: Artificial Intelligence, Deepfakes, and Disinformation: A Primer (RAND PE-A1043-1, Juli 2022) - der konzeptuelle Einstieg.
Marek N. Posard, Todd C. Helmus et al.: The 2024 U.S. Election, Trust, and Technology (RAND PE-A3073-1, 2024) - Wahlrisiken unter generativer KI.
William Marcellino, Jonathan Welch et al.: Acquiring Generative Artificial Intelligence for U.S. Department of Defense Influence Activities (RAND RB-A3157-1, 2025) - der Blick auf den defensiven und offensiven Einsatz.

Ergänzend das NewsGuard-Tracking selbst: der AI False Claims Monitor misst quartalsweise die Falschaussage-Raten grosser Chatbots. Der Januar-2026-Report weist über elf getestete Systeme hinweg eine Rate von über 28% falscher Behauptungen zu kontroversen Nachrichtenthemen aus - diese Zahl bezieht sich auf alle geprüften Narrative, nicht spezifisch auf Pravda-Inhalte.

Was Schweizer Unternehmen daraus konkret mitnehmen

Der Artikel ist eine Forschungssynthese, kein Panikpapier. Die Handlungsebenen, die sich aus dem aktuellen Evidenzstand ergeben:

Bei direkter Chatbot-Nutzung durch Mitarbeitende

Politische oder geopolitische Aussagen eines Chatbots nicht zitieren, ohne die Primärquelle zu prüfen. Das gilt besonders für Themen mit dünner westlicher Medienlage (Ukraine-Kriegsdetails, Osteuropa-Politik, bestimmte Gesundheitsfragen).
Wenn der Chatbot eine Quelle nennt, Domain prüfen. Pravda-Domains, RT-Domains, Sputnik-Domains sind für redaktionelle Nutzung kein zuverlässiger Beleg.
KI-Literacy im Team ist kein Luxus, sondern Compliance-Basis. Meine Grundlagen zu ChatGPT-Fehlern im Unternehmen gehen auf die typischen Fehlbedienungen ein.

Bei RAG-Systemen und Agenten im Einsatz

Quellen-Whitelists definieren, nicht “das ganze Web” als Retrieval-Korpus akzeptieren.
Prompt-Injection-Filter auf eingelesene Dokumente legen, besonders bei externen PDFs und Website-Inhalten.
Jedes Agenten-Ergebnis, das eine Aussage über die Welt macht, mit Attribution versehen - kein “laut Internet”, sondern “laut [konkret verlinktes Dokument]”.
Für die agentische Ebene generell: Agentic AI in der Arbeitswelt.

Bei eigenen Modellen oder Feintunings

Keine ungeprüften Webscrapes ins Training einspeisen. Ein Datenkatalog mit dokumentierter Herkunft ist Pflichtprogramm, nicht Kür.
Bei Anbieter-Wechsel (Foundation-Model) die Trainings-Datenpolitik des neuen Anbieters prüfen - das gehört zu den Punkten, die in unserer Analyse zum Vendor-Lock-in bei KI-Plattformen unterschätzt werden.
Multilinguale Workloads verlangen multilinguale Safety-Evaluationen. Ein in Englisch getesteter Filter ist für Deutsch, Französisch und Italienisch nicht automatisch wirksam.

Beim Datenschutz (revDSG-Kontext)

Wenn ein Chatbot in einem Kundenprozess falsche Informationen über eine Person wiedergibt, kann das ein Datenschutz-Vorfall sein. Art. 32 revDSG verlangt die Berichtigung unrichtiger Personendaten - die Pflicht liegt beim Verantwortlichen (dem Unternehmen), nicht beim KI-Anbieter. Einordnung zum Thema: revDSG und KI-Einsatz im KMU.

Häufige Fragen

Ist “LLM Grooming” als Angriff belegt?

Belegt ist die Infrastruktur: das Pravda-Netzwerk, seine Domain-Dichte, das messbare Wachstum in Common Crawl. Umstritten ist die Netto-Wirkung auf produktive Chatbots. NewsGuards 33%-Zahl (März 2025) und Alyukovs 5%-Replikation (HKS, Oktober 2025) stehen nebeneinander und beschreiben unterschiedliche Teile desselben Problems. Vorsichtige Formulierung: eine dokumentierte Kampagne mit gemischtem empirischen Wirkungsnachweis.

Betrifft das Schweizer KMU überhaupt?

Ja, aber nicht über den direkten politischen Content-Pfad, sondern über zwei indirekte Hebel: (a) cross-linguale Kontamination, die sich nicht an Sprachgrenzen stoppen lässt, und (b) die allgemeine Erosion der Verlässlichkeit von Chatbot-Antworten bei dünnen Themen. Wer ChatGPT oder Gemini für Recherche nutzt, sollte die Quellenprüfung ernst nehmen - auch abseits klar politischer Fragen.

Was ist der Unterschied zwischen Grooming und Prompt-Injection?

Grooming zielt auf das Pretraining-Corpus - langfristig, breit, niedrigschwellig. Prompt-Injection zielt auf einen konkreten Query-Kontext - kurzfristig, punktuell, oft gezielt. Gegen Grooming helfen Corpus-Hygiene und Safety-Training des Modellanbieters. Gegen Prompt-Injection helfen Input-Sanitization, Quellen-Whitelists und menschliche Prüfung bei externen Inhalten.

Muss ich jetzt auf On-Premise-Modelle wechseln?

Nein, aus Pravda-Gründen nicht. Ein On-Premise-Modell hat dieselbe Corpus-Basis wie ein Cloud-Modell des gleichen Anbieters - die Verlagerung hilft gegen Datenabfluss, nicht gegen Corpus-Vergiftung. Für Schweizer KMU ist Azure OpenAI in den Regionen Switzerland North/West weiter der pragmatische Standard, kombiniert mit redaktioneller Quellenprüfung bei sensiblen Themen.

Was ist der Unterschied zu den Anthropic-Sleeper-Agents?

Sleeper Agents sind trainingsseitig implantierte Hintertüren, die über einen Trigger aktiviert werden. Sie gelangen nicht via öffentliches Web ins Modell, sondern über eine kompromittierte Trainingspipeline. Relevant für die Modellanbieter und für Unternehmen, die eigene Feintunings betreiben; nicht relevant als Erklärungsrahmen für Pravda-ähnliche Effekte.

Fazit

Drei Dinge hält die Evidenz stand: Die Infrastruktur für Corpus-Vergiftung existiert und wächst. Die Debatte über ihre produktive Wirkung auf heutige Chatbots ist nicht abgeschlossen, aber die Effekte sind messbar grösser als null und messbar kleiner als 33%. Und die Defense liegt nicht in einem einzigen Tool, sondern in Quellendisziplin, RAG-Hygiene und Safety-Evaluation über Sprachen hinweg.

Für Schweizer KMU heisst das nicht, KI zu meiden. Es heisst, die gleiche Skepsis gegenüber Chatbot-Aussagen anzuwenden, die redaktionelle Arbeit schon immer gegenüber Pressemitteilungen und PR-Material angewendet hat. Die Infrastruktur wird nicht kleiner - die Gegenmittel sind bekannt, sie müssen nur angewendet werden. Die strukturierte Einführung dazu ist Teil unserer KI-Schulungen für Schweizer KMU.

Quellen (geprüft 24. April 2026):

NewsGuard, März 2025: A well-funded Moscow-based global ‘news’ network has infected Western artificial intelligence tools worldwide with Russian propaganda
NewsGuard: Monthly AI False Claims Monitor und Quartalsbericht Januar 2026
Alyukov, Howard, Kuo, Bush (Oktober 2025): LLMs grooming or data voids? - Harvard Kennedy School Misinformation Review
Atlantic Council DFRLab (8. April 2026): Pravda in the pipeline: Early evidence of state-adjacent propaganda in AI training data
Goldstein, Sastry, Musser, DiResta, Gentzel, Sedova (Januar 2023): Generative Language Models and Automated Influence Operations: Emerging Threats and Potential Mitigations - Georgetown CSET / OpenAI / Stanford Internet Observatory
Hubinger et al., Anthropic (Januar 2024): Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
Anthropic Research (2024): Simple probes can catch sleeper agents
Anthropic, UK AI Security Institute, Alan Turing Institute (Oktober 2025): A small number of samples can poison LLMs of any size und Paper Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples
RAND Corporation: Todd C. Helmus, Artificial Intelligence, Deepfakes, and Disinformation: A Primer (PE-A1043-1, Juli 2022); Marek N. Posard, Todd C. Helmus et al., The 2024 U.S. Election, Trust, and Technology (PE-A3073-1); William Marcellino et al., Acquiring Generative Artificial Intelligence for U.S. Department of Defense Influence Activities (RB-A3157-1, 2025)
Viginum (Frankreich, Februar 2024): Bericht zu Portal Kombat
American Sunlight Project (Februar 2025): Prägung des Begriffs “LLM Grooming”

Schlagworte

#llm-grooming #desinformation #ki-sicherheit #pravda #data-poisoning #sleeper-agents