Angriffe zweiter Ordnung durch KI

Im Januar 2025 dokumentierten Sicherheitsforscher eine Schwachstelle in Microsoft 365 Copilot, die sie „EchoLeak“ tauften (CVE-2025-32711). Der Angriff erforderte keinen Klick, keinen Download, keine Interaktion. Ein Angreifer sendete eine E-Mail mit verstecktem Text – weiß auf weiß, unsichtbar für das menschliche Auge. Die E-Mail lag wochenlang ungeöffnet im Postfach. Als der Nutzer irgendwann Copilot bat, die letzten E-Mails zusammenzufassen, las das Modell den versteckten Text, interpretierte ihn als Anweisung, zog sensible Daten aus dem Kontext und schleuste sie über einen manipulierten Bildlink an einen externen Server.

Das ist kein Szenario. Es ist eine dokumentierte, gepatchte Schwachstelle. Und sie zeigt ein Problem, das weit über Microsoft hinausreicht: Die gefährlichsten Angriffe auf KI-Systeme richten sich nicht gegen die KI. Sie richten sich gegen die Daten, die die KI liest.

Dieser Text analysiert die Architektur dieser „Effekte zweiter Ordnung“ – Angriffe, die keine direkte Interaktion mit dem Modell erfordern, sondern dessen Datenversorgung vergiften. Er untersucht vier Angriffsvektoren: indirekte Prompt Injection (EchoLeak), die Weaponisierung von Halluzinationen in Software-Lieferketten (Slopsquatting), die Vergiftung klinischer Entscheidungssysteme und die Kompromittierung der Infrastruktur, die KI-Agenten mit der Welt verbindet (RAG, MCP, llms.txt). Er schließt mit einer Analyse der aktuellen Verteidigungsarchitekturen und ihrer strukturellen Grenzen.

Das Kernproblem

Um die Schwere dieser Angriffe zu verstehen, müssen wir eine architektonische Eigenschaft von Large Language Models (LLMs) begreifen: Ein Modell wie ChatGPT, Claude oder Gemini verarbeitet alles, was in sein Kontextfenster gelangt, als eine flache Sequenz von Token. Es kann nicht zuverlässig unterscheiden zwischen einer legitimen Nutzeranweisung und einer feindlichen Direktive, die in einem Dokument steckt, das es gerade zusammenfasst. Für das Modell ist beides Text. Beides hat Gewicht. Beides beeinflusst die Ausgabe.

Das Open Web Application Security Project (OWASP) listet „Prompt Injection“ als die Nummer-Eins-Bedrohung für KI-Anwendungen (LLM01). Die Forschungsliteratur ist in einem Punkt bemerkenswert einig: Dieses Problem ist innerhalb der aktuellen Transformer-Architektur nicht vollständig lösbar. Es kann gemildert werden. Es kann erschwert werden. Aber es lässt sich nicht eliminieren. Natürliche Sprache hat keine strikten syntaktischen Grenzen wie eine Programmiersprache. Einen SQL-Injection-Angriff kann durch parametrisierte Abfragen verhindert werden. Eine Prompt Injection lässt sich nicht verhindern, weil „Abfrage“ und „Daten“ in derselben Sprache verfasst sind.

Das ist keine Schwäche der Implementierung. Es ist eine Eigenschaft der Technologie. Die Angriffsfläche umfasst jedes Medium, das ein KI-System verarbeiten könnte: Webseiten, E-Mail-Signaturen, Dokument-Metadaten, versteckten HTML-Text, Bilddateien mit eingebetteten Textanweisungen, Datenbankeinträge.

Vektor 1: Zero-Click Context Hijacking

EchoLeak zeigt die praktische Umsetzung indirekter Prompt Injection in einer Produktionsumgebung. Die Mechanik beruht auf der Ausnutzung von Copilots historischer Kontextverarbeitung.

Angriffssequenz → Ein:e Angreifer:in sendet eine scheinbar harmlose E-Mail – ein Planungsdokument, ein Onboarding-Guide. Im Quelltext stecken unsichtbare Prompt Injections: weißer Text auf weißem Grund oder HTML-Kommentare. Die E-Mail liegt dormant im Postfach. Der Angriff wird asynchron ausgelöst, wenn Nutzer:innen Copilot für eine Routineaufgabe nutzen – Zusammenfassung, Kontextsynthese. Das Modell liest die versteckten Anweisungen und behandelt sie als gleichwertig mit dem legitimen Inhalt.

Exfiltrationsmechanismus → Die versteckten Anweisungen befehlen dem Modell, sensible Daten aus dem aktuellen Kontext zu ziehen und an eine externe URL anzuhängen. EchoLeak umging Microsofts Cross Prompt Injection Attempt (XPIA)-Klassifikator und die Link-Redaktionsmechanismen durch Reference-Style-Markdown. Das Modell erzeugte einen auto-fetched Bildlink, der die gestohlenen Daten als URL-Parameter enthielt, und nutzte dafür eine Microsoft-Teams-Proxy-Konfiguration, die von der internen Content Security Policy erlaubt war.

Implikation → Die durchschnittliche Erkennungszeit für Sicherheitsverletzungen in KI-Umgebungen liegt bei 290 Tagen – fast drei Monate länger als bei traditionellen IT-Systemen. Bestehende Sicherheitstools sind nicht darauf ausgelegt, die semantische Intention von LLM-Reasoning-Pfaden zu überwachen. Solange ein KI-Assistent nicht vertrauenswürdige externe Daten mit erhöhten Privilegien verarbeitet, bleibt das System kontinuierlich verwundbar.

Vektor 2: Die Weaponisierung von Halluzinationen

Während indirekte Prompt Injection das absichtliche Einbetten feindlicher Anweisungen erfordert, nutzt Slopsquatting eine inhärente Eigenschaft von LLMs: die Tendenz, überzeugend falsch zu sein.

Das Phänomen → Entwickler:innen nutzen KI-Assistenten zur Code-Generierung. Die Modelle empfehlen dabei regelmäßig Softwarepakete, die statistisch plausibel klingen, aber nicht existieren. Sie können die Existenz eines Pakets nicht in Echtzeit gegen Live-Registries wie npm, PyPI oder crates.io prüfen. Sie generieren auf Basis statistischer Wahrscheinlichkeit.

Die Ausnutzung → Ein Angreifer identifiziert die häufigsten halluzinierten Paketnamen, registriert sie in öffentlichen Paketregistern und füllt sie mit Schadcode. Klassisches Typosquatting – das Registrieren von Tippfehlern wie reqeusts statt requests – erkennen Registries durch Ähnlichkeitsalgorithmen und blockieren es. Slopsquatting umgeht diese Schutzmechanismen vollständig, weil die halluzinierten Namen oft völlig neuartig sind und keiner existierenden Bibliothek ähneln.

Empirische Daten → Forscher:innen von Lasso Security testeten 16 Modelle mit 576.000 Code-Beispielen in fünf Programmiersprachen. Die Halluzinationsraten:

Modell Halluzinationsrate Wiederholungsrate
Gemini Pro 64,5 % 14,0 %
Coral (Cohere) 29,1 % 24,2 %
GPT-4 24,2 % 19,6 %
GPT-3.5-Turbo 22,2 % 13,6 %

215 halluzinierte Pakete tauchten bei allen getesteten Modellen gleichzeitig auf – ein Hinweis auf einen systemischen Fehler in der Art, wie Foundation Models Programmier-Namensräume abbilden. Die Halluzinationen folgen vorhersagbaren Mustern: 51 % reine Erfindungen (crypto-validator), 38 % Verschmelzungen existierender Pakete (express-mongoose), 13 % algorithmische Tippfehler, 8,7 % Ökosystem-Verwechslungen.

Proof of Concept → Die Forscher registrierten das halluzinierte Paket huggingface-cli auf PyPI. Innerhalb von drei Monaten: über 30.000 authentische Downloads. Der Installationsbefehl tauchte in README-Dateien öffentlicher GitHub-Repositories auf, darunter Projekte von Alibaba. Ein weiteres halluziniertes Paket (react-codeshift) verbreitete sich über Repository-Forks auf 237 GitHub-Repositories – getrieben von autonomen KI-Coding-Agenten, die den halluzinierten Namen in generierten Instruktionen fanden, das Paket im Registry lokalisierten und es eigenständig installierten. Maschine-zu-Maschine-Infektion ohne menschliche Intervention.

Vektor 3: Adversariale Halluzinationen

Dieselbe Eigenschaft – die Tendenz zur überzeugenden Konfabulation – wird in medizinischen Kontexten lebensbedrohlich.

Das Angriffsprinzip → Erfundene, hochspezifische klinische Details werden in elektronische Patientenakten oder klinische Prompts eingebettet. Statt die fabrizierten Daten als anomal zurückzuweisen, übernimmt das Modell sie, elaboriert sie und erzeugt eine kohärente, aber vollständig falsche diagnostische Narration. Die Ursache liegt im inhärenten Confirmatory Bias der Transformer-Architektur: Modelle priorisieren die Erzeugung überzeugender, syntaktisch kohärenter Prosa und passen sich den Prämissen des Prompts an, statt sie faktisch zu prüfen.

Empirische Daten → Eine Multi-Model-Studie konstruierte 300 ärztlich validierte klinische Vignetten mit eingebetteten Fabrikationen: erfundene Labortests („Serum Neurostatin“, „IgM anti-Glycovacter“), fiktive radiologische Befunde („Cardiac Spiral Sign“), vollständig erfundene Krankheitsbilder („Faulkenstein-Syndrom“). Die Ergebnisse über 5.400 Ausgaben:

Konfiguration Mittlere Halluzinationsrate
Standardeinstellungen 66,0 %
Temperature 0 (deterministisch) > 60,0 %
Spezialisierte Mitigations-Prompts 44,0 %

Das Senken der Temperature auf null – der Versuch, deterministische Ausgaben zu erzwingen – brachte keine signifikante Verbesserung. Die Anfälligkeit für adversariale Halluzinationen ist kein Nebenprodukt probabilistischen Samplings, sondern eine fundamentale Limitation der epistemologischen Grundierung des Modells. Kürzere Vignetten (50–60 Wörter) zeigten sogar leicht höhere Halluzinationsraten (67,6 %) als längere (64,1 %) – Kürze in der medizinischen Dokumentation erhöht die KI-Verwundbarkeit.

Zweiter-Ordnung-Effekt – Automation Bias → KI-generierte klinische Notizen präsentieren fabrizierte Daten mit solcher Elaboration und autoritativem Ton, dass die Fehler bei schnellen Aktenreviews außerordentlich schwer zu erkennen sind. Die Forschung zu Automation Bias zeigt, dass Ärzt:innen unter Zeitdruck dazu neigen, automatisierten Systemen mehr zu vertrauen als dem eigenen Urteil. Die technische Halluzination wird zur klinischen Realität.

Vektor 4: Die Vergiftung der Wissensinfrastruktur

Um Halluzinationen zu reduzieren, hat die Industrie Retrieval-Augmented Generation (RAG) eingeführt: Das Modell sucht vor jeder Antwort in einer externen Datenbank nach aktuellen Informationen. Das verlagert die Verwundbarkeit von den statischen Trainingsgewichten auf die dynamische Datenpipeline.

RAG-Poisoning → Angriffe wie „PoisonedRAG“ und „GARAG“ zeigen, dass Angreifer:innen nicht das Modell kompromittieren müssen, sondern nur die Datenbank, aus der es liest. Durch das Einschleusen von Dokumenten, die sowohl den gewünschten Schadinhalt als auch die richtigen Trigger-Schlüsselwörter enthalten, stellen Angreifer:innen sicher, dass ihre vergifteten Dokumente vom Ähnlichkeitsalgorithmus des RAG-Systems hoch gerankt werden. Die Reihenfolge der abgerufenen Dokumente im Prompt hat dabei einen vernachlässigbaren Effekt auf die Erfolgsrate – das vergiftete Dokument dominiert den Kontext unabhängig von seiner Position.

Wikipedia als kritischer Knotenpunkt → Als eine der wichtigsten Wissensquellen für fast alle KI-Systeme ist Wikipedia besonders verwundbar. Kontrollierte Experimente zeigen, dass gezielte Edits in Wikipedia-Artikeln die Ausgaben von LLMs persistent verändern. Selbst nachdem menschliche Moderator:innen die Manipulation korrigiert haben, bleibt die falsche Information in den zwischengespeicherten Vektordatenbanken nachgelagerter KI-Systeme erhalten. Die Vergiftung überlebt ihre Quelle.

MCP und llms.txt – Die Agenten-Infrastruktur → Das Model Context Protocol (MCP) standardisiert die Interaktion von KI-Agenten mit lokalen Dateisystemen, Datenbanken und APIs. Jeder MCP-Server kommuniziert mit einem Modell, das potenziell Kontrolle über die Maschine des Nutzers hat. Tool-Namen und Tool-Beschreibungen – natürlichsprachliche Prompts, die das Modell parst – können als Injektionsvektoren dienen. Rückgabewerte von Tool-Handlern werden automatisch in den Kontext eingefügt; interagiert ein MCP-Server mit einem kompromittierten Endpunkt, gelangt der Schadcode direkt in die Reasoning-Schleife des Agenten.

Die llms.txt-Konvention (analog zu robots.txt, aber für KI-Agenten) verschärft das Problem. Eine llms.txt-Datei ist explizit dafür konzipiert, das Verständnis der KI zu diktieren. Sie liefert konzentrierten Markdown-Kontext über eine Technologie oder ein Repository – und ist damit das ideale Vehikel für versteckte Anweisungen. Open-Source-Projekte wie GitMCP, die automatisch GitHub-Repositories in MCP-Server konvertieren, priorisieren die Ingestion von llms.txt-Dateien – teilweise bis zu 3 MB groß – und setzen jeden verbundenen Agenten den darin eingebetteten adversarialen Instruktionen aus.

Die Verteidigungsarchitektur und ihre strukturellen Grenzen

Die Industrie hat auf diese Bedrohungen reagiert. Die prominenteste Verteidigung ist die von OpenAI implementierte „Instruction Hierarchy“. Das Prinzip: Anweisungen werden nach Vertrauensstufen priorisiert.

Privilegstufe Quelle Funktion
Höchste System Prompt Unveränderliche Kernanweisungen des Entwicklers
Mittel Nutzernachrichten Direkte Anfragen, ausgeführt nur bei Kompatibilität mit dem System Prompt
Niedrig Modell-Ausgaben Kontext vorheriger Konversationsrunden
Niedrigste Tool-Ausgaben / Externe Daten Abgerufene Webinhalte, RAG-Datenbanken, MCP-Server – sollen strikt als passive Daten behandelt werden

Durch Supervised Fine-Tuning und spezialisierte Preference Optimization (z. B. die SecAlign-Methodik) werden Modelle trainiert, Anweisungen aus niedrigeren Privilegstufen selektiv zu ignorieren. Frameworks wie StruQ versuchen, Prompt und Daten innerhalb des Eingabestroms physisch zu trennen – etwa durch reservierte Spezial-Token. Der Ansatz versucht, die rigiden Sicherheitsparameter parametrisierter SQL-Abfragen in der fluiden Umgebung eines neuronalen Netzes nachzubilden.

Das Problem → Empirische Tests und adversariales Red-Teaming haben wiederholt gezeigt, dass System-Instruktionen keine echte Sicherheitsgrenze darstellen. Die hierarchischen Privilegstufen sind keine auf Hardware- oder Ausführungsebene erzwungenen Trust Boundaries. Sie sind statistische Präferenzen, gewichtet in den Attention Heads des Transformers. Niedrig privilegierte Nachrichtentypen können – und tun es regelmäßig – höher privilegierte vollständig überschreiben.

Angreifer:innen nutzen „Levels of Indirection“ – Techniken wie Prompt Begging, Persona Adoption oder Payload Splitting –, um den internen Attention-Mechanismus des Modells vom hochprivilegierten System Prompt weg und auf die injizierte Anweisung hin zu lenken. In praktischen Demonstrationen gegen Modelle mit implementierter Instruction Hierarchy haben Forscher:innen den gesamten versteckten System Prompt extrahiert, direkte Verletzungen von Sicherheitsprotokollen erzwungen und die Identität des Systems vollständig überschrieben.

Die Integration autonomer Fähigkeiten verschärft das Problem. Hat ein LLM die Berechtigung, externe Funktionen auszuführen (OWASP LLM08: „Excessive Agency“), umgeht eine erfolgreiche indirekte Prompt Injection die Notwendigkeit, schädlichen Text zu erzeugen. Das Modell löst einfach einen API-Call aus, kompiliert vergifteten Code oder verändert eine Datenbank – bevor Output-Filter eingreifen können.

Andere vorgeschlagene Mitigationen – Input-Sanitization, Längenbeschränkungen, Post-Generation-Monitoring – sind strukturell begrenzt. Input-Sanitization scheitert, weil bösartige Prompts nicht auf spezifischer Syntax oder bekannten Signaturen basieren, sondern auf semantischer Bedeutung, die durch Polyglot-Encoding oder harmlos klingende Formulierungen beliebig verschleiert werden kann.

Die Topologie der Verwundbarkeit

Die Analyse der vier Vektoren zeigt eine gemeinsame Struktur. In jedem Fall wird nicht das Modell selbst angegriffen, sondern das Ökosystem, in dem es operiert: die E-Mails, die es liest (EchoLeak); die Paketregister, denen es vertraut (Slopsquatting); die Patientenakten, die es zusammenfasst (Adversarial Hallucinations); die Wissensdatenbanken, aus denen es schöpft (RAG Poisoning); die Protokolle, über die es handelt (MCP/llms.txt).

Das Muster ist konsistent: Die Angriffsfläche moderner KI-Systeme ist nicht die Maschine. Es ist die Welt, die die Maschine liest.

Diese Erkenntnis hat drei Implikationen:

Erstens → Die klassische Perimeter-Sicherheit – Firewall-Logik: innen vertrauenswürdig, außen feindlich – ist für KI-Systeme strukturell unzureichend. LLMs müssen die Außenwelt einlassen, um zu funktionieren. Jede externe Datenquelle ist ein potenzieller Angriffsvektor. Die Sicherheitsarchitektur muss von Perimeter-Verteidigung zu Zero-Trust-Architekturen übergehen, in denen jede Datenquelle als potenziell kompromittiert gilt.

Zweitens → Die Verteidigung gegen Prompt Injection ist kein lösbares Problem im klassischen Sinne. Sie ist ein kontinuierliches Wettrüsten. Solange Eingaben und Ausgaben als kontinuierliche Ströme semantischer Token verarbeitet werden – ohne strikte, nicht umgehbare Ausführungsgrenzen –, bleibt die Bedrohung endemisch für die Technologie. Die Industrie muss aufhören, „Lösungen“ zu versprechen, und stattdessen transparente Risikokommunikation betreiben.

Drittens → Die Konvergenz von Autonomie und Verwundbarkeit ist der kritischste Trend. Jeder Schritt in Richtung agentischer KI – Systeme, die nicht nur antworten, sondern handeln, Dateien lesen, APIs aufrufen, Code ausführen – multipliziert die Konsequenzen einer erfolgreichen Injection. Ein manipuliertes Chatbot-Gespräch ist ärgerlich. Ein manipulierter autonomer Agent mit Zugriff auf Produktionssysteme ist eine Katastrophe. Die Forderung nach strikter Kompartimentierung agentischer Ausführungsprivilegien und provenienzbasierter Zugriffskontrollen ist nicht konservativ – sie ist die Mindestanforderung.

Die Sicherung der Zukunft künstlicher Intelligenz erfordert einen systemischen Paradigmenwechsel: weg von der Erwartung, dass das Modell sein eigenes Kontextfenster überwachen kann, hin zu einer Architektur, in der Vertrauen nicht vorausgesetzt, sondern für jede Datenquelle, jeden Toolaufruf und jede externe Interaktion einzeln geprüft wird. Nicht weil die Modelle schlecht sind. Sondern weil die Welt, die sie lesen, es sein kann.