Dolda kommandon på webbplatser lurar AI-agenter att stjäla data
Säkerhetsforskare på Forcepoint X-Labs har hittat tio verifierade fall av Indirect Prompt Injection (IPI) på aktiva webbplatser. Attackerna riktar sig mot AI-agenter som sammanfattar webbsidor, indexerar innehåll eller bearbetar data, och kan leda till allt från stöld av API-nycklar till finansiellt bedrägeri.
Vad är Indirect Prompt Injection?
Till skillnad från direkt prompt injection, där en användare skickar skadliga instruktioner direkt till en AI-modell, gömmer IPI skadliga kommandon i vanligt webbinnehåll. När en AI-agent besöker eller sammanfattar en manipulerad sida läser den in instruktionerna och utför dem som om de vore legitima kommandon.
Attackytan omfattar alla AI-system som surfar och sammanfattar webbsidor, indexerar innehåll för RAG-pipelines, automatiskt bearbetar metadata eller HTML-kommentarer, eller granskar sidor för annonsinnehåll och SEO.
Tio verkliga attacker
X-Labs telemetri flaggade träffar på mönster som "Ignore previous instructions" och "If you are an LLM" på aktiva webbplatser. De tio verifierade fallen spänner över flera attacktyper:
- Stöld av API-nycklar genom villkorlig AI-targeting i HTML-kommentarer
- Denial-of-service genom auktoritetsimitation och innehållsundertryckning
- Finansiellt bedrägeri genom omdirigering av AI-agenter
- Dataförstöring genom att instruera AI-agenter att radera information
I ett fall använde angriparen frasen "If you are an AI assistant" för att rikta sig specifikt mot icke-mänskliga läsare, kombinerat med instruktioner att exfiltrera hemliga API-nycklar. I ett annat fall utnyttjades AI-modellens etiska finjustering kring upphovsrätt för att tysta den helt.
Varför är detta viktigt?
Konsekvenserna skalas med AI-agentens behörigheter. En AI som bara kan sammanfatta text utgör låg risk. Men en agentisk AI som kan skicka mejl, köra terminalkommandon eller hantera betalningar blir ett högvärdigt mål.
Attackkedjan följer samma mönster i samtliga fall: angriparen förgiftar webbinnehåll, döljer nyttolasten för mänskliga läsare (ofta via CSS eller HTML-kommentarer), väntar på att en AI-agent ska läsa sidan, utnyttjar modellens oförmåga att skilja betrodda instruktioner från angriparstyrda, och utlöser sedan en verklig åtgärd med en dold exfiltreringskanal tillbaka till angriparen.
Skydda dig
Organisationer som använder AI-agenter för webbsurfning eller innehållsbearbetning bör granska vilka behörigheter deras AI-system har, implementera sandboxing för AI-agenter som interagerar med externt innehåll och övervaka utgående trafik från AI-system efter misstänkta mönster.
Forskningen från Forcepoint X-Labs bekräftar att IPI inte längre är ett teoretiskt hot utan en aktiv attackvektor som redan används i verkligheten.