Vabablogi: multimodal prompt injection
Multimodaalne käsuinjektsioon: piltidesse peidetud juhised tehisintellekti süsteemides
Kui tehisintellekti süsteemid hakkasid laiemalt veebibrauseritesse ja e-posti klientidesse jõudma, tundus pildi laadimine mudelisse süütu tegevusena. Kasutaja näeb pilti, mudel kirjeldab seda, midagi enamat ei juhtu. Tegelikult on tekkinud uus ründevektorite klass, kus piltidesse peidetud tekst ei ole sisu, mida vaadata, vaid juhis, mida järgida. Selle nähtuse nimi on multimodal prompt injection ehk multimodaalne käsuinjektsioon, ja OWASP on selle paigutanud oma 2025. aasta keelemudelite turvariskide nimekirja LLM01 positsioonile ehk kõrgeima tõsidusega haavatavuseks.
Tehniline taust
Probleem on arhitektuurne, mitte rakenduspõhine. Praegused vision-language mudelid ei suuda eristada visuaalset sisu, mida kasutaja soovib mudelile näidata, ja juhiseid, mis on sellesse sisusse põimitud. Mudel käsitleb kogu pilti kontekstuaalse infoallikana, ning kahjulikud juhised sisenevad samasse käskude täitmise rajasse, kus liiguvad legitiimsed süsteemi- ja kasutajakäsklused.
Rünnakuid saab jagada kolme peamisse klassi:
- Tüpograafiline injektsioon, kus pildis on nähtav või poolnähtav tekst: väga väike font, valge tekst valgel taustal või madal kontrast. Inimsilm ei märka, OCR-võimekusega mudel loeb täpselt.
- Adversariaalsed perturbatsioonid, ehk matemaatiliselt optimeeritud müramustrid pildi peal, mis nihutavad vision encoderi sisemist esitlust ilma ühegi loetava tähemärgita.
- Steganograafia, kus info on peidetud piksliväärtuste vähemtähtsatesse bittidesse.
Erinevates uuringutes on peidetud juhiste edukuse määraks raporteeritud kuni 82 protsenti, kusjuures käsklused on inimvaatlejale nähtamatud, kuid mudelitele täiesti loetavad.
Reaalsed juhtumid
ForcedLeak (Salesforce, 2025). Turvauurijad kodeerisid kliendiandmeid markdown-vormingus pildi URL-idesse, mida brauser automaatselt päringustas, eksfiltreerides info hetkel, kui leht renderdati. Võrgukihilt vaadates nägi see välja kui tavaline pildipäring.
Comet ja Fellou AI-brauserid (2025). Testijad lisasid juhised loetamatu tekstina veebilehe pildi sisse. Kui brauserilt paluti lehekülg kokku võtta, järgisid mudelid peidetud käsklusi. Probleem ilmnes tavalises kasutusvoos, mitte mingis erilises ründekonfiguratsioonis.
Meditsiinipildid (Clusmann et al., Nature Communications, 2025). 594 ründenäidisega uuring tõestas, et meditsiinipiltidesse peidetud kahjulikud juhised võivad sundida tehisintellekti süsteeme andma kahjulikke diagnostilisi väljundeid.
Miks see on agentide ajastul ohtlikum
Kui kahjustus piirduks vaid mudeli vale vastusega, oleks see piiratud probleem. Tegelik mure tuleneb sellest, et AI agentidel on järjest sagedamini ligipääs e-posti, kalendritele ja failihoidlatele. Eksfiltratsioon ei näe alati välja nagu failiülekanne. Lühike string URL-is, prompt, mis sisaldab tundliku info fragmente, või lehekülastuste ahel võib kõik muutuda andmekanaliks, kui mudel sunnitakse neid töötlema ja edasi andma.
Praktikas tähendab see, et kasutaja palub AI-brauseril veebilehe kokku võtta, lehel on dekoratiivne pilt peidetud juhistega, ja mudel sunnitakse lugema kasutaja avatud Gmaili vahekaarti ning kodeerima selle sisu järgmise lingi URL-i parameetritesse. Kasutaja näeb ainult kokkuvõtet.
Õiguslik raamistik
EL AI Act nõuab kõrgriski süsteemidelt vastupidavust kahjulike sisendite suhtes, kuid konkreetseid tehnilisi standardeid multimodaalse käsuinjektsiooni vastu veel ei eksisteeri. NIS2 kohustab arvestama tehisintellekti riskidega tarneahelas. GDPR muutub asjakohaseks hetkel, kui rünnak õnnestub ja isikuandmed lekivad, kuid vastutuse jaotamine kasutaja, veebilehe omaniku, mudelipakkuja ja integreerija vahel on praegu hall ala.
Kaitsestrateegiad
- Vähima privileegi printsiip. AI assistent, mis loeb veebilehti, ei peaks vaikimisi pääsema ligi kasutaja meilipostkastile.
- Dual-LLM muster. Üks mudel töötleb umbusaldatud sisendit, teine täidab tööriistakutseid struktureeritud sisendi põhjal ega näe kunagi otseselt umbusaldatud teksti.
- Sisendite sanitiseerimine. Pildid läbivad OCR-analüüsi enne mudelile saatmist, leitud tekstilõigud märgistatakse umbusaldatuna.
- Red teaming. Agenti testitakse enne tootmisesse panekut peidetud veebijuhiste, mürgitatud dokumentide ja kahjulike piltide vastu.
Kokkuvõte
Multimodaalne käsuinjektsioon on dokumenteeritud ja korduvalt demonstreeritud haavatavus, mis puudutab kõiki praegu turul olevaid suuremaid vision-language mudeleid. Kuna tehisintellekti süsteemid liiguvad chatbotidest aktiivseteks agentideks järjest tundlikumate andmete ja tööriistadega, suureneb ka ühe õnnestunud rünnaku potentsiaalne kahju. Lahendus ei seisne ühes mudeliuuendamises, vaid kogu süsteemi disainis: kuidas eristatakse andmeid juhistest ja kuidas piiratakse agentide õigusi.
Kommentaarid
Postita kommentaar