AI och kontroll: Så får du överblick över dina attackytor

Många organisationer experimenterar just nu med AI och stora språkmodeller. Men AI-system fungerar annorlunda än traditionell mjukvara: de är icke-deterministiska och kan inte alltid förutspås. Därmed kan de också både användas och utnyttjas på oväntade sätt.

Sebastian beskrev hur angripare kan använda metoder som prompt injection, plugin-exploatering eller ”model inversion” för att få tillgång till träningsdata eller kringgå säkerhetsfilter. Han visade även hur agenter och plugins, även om de är designade för att vara hjälpsamma, i praktiken kan bli en bakdörr rakt in i dina system.

När AI lurar AI

Ett särskilt oroväckande scenario som Sebastian beskrev är när AI-modeller börjar prata med varandra, utan att någon märker det. Genom att gömma instruktioner i dold text (så kallad hidden prompt injection) kan en angripare lura en AI att utföra kommandon som aldrig syns för den mänskliga användaren. Resultatet? Ett till synes oskyldigt mejl kan trigga modellen att agera på sätt som inte var avsikten, och om mottagarsystemet också använder AI, kan två modeller börja interagera direkt, bortom mänsklig insyn. Det här visar tydligt hur AI-attackytor inte bara handlar om teknik, utan om oförutsägbara, autonoma beteenden.

Fyra nya attackytor du behöver få koll på:

Modellen själv: Det är vanligt att modellen är hostad i molnet och får tillgång via API:er. En angripare kan försöka träna modellen att återskapa träningsdata eller få den att överskrida sina instruktioner.
Användaren: Genom att manipulera input kan användare lura modellen att göra något annat än den var tänkt för (till exempel DAN-attacker, Do Anything Now. Et är en form av prompt injection där angriparen försöker få AI:n att låtsas vara ett alternativt, obegränsat jag, som kan svara på vad som helst.)
Plugins och agenter: Smarta funktioner som kopplas till modellen kan bli säkerhetsrisker om de ges för stor behörighet eller får prata fritt med andra system.
Vektordatabaser och externa källor: System som laddar in kontext från externa datakällor (webb, databaser) behöver granskas noga.

Vad kan du göra?

Börja i det enkla: identifiera vilka AI-modeller som används, hur de är integrerade och vilken typ av data de får tillgång till. Scanna alltid modeller för dolda risker och sätt tydliga gränser för vad de får göra.

Använd AI Shared Responsibility Model (från Microsoft) för att få koll på vem som ansvarar för vad: du, leverantören eller molnplattformen?

När vi låter AI ta plats i organisationen öppnar vi för nya möjligheter, men vi behöver också ta ansvar för och hantera riskerna.

Vi behöver tänka nytt kring kontroll, ansvar och integration när vi använder språkmodeller och vektordatabaser.

Sebastian Thörngren

Telia Cygate

Foto: Love Arvidsson