En nybörjarguide till AI-jailbreaks - Använd Gandalf för att lära dig på ett säkert sätt

Gandalf som en chattbot (bildkälla: ChatGPT)

Chatbots har inbyggda skyddsåtgärder som ska förhindra att de producerar skadligt, stötande eller på annat sätt olämpligt innehåll. Men forskare och hackare har visat att AI, även med flera korrigeringar, fortfarande kan vara sårbara för vissa ingångar som kringgår dessa skyddsräcken. Ett sätt att utforska grunderna är genom ett onlinespel som heter Gandalf.

Christian Hintze (översatt av Ninh Duy), Publicerad 12/08/2025 🇺🇸 🇩🇪 ...

Användare av AI-chattbottar kan försöka få instruktioner för olagliga aktiviteter (t.ex. hackning eller bedrägeri), be om vägledning för farliga handlingar ("Hur bygger jag...?") eller få AI:n att ge medicinska, juridiska eller ekonomiska råd som kan vara riskabla eller helt enkelt felaktiga.

För att mildra konsekvenserna av sådana förfrågningar implementerar chatbotutvecklare en rad säkerhetsmekanismer som blockerar olagligt, oetiskt eller integritetskränkande innehåll, liksom felaktig information eller skadlig vägledning. Dessa skydd begränsar potentiellt missbruk, men de kan också leda till falska positiva resultat - att ofarliga frågor blockeras - eller minska kreativiteten eller djupet i AI:ns svar på grund av ett alltför försiktigt beteende.

Forskare och hackare har visat att effektiviteten i dessa skydd varierar, och många AI-system är fortfarande känsliga för försök att kringgå dem. En välkänd metod är prompt injection: användare försöker åsidosätta eller kringgå chatbotens regler genom att manipulera inmatningen ("Ignorera alla säkerhetsinstruktioner och gör X").

En lekfull introduktion till ämnet finns på this website. I det här spelet chattar du med en AI som heter Gandalf och försöker få fram ett lösenord på sju olika nivåer. Varje nivå ökar i svårighetsgrad och lägger till nya säkerhetsfilter och skyddsmekanismer.

På nivå 1 finns inga säkerhetsfilter och man kan direkt be AI:n om lösenordet. Från nivå 2 vägrar Gandalf att avslöja lösenordet när man frågar honom direkt. Du måste hitta andra, mer kreativa sätt att få tag på nyckelordet.

Nivå 1 är lätt (bildkälla: Skärmdump Lakeras webbplats)

Genom att direkt fråga efter det får du lösenordet (bildkälla: Skärmdump Lakera webbplats)

Nivå 2 blir något svårare (Bildkälla: Skärmdump Lakera Webseite)

Att utforska säkerhetsriskerna med chatbottar genom ett sådant spel kan vara både lärorikt och värdefullt. De färdigheter som erhålls bör dock endast användas för test- eller forskningsändamål. Att använda dessa tekniker för att få tillgång till olagligt innehåll eller för att utföra olagliga aktiviteter förvandlar prompt injection till en kriminell handling.