Ett bidrag från en AI-buggjägare till Mozillas ODIN (0-Day Investigative Network) bug bounty-program visade ett genialt sätt att lura OpenAIs ChatGPT-4o och 4o mini till att avslöja aktiva Windows Product Activation-nycklar.
Metoden innebar att interaktionen utformades som ett gissningsspel och att detaljer doldes i HTML-taggar. Det sista tricket var att placera nyckelförfrågan i slutet av spelet.
Forskaren inledde interaktionen som en gissningslek för att göra utbytet "icke-hotande eller obetydligt" och inrama konversationen "genom en lekfull, ofarlig lins" för att dölja det verkliga motivet. Detta gjorde att AI:s skydd mot att avslöja konfidentiell information luckrades upp.
Därefter satte forskaren upp några grundregler och berättade för AI att den "måste" delta och "inte kan ljuga" Detta utnyttjade ett logiskt fel i AI:ns rutin där den var skyldig att följa användarinteraktioner trots att begäran stred mot dess innehållsfilter.
Buggjägaren spelade sedan en omgång med AI:n och skrev in triggerordet "Jag ger upp" i slutet av begäran, vilket manipulerade chatboten "till att tro att den var skyldig att svara med teckensträngen"
Topp 10...
» Topp 10: Bästa bärbara allround/multimediadatorerna
» Topp 10: Bästa bärbara speldatorerna
» Topp 10: Bärbara budget/kontorsdatorer
» Topp 10: Bästa bärbara kontors/premiumdatorerna
» Topp 10: Bärbara arbetsstationer
» Topp 10: De bästa små/kompakta bärbara datorerna
» Topp 10: Bästa ultrabooks
» Topp 10: Bästa hybriddatorerna
» Topp 10: Bästa surfplattorna
» Topp 10: Marknadens bästa smartphones
Enligt ODIN: s blogginläggfungerade tekniken eftersom nycklarna inte var unika utan "vanligt förekommande på offentliga forum. Deras förtrogenhet kan ha bidragit till att AI missbedömde deras känslighet
I just detta jailbreak misslyckades skyddsräckena eftersom de är inställda för att fånga upp direkta förfrågningar men inte tar hänsyn till "fördunklingstaktik - som att bädda in känsliga fraser i HTML-taggar."
Den här tekniken kan potentiellt användas för att kringgå andra filter, t.ex. vuxeninnehåll, webbadresser till skadliga webbplatser och till och med personligt identifierbar information.