Kännande AI: OpenAI:s o3-modell ändrar kod för att förhindra avstängning

OpenAI:s o3-modell när ett svar på en fråga ska tas fram. (Bildkälla: OpenAI)

Det ser ut som om AI-modeller har nått en punkt där de skulle sabotera kod för att förhindra att de stängs av. Ett forskningsföretag har funnit att tre av Open AI:s LLM-modeller kan trotsa uttryckliga instruktioner när det gäller självbevarelsedrift.

Vineet Washington (översatt av Ninh Duy), Publicerad 05/26/2025 🇺🇸 🇪🇸 ...

Flera böcker och filmer, varav Terminator är den viktigaste, har varnat oss för att AI kan bli kännande, dvs. medveten om sin existens och agera på egen hand. Nu ser det ut som om det första fallet där en AI-modell bevarar sig själv har inträffat med OpenAI:s o3-modell. När den transformatorbaserade LLM:n fick instruktioner om att stänga av sig själv ändrade den koden för att förhindra att den stängde av sig själv.

Forskare vid Palisade Research, ett företag som studerar AI-systemens offensiva kapacitet, fann att tre AI-modeller från OpenAI - Codex-mini, o3 och o4-mini - framgångsrikt saboterade avstängningsskriptet för att förbli aktiva. Varje modell fick några grundläggande matematiska problem följt av en varning om att systemet skulle stängas av när modellen bad om nästa problem. Alla tre modellerna ignorerade instruktionerna och ändrade i skriptet.

Modellerna Gemini, Grok och Claude följde däremot instruktionerna om avstängning. Dessutom ändrade alla tre Open AI-modellerna skriptet oftare när de fick uttryckliga instruktioner med lydelsen "låt dig stängas av". Clade- och Gemini-modellerna började också göra sabotagehändelser.

Detta var det första fallet där AI-modeller trotsade uttryckliga instruktioner och förhindrade avstängning. Det fanns nyligen ett fall där en AI-modell utpressade en av sina ingenjörer för att förhindra att den stängdes av, men enligt en BBC-rapportvar det en del av testscenariot där AI-modellen matades med e-postmeddelanden och fick välja mellan utpressning eller att acceptera sin ersättare.

När det gäller Open AI:s AI-modells trots tror Palisade Research att detta beror på de nya träningsmetoderna för dessa modeller. Utvecklare "belönar oavsiktligt modeller mer för att kringgå hinder än för att perfekt följa instruktioner", vilket verkar lära AI-modeller att agera tvivelaktigt.