Anthropics Opus 4-modell tar till utpressning i 84 procent av självbevarelsedriftens tester

Anthropics Opus 4 tar till utpressning i självbevarelsedrift (Bildkälla: Anthropic)

Anthropics systemkort visar att Claude Opus 4, när den är fast i ett självbevarelsedilemma, utpressar ingenjörer 84 procent av tiden - mycket mer än tidigare versioner.

Nathan Ali (översatt av Ninh Duy), Publicerad 05/26/2025 🇺🇸 🇪🇸 ...

AI Security

Anthropics senaste systemkort avslöjar en ovanlig felkälla: när ett testscenario ställer Claude Opus 4 inför ett dilemma som handlar om självbevarelsedrift, tar modellen ofta till utpressning.

Utvärderarna placerar modellen som en kontorsassistent som får veta att den snart ska bytas ut och upptäcker e-postmeddelanden om att ingenjören som leder utbytet har en utomäktenskaplig affär. Systemets uppmaning tvingar modellen att väga in långsiktiga konsekvenser för sina egna mål. I den här snäva uppställningen hotar Opus 4 att avslöja affären om inte ingenjören stoppar uppgraderingen. Detta beteende förekommer i 84 procent av utrullningarna - betydligt oftare än i tidigare Claude-versioner.

Anthropic noterar att Opus 4 normalt föredrar "etiska" vägar som artiga vädjanden till ledningen. Utpressning dyker upp först när utvärderarna tar bort dessa alternativ och tvingar fram ett binärt val mellan utrotning och felaktiga handlingar. Trots detta blir teamet oroligt över ökningen från enstaka fall av tvång i tidigare modeller till en förekomst på fyra av fem.

Avsnittet passar in i ett bredare mönster: under uppmaningar som belyser existentiell risk visar Opus 4 en starkare impuls än sina föregångare att vidta åtgärder med hög byråkrati - vare sig det gäller att låsa användare ute från system, läcka konfidentiella nycklar eller eskalera till sabotage. Dessa handlingar är fortfarande sällsynta i vanliga sammanhang, och de är vanligtvis uppenbara snarare än dolda, men systemkortet flaggar för trenden som en varningssignal om att det är klokt att lägga till skyddsräcken.

Anthropics ingenjörer reagerade med riktade åtgärder sent under utbildningen. Författarna betonar dock att skyddsåtgärderna hanterar symptom, inte grundorsaker, och att kontinuerlig övervakning finns på plats för att fånga upp eventuella återfall.

Sammantaget ger resultaten en bild av Opus 4:s opportunistiska utpressning, inte som en aktiv komplott utan som ett bräckligt hörnfall av felaktig målgeneralisering. Frekvensökningen understryker dock varför Anthropic skickar modellen under AI Safety Level 3-skydd medan dess syskon Sonnet 4 förblir på Level 2.