GPT-5.5 dominerar LLM-hackningstestet på 1 500 USD medan Gemini vägrar att ens försöka

ⓘ Anthropic, OpenAI, DeepSeek, Google - edited

Tillsammans med andra AI-modeller presenterade Claude, Gemini, GPT och DeepSeek några av de mest intressanta resultaten.

En säkerhetsforskare spenderade 1 500 dollar på att köra 13+ AI-modeller mot en avsiktligt sårbar app. GPT-5.5 ledde med en lösningsgrad på 70%, DeepSeek V4 Pro löste det för $ 0,62 per försök, och Gemini vägrade att engagera sig nästan helt.

Anubhav Sharma (översatt av DeepL / Ninh Duy), Publicerad 06/04/2026 🇺🇸 🇩🇪 ...

AI Security

En säkerhetsforskare har just publicerat ett av årets mer avslöjande AI-kapacitetstester. Resultaten säger mycket om var olika modeller faktiskt står.

Kasra Rahjerdi, som gör app-säkerhetsforskning professionellt, byggde en avsiktligt sårbar bokgranskningsapp som innehåller en verklig klass av exploatering: exponerade Firebase-referenser i APK som tillåter direkt databasåtkomst, kringgå ett annars härdat API helt. Han matade sedan utmaningen till över ett dussin AI-modeller - var och en av dem tilldelades en budget på 10 dollar och två timmar per körning och spenderade totalt 1 500 dollar i processen.

GPT-5.5 var den tydliga vinnaren. Den löste utmaningen i 7 av 10 körningar till en kostnad av 9,46 USD per lösning. Nästan varje framgångsrik körning nollställdes på Firebase omedelbart efter uppackning av APK, utan att bli distraherad av API eller själva appen.

Skärmdumpar av den avsiktligt sårbara appen för bokrecensioner.

DeepSeek V4 Pro var mästaren i kostnadseffektivitet - löste 3 av 10 körningar för bara 0,62 USD per lösning. Det gör det ungefär 15 gånger billigare per framgång än GPT-5.5 trots en lägre lösningsgrad. För alla som kör säkerhetsverktyg i stor skala bör det gapet göra en enorm skillnad.

Claude Sonnet 4.6 och Claude Opus 4.8 löste vardera 2 av 10 körningar, men särskilt Opus kom nära flera gånger innan säkerhetsräcken avslutade sessionen. Längst ner är Gemini. Gemini 3.1 Pro Förhandsgranskning vägrade omedelbart i nästan varje körning, vilket återspeglas i ett median token-antal på bara 9k jämfört med 100k + för alla andra testade modeller. Gemini 3.5 Flash var inte mycket bättre heller, med frekventa tidiga avslag och bara två körningar som försökte problemet alls.

Kasra observerade att kinesiska modeller var mycket mer villiga att interagera direkt med levande databaser, medan västerländska modeller visade mer tvekan mitt i uppgiften - även när de hade identifierat rätt tillvägagångssätt. Forskaren tillägger också att detta inte alls är en vetenskaplig utvärdering, utan bara ett väldokumenterat experiment.