GPT-5.5 dominerar LLM-hackningstestet på 1 500 USD medan Gemini vägrar att ens försöka

En säkerhetsforskare har just publicerat ett av årets mer avslöjande AI-kapacitetstester. Resultaten säger mycket om var olika modeller faktiskt står.
Kasra Rahjerdi, som gör app-säkerhetsforskning professionellt, byggde en avsiktligt sårbar bokgranskningsapp som innehåller en verklig klass av exploatering: exponerade Firebase-referenser i APK som tillåter direkt databasåtkomst, kringgå ett annars härdat API helt. Han matade sedan utmaningen till över ett dussin AI-modeller - var och en av dem tilldelades en budget på 10 dollar och två timmar per körning och spenderade totalt 1 500 dollar i processen.
GPT-5.5 var den tydliga vinnaren. Den löste utmaningen i 7 av 10 körningar till en kostnad av 9,46 USD per lösning. Nästan varje framgångsrik körning nollställdes på Firebase omedelbart efter uppackning av APK, utan att bli distraherad av API eller själva appen.
Topp 10...
» Topp 10: Bästa bärbara allround/multimediadatorerna
» Topp 10: Bästa bärbara speldatorerna
» Topp 10: Bärbara budget/kontorsdatorer
» Topp 10: Bästa bärbara kontors/premiumdatorerna
» Topp 10: Bärbara arbetsstationer
» Topp 10: De bästa små/kompakta bärbara datorerna
» Topp 10: Bästa ultrabooks
» Topp 10: Bästa hybriddatorerna
» Topp 10: Bästa surfplattorna
» Topp 10: Marknadens bästa smartphones
DeepSeek V4 Pro var mästaren i kostnadseffektivitet - löste 3 av 10 körningar för bara 0,62 USD per lösning. Det gör det ungefär 15 gånger billigare per framgång än GPT-5.5 trots en lägre lösningsgrad. För alla som kör säkerhetsverktyg i stor skala bör det gapet göra en enorm skillnad.
Claude Sonnet 4.6 och Claude Opus 4.8 löste vardera 2 av 10 körningar, men särskilt Opus kom nära flera gånger innan säkerhetsräcken avslutade sessionen. Längst ner är Gemini. Gemini 3.1 Pro Förhandsgranskning vägrade omedelbart i nästan varje körning, vilket återspeglas i ett median token-antal på bara 9k jämfört med 100k + för alla andra testade modeller. Gemini 3.5 Flash var inte mycket bättre heller, med frekventa tidiga avslag och bara två körningar som försökte problemet alls.
Kasra observerade att kinesiska modeller var mycket mer villiga att interagera direkt med levande databaser, medan västerländska modeller visade mer tvekan mitt i uppgiften - även när de hade identifierat rätt tillvägagångssätt. Forskaren tillägger också att detta inte alls är en vetenskaplig utvärdering, utan bara ett väldokumenterat experiment.









