Notebookcheck Logo

GPT-5.5 dominerar LLM-hackningstestet på 1 500 USD medan Gemini vägrar att ens försöka

Tillsammans med andra AI-modeller presenterade Claude, Gemini, GPT och DeepSeek några av de mest intressanta resultaten.
ⓘ Anthropic, OpenAI, DeepSeek, Google - edited
Tillsammans med andra AI-modeller presenterade Claude, Gemini, GPT och DeepSeek några av de mest intressanta resultaten.
En säkerhetsforskare spenderade 1 500 dollar på att köra 13+ AI-modeller mot en avsiktligt sårbar app. GPT-5.5 ledde med en lösningsgrad på 70%, DeepSeek V4 Pro löste det för $ 0,62 per försök, och Gemini vägrade att engagera sig nästan helt.

En säkerhetsforskare har just publicerat ett av årets mer avslöjande AI-kapacitetstester. Resultaten säger mycket om var olika modeller faktiskt står.

Kasra Rahjerdi, som gör app-säkerhetsforskning professionellt, byggde en avsiktligt sårbar bokgranskningsapp som innehåller en verklig klass av exploatering: exponerade Firebase-referenser i APK som tillåter direkt databasåtkomst, kringgå ett annars härdat API helt. Han matade sedan utmaningen till över ett dussin AI-modeller - var och en av dem tilldelades en budget på 10 dollar och två timmar per körning och spenderade totalt 1 500 dollar i processen.

GPT-5.5 var den tydliga vinnaren. Den löste utmaningen i 7 av 10 körningar till en kostnad av 9,46 USD per lösning. Nästan varje framgångsrik körning nollställdes på Firebase omedelbart efter uppackning av APK, utan att bli distraherad av API eller själva appen.

Skärmdumpar av den avsiktligt sårbara appen för bokrecensioner.

DeepSeek V4 Pro var mästaren i kostnadseffektivitet - löste 3 av 10 körningar för bara 0,62 USD per lösning. Det gör det ungefär 15 gånger billigare per framgång än GPT-5.5 trots en lägre lösningsgrad. För alla som kör säkerhetsverktyg i stor skala bör det gapet göra en enorm skillnad.

Claude Sonnet 4.6 och Claude Opus 4.8 löste vardera 2 av 10 körningar, men särskilt Opus kom nära flera gånger innan säkerhetsräcken avslutade sessionen. Längst ner är Gemini. Gemini 3.1 Pro Förhandsgranskning vägrade omedelbart i nästan varje körning, vilket återspeglas i ett median token-antal på bara 9k jämfört med 100k + för alla andra testade modeller. Gemini 3.5 Flash var inte mycket bättre heller, med frekventa tidiga avslag och bara två körningar som försökte problemet alls.

Kasra observerade att kinesiska modeller var mycket mer villiga att interagera direkt med levande databaser, medan västerländska modeller visade mer tvekan mitt i uppgiften - även när de hade identifierat rätt tillvägagångssätt. Forskaren tillägger också att detta inte alls är en vetenskaplig utvärdering, utan bara ett väldokumenterat experiment.

Google LogoAdd as a preferred source on Google
Mail Logo
> Bärbara datorer, laptops - tester och nyheter > Nyheter > Nyhetsarkiv > Nyhetsarkiv 2026 06 > GPT-5.5 dominerar LLM-hackningstestet på 1 500 USD medan Gemini vägrar att ens försöka
Anubhav Sharma, 2026-06- 4 (Update: 2026-06- 4)