Verktyg med öppen källkod mäter AI-modellers dumhetsnivå

AI-modeller är inte stabila för vibokodning (Bildkälla: Skapad med OpenAI)

Ett nytt verktyg med öppen källkod erbjuder realtidsövervakning av flera AI-modeller, inklusive OpenAI GPT-5, Claude Opus 4 och Gemini 2.5 Pro. Det är det första i sitt slag och kan upptäcka "när AI-företag minskar modellkapaciteten för att spara kostnader" Benchmarkingen kan även köras mot användarnas egna OpenAI-, xAI-, Anthropic- eller Google API-nycklar.

Codrut Nistor (översatt av Ninh Duy), Publicerad 09/18/2025 🇺🇸 🇪🇸 ...

De som har arbetat med AI-modeller för olika uppgifter, särskilt kodning, har märkt att programvaruverktygen beter sig inkonsekvent. I vissa fall ger de helt enkelt inga svar; ibland levererar de felaktig kod, och när de kommer fram till det som förväntades gör de det långsammare än vanligt. Det är här AI Benchmark Tool, som finns på AistupidLevel.infosom ger information i realtid om prestanda och noggrannhet för flera AI-modeller, inklusive kostnadsdata.

Det tidigare nämnda open source-verktyget kör över 140 kodnings-, felsöknings- och optimeringsuppgifter på alla stora modeller. För närvarande spårar det följande: OpenAI GPT, Claude och Gemini. Grok kommer också att läggas till snart. Dess höjdpunkter inkluderar följande:

Prisinformation i realtid, eftersom vissa modeller som verkar billiga behöver 10 iterationer för att få ett jobb gjort, medan andra som verkar dyrare vid första anblicken kommer att utföra samma uppgift i 2 iterationer, så för en lägre effektiv kostnad.
Möjligheten att köra samma tester med dina egna API-nycklar.
Övervakning av AI-prestanda i realtid, inklusive live-rankning av modeller baserat på dumhet och smarthet.
Smarta rekommendationer baserade på kombinerad prestanda.
Meddelande om aktiva försämringar - till exempel är Gemini-2.5-Flash nu 44% lägre jämfört med baslinjevärdet.

För närvarande är de smarta rekommendationerna dessa: Gemini-2.5-Flash-Lite för kod, Claude-3.5-Sonnet-20241022 för tillförlitlighet och Gemini-2.5-Flash-Lite för hastighet. Allt är öppet källkodat på GitHub (Repo API, Repo Front End), och vem som helst kan bidra. Alla detaljer och själva verktyget finns på den officiella webbplatsen, som nämndes i första stycket.