Notebookcheck Logo

Verktyg med öppen källkod mäter AI-modellers dumhetsnivå

Vibe-kodare måste hantera AI-modellernas inkonsekventa prestanda (Bildkälla: Skapad med hjälp av OpenAI)
AI-modeller är inte stabila (Bildkälla: Generated using OpenAI)
Ett nytt verktyg med öppen källkod erbjuder realtidsövervakning av flera AI-modeller, inklusive OpenAI GPT-5, Claude Opus 4 och Gemini 2.5 Pro. Det är det första i sitt slag och kan upptäcka "när AI-företag minskar modellkapaciteten för att spara kostnader" Benchmarkingen kan även köras mot användarnas egna OpenAI-, xAI-, Anthropic- eller Google API-nycklar.

De som har arbetat med AI-modeller för olika uppgifter, särskilt kodning, har märkt att programvaruverktygen beter sig inkonsekvent. I vissa fall ger de helt enkelt inga svar; ibland levererar de felaktig kod, och när de kommer fram till det som förväntades gör de det långsammare än vanligt. Det är här AI Benchmark Tool, som finns på AistupidLevel.infosom ger information i realtid om prestanda och noggrannhet för flera AI-modeller, inklusive kostnadsdata.

Det tidigare nämnda open source-verktyget kör över 140 kodnings-, felsöknings- och optimeringsuppgifter på alla stora modeller. För närvarande spårar det följande: OpenAI GPT, Claude och Gemini. Grok kommer också att läggas till snart. Dess höjdpunkter inkluderar följande:

  • Prisinformation i realtid, eftersom vissa modeller som verkar billiga behöver 10 iterationer för att få ett jobb gjort, medan andra som verkar dyrare vid första anblicken kommer att utföra samma uppgift i 2 iterationer, så för en lägre effektiv kostnad.
  • Möjligheten att köra samma tester med dina egna API-nycklar.
  • Övervakning av AI-prestanda i realtid, inklusive live-rankning av modeller baserat på dumhet och smarthet.
  • Smarta rekommendationer baserade på kombinerad prestanda.
  • Meddelande om aktiva försämringar - till exempel är Gemini-2.5-Flash nu 44% lägre jämfört med baslinjevärdet.

För närvarande är de smarta rekommendationerna dessa: Gemini-2.5-Flash-Lite för kod, Claude-3.5-Sonnet-20241022 för tillförlitlighet och Gemini-2.5-Flash-Lite för hastighet. Allt är öppet källkodat på GitHub (Repo API, Repo Front End), och vem som helst kan bidra. Alla detaljer och själva verktyget finns på den officiella webbplatsen, som nämndes i första stycket.

Källa(n)

Reddit (översatt)

Please share our article, every link counts!
Mail Logo
> Bärbara datorer, laptops - tester och nyheter > Nyheter > Nyhetsarkiv > Nyhetsarkiv 2025 09 > Verktyg med öppen källkod mäter AI-modellers dumhetsnivå
Codrut Nistor, 2025-09-18 (Update: 2025-09-18)