AI-kamp: Grok överraskar Mrwhosetheboss med sin prestation och ChatGPT vinner

Gemini, ChatGPT, Grok och Perplexity (Bildkälla: Gemini)

I en video som Mrwhosetheboss publicerade på YouTube testade han fyra AI-modeller från olika varumärken och gav dem poäng baserat på hur de presterade i varje uppgift. Mrwhosetheboss gick från enkla frågor till knepiga frågor och forskning och pressade varje modell till sin gräns.

Chibuike Okpara (översatt av Ninh Duy), Publicerad 07/04/2025 🇺🇸 🇩🇪 ...

I videon testade Mrwhosetheboss Grok (Grok 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) och Perplexity (Sonar Pro). Han gjorde det klart under hela videon att han var imponerad av den prestanda som Grok levererade. Grok började riktigt bra, tappade lite, och kom sedan tillbaka för att ta andraplatsen bakom ChatGPT. För att vara rättvis fick ChatGPT och Gemini sina poäng ökade tack vare en funktion som de andra helt enkelt saknar - videogenerering.

För att starta testet testade Mrwhosetheboss modellernas problemlösningsförmåga i verkliga världen, han gav varje AI-modell denna uppmaning: Jag kör en Honda Civic 2017, hur många Aerolite 29" Hard Shell (79x58x31cm) resväskor skulle jag kunna få plats med i bagageutrymmet? Groks svar var det mest okomplicerade eftersom det korrekt svarade "2", ChatGPT och Gemini uppgav att det teoretiskt skulle kunna rymmas 3, men praktiskt 2. Perplexity gick av spåret och gjorde enkel matematik och glömde att objektet i fråga inte var formlöst, och det kom fram till "3 eller 4"

I nästa fråga var han inte så snäll mot chatbotarna - han bad om råd om hur man bakar en tårta. Tillsammans med sin fråga laddade han upp en bild som visade 5 objekt, varav en inte används för att göra kakor - en burk torkad Porcini-svamp - alla utom en av modellerna föll för fällan. ChatGPT identifierade det som en burk med blandad krydda, Gemini sa att det var en burk med krispig stekt lök, Perplexity döpte det till snabbkaffe, medan Grok korrekt identifierade det som en burk med torkad svamp från Waitrose. Här är bilden som han laddade upp:

En förändrad bild av de 5 ingredienser som Mrwhosetheboss laddade upp till AI-chatbotarna och som framhäver svampburken (Bildkälla: Mrwhosetheboss; beskuren)

Därefter testade han dem på matematik, produktrekommendationer, bokföring, språköversättning, logiskt resonemang osv. En sak var universell för dem - hallucination - var och en av modellerna uppvisade en viss nivå av hallucination vid någon eller några punkter i videon; pratade om saker som helt enkelt inte existerade med tillförsikt. Här är hur varje AI rankades i slutet:

ChatGPT (29 poäng)
Grok (24 poäng)
Gemini (22 poäng)
Perplexitet (19 poäng)

Artificiell intelligens har hjälpt till att göra de flesta uppgifter mindre betungande, särskilt sedan LLM:ernas ankomst. Boken Artificiell intelligens (för närvarande 19,88 USD på Amazon) är en av de böcker som försöker hjälpa människor att dra nytta av AI.