Samsung lanserar TRUEBench för att testa AI-produktivitet i verkliga arbetssituationer

Galaxy AI (Bildkälla: Antony Muchiri)

Samsung har lanserat TRUEBench, ett nytt benchmark som är utformat för att mäta hur väl AI-system hanterar verkliga arbetsuppgifter på arbetsplatsen istället för snäva akademiska tester. Benchmarken omfattar 2 485 scenarier i tio kategorier och på tolv språk och utvärderar allt från snabba instruktioner till långvarig dokumenthantering. Poängsättningen är strikt och kräver att modellerna uppfyller alla villkor, vilket gör resultaten krävande men mer realistiska.

Antony Muchiri (översatt av Ninh Duy), Publicerad 09/26/2025 🇺🇸 🇩🇪 ...

Samsung AI Launch

AI har länge kämpat för att fånga upp vad människor faktiskt gör med dessa system. De flesta tester fokuserar fortfarande på frågor och svar på engelska som ser snygga ut på papperet, men som inte återspeglar de många olika aktiviteter som du använder dig av i ditt dagliga arbete. Samsung har just lanserat TRUEBench, en förkortning för Trustworthy Real-world Usage Evaluation Benchmark, för att mäta AI-prestanda på ett sätt som känns närmare verkliga kontorsuppgifter.

TRUEBench går bortom enkel trivia eller utbyten av enstaka uppmaningar till att köra modeller genom dokumentsammanfattning, översättning till tolv språk, dataanalys och instruktioner i flera steg som kräver att AI upprätthåller sammanhanget. Samsung utvecklade 2.485 testuppsättningar i tio kategorier och 46 underkategorier, med inmatningar som varierade från en handfull tecken till mer än tjugotusen. Målet är att simulera allt från snabba kommandon till långa affärsrapporter.

Paul (Kyungwhoon) Cheun, CTO för DX-divisionen på Samsung Electronics och chef för Samsung Research, säger: "Samsung Research bidrar med djup expertis och en konkurrensfördel genom sin erfarenhet av AI i den verkliga världen. Vi förväntar oss att TRUEBench kommer att etablera utvärderingsstandarder för produktivitet och befästa Samsungs tekniska ledarskap."

Samsungs TRUEBench AI-verktyg (Bildkälla: Samsung Newsroom)

För att en modell ska bli godkänd måste den uppfylla alla villkor som krävs i ett test, inklusive implicita villkor som återspeglar vad en rimlig person skulle förvänta sig även om dessa villkor inte anges. Denna allt-eller-inget-metod gör resultaten mindre förlåtande, men gör också att de närmar sig det sätt på vilket man skulle avgöra om en produkt är verkligt användbar. Samsung skapade reglerna genom att kombinera mänsklig input med AI-kontroller. Mänskliga kommentatorer utarbetade de ursprungliga villkoren, AI flaggade för motsägelser eller inkonsekvenser, och människor förfinade ramverket igen innan det låstes in. När utvärderingen var klar kunde den sedan köras i stor skala genom automatiserad AI-poängsättning.

Samsung har också gjort datasetet, topplistorna och utdatastatistiken offentliga genom Hugging Face. Du kan direkt jämföra så många som fem modeller och se hur deras resultat står sig mot varandra. Denna nivå av transparens gör det möjligt för utvecklare, forskare och användare att undersöka benchmarken snarare än att bara lita på Samsungs påståenden.

Benchmarken är dock inte perfekt, eftersom regeluppsättning alltid kommer att innehålla en viss grad av partiskhet, och att kräva fullständig framgång på varje villkor innebär att partiella men ändå användbara svar poängsätts som misslyckanden. Språkstödet går längre än de flesta befintliga tester, men prestandan kommer oundvikligen att skilja sig åt, särskilt i språk där träningsdata är knapphändiga. Testuppsättningen lutar sig också mot allmänna affärsuppgifter, så högspecialiserade domäner som juridik, medicin eller vetenskaplig forskning kanske inte är helt representerade.