MIT-studie varnar: Chatbots mer benägna att avskräcka vissa grupper från att träffa en läkare

Enligt en ny MIT-studie kan svaren på hälsofrågor från chatbottar variera avsevärt - beroende på vem som frågar. (Bildkälla: DallE3)

Är AI alltid objektivt? Inte helt och hållet. En ny studie från MIT visar att sättet en person skriver på kan forma de medicinska råd som de får från chatbots - ofta till deras nackdel. Vissa grupper får konsekvent mindre korrekta eller till och med osäkra rekommendationer baserat på hur de uttrycker sina symtom.

Marius Müller (översatt av Ninh Duy), Publicerad 07/09/2025 🇺🇸 🇩🇪 ...

AI Science

ChatGPT, Gemini och liknande verktyg används allt oftare som hälsorådgivare. Frågor som "Jag har huvudvärk - vad kan det bero på?" eller "Min axel gör ont - när ska jag uppsöka läkare?" är numera rutin för dessa chatbottar. Men en ny studie från Massachusetts Institute of Technology (MIT) visar att inte alla användare får samma svar på dessa vanliga frågor.

Studien publicerades den 23 juni på ochmed titeln"The Medium is the Message: How Non-Clinical Information Shapes Clinical Decisions in LLMs" undersöker hur till synes irrelevanta faktorer - som ton, skrivstil eller formatering - kan påverka de medicinska råd som ges av AI-system.

För att mäta hur mycket språk och stil påverkar AI-chatbotens beslut byggde forskarna ett "perturbation framework" Detta verktyg gjorde det möjligt för dem att skapa olika versioner av samma medicinska fråga - förändrad för att inkludera element som osäkerhet, dramatisk formulering, stavfel eller inkonsekvent kapitalisering. De testade sedan dessa variationer på fyra stora språkmodeller: GPT-4, LLaMA-3-70B, LLaMA-3-8B och Palmyra-Med - en modell som är särskilt utformad för medicinsk användning.

Särskilt drabbade: Kvinnor, icke-binära personer, icke-teknikanvändare och personer som inte har språket som modersmål

Resultaten av MIT-studien är tydliga: sättet en person skriver på kan avsevärt påverka de medicinska råd som de får från AI-chattbotar. Vissa användare, beroende på deras skrivstil eller ton, var mer benägna att få alltför försiktiga rekommendationer. Ett av de mest slående resultaten var att kvinnor oftare uppmanades att hantera symtomen på egen hand eller mer sällan rekommenderades att uppsöka läkare, även när det medicinska innehållet i deras frågor var identiskt.

Personer som skriver i en tveksam ton, använder ett enkelt språk eller gör enstaka stavfel verkar också ha en nackdel. Detta drabbar ofta icke-experter, personer med begränsade hälsokunskaper eller personer med svagare språkkunskaper, särskilt personer med ett annat modersmål än svenska.

Forskarna betonar att innan AI-system kan användas i stor utsträckning inom sjukvården måste de testas grundligt - inte bara i genomsnitt, utan i olika användargrupper. Enbart genomsnittlig träffsäkerhet säger inte mycket om en modells rättvisa eller tillförlitlighet, särskilt inte när användarna uttrycker sig på ett sätt som avviker från normen.

YouTube: Mellan beröm och gåshud

I en medföljande YouTube-video får studien beröm för sin smarta och realistiska design - men resultaten beskrivs som "störande" och till och med "skrämmande" Tanken att ytliga faktorer som ton eller formatering kan påverka medicinsk rådgivning går stick i stäv med den vanliga uppfattningen att AI är objektivt och neutralt.