ChatGPT, Gemini och liknande verktyg används allt oftare som hälsorådgivare. Frågor som "Jag har huvudvärk - vad kan det bero på?" eller "Min axel gör ont - när ska jag uppsöka läkare?" är numera rutin för dessa chatbottar. Men en ny studie från Massachusetts Institute of Technology (MIT) visar att inte alla användare får samma svar på dessa vanliga frågor.
Studien publicerades den 23 juni på ochmed titeln"The Medium is the Message: How Non-Clinical Information Shapes Clinical Decisions in LLMs" undersöker hur till synes irrelevanta faktorer - som ton, skrivstil eller formatering - kan påverka de medicinska råd som ges av AI-system.
För att mäta hur mycket språk och stil påverkar AI-chatbotens beslut byggde forskarna ett "perturbation framework" Detta verktyg gjorde det möjligt för dem att skapa olika versioner av samma medicinska fråga - förändrad för att inkludera element som osäkerhet, dramatisk formulering, stavfel eller inkonsekvent kapitalisering. De testade sedan dessa variationer på fyra stora språkmodeller: GPT-4, LLaMA-3-70B, LLaMA-3-8B och Palmyra-Med - en modell som är särskilt utformad för medicinsk användning.
Särskilt drabbade: Kvinnor, icke-binära personer, icke-teknikanvändare och personer som inte har språket som modersmål
Resultaten av MIT-studien är tydliga: sättet en person skriver på kan avsevärt påverka de medicinska råd som de får från AI-chattbotar. Vissa användare, beroende på deras skrivstil eller ton, var mer benägna att få alltför försiktiga rekommendationer. Ett av de mest slående resultaten var att kvinnor oftare uppmanades att hantera symtomen på egen hand eller mer sällan rekommenderades att uppsöka läkare, även när det medicinska innehållet i deras frågor var identiskt.
Personer som skriver i en tveksam ton, använder ett enkelt språk eller gör enstaka stavfel verkar också ha en nackdel. Detta drabbar ofta icke-experter, personer med begränsade hälsokunskaper eller personer med svagare språkkunskaper, särskilt personer med ett annat modersmål än svenska.
Forskarna betonar att innan AI-system kan användas i stor utsträckning inom sjukvården måste de testas grundligt - inte bara i genomsnitt, utan i olika användargrupper. Enbart genomsnittlig träffsäkerhet säger inte mycket om en modells rättvisa eller tillförlitlighet, särskilt inte när användarna uttrycker sig på ett sätt som avviker från normen.
YouTube: Mellan beröm och gåshud
I en medföljande YouTube-video får studien beröm för sin smarta och realistiska design - men resultaten beskrivs som "störande" och till och med "skrämmande" Tanken att ytliga faktorer som ton eller formatering kan påverka medicinsk rådgivning går stick i stäv med den vanliga uppfattningen att AI är objektivt och neutralt.
Källa(n)
Topp 10...
» Topp 10: Bästa bärbara allround/multimediadatorerna
» Topp 10: Bästa bärbara speldatorerna
» Topp 10: Bärbara budget/kontorsdatorer
» Topp 10: Bästa bärbara kontors/premiumdatorerna
» Topp 10: Bärbara arbetsstationer
» Topp 10: De bästa små/kompakta bärbara datorerna
» Topp 10: Bästa ultrabooks
» Topp 10: Bästa hybriddatorerna
» Topp 10: Bästa surfplattorna
» Topp 10: Marknadens bästa smartphones