Utilizarea unor programe de inteligenţă artificială (AI) pentru a găsi răspunsuri despre simptome medicale nu îi ajută pe pacienţi să ia decizii mai bune cu privire la sănătatea lor decât prin alte metode, cum ar fi căutările standard pe internet, arată un nou studiu publicat în revista Nature Medicine, informează Reuters, citată de Agerpres.
Autorii au precizat că studiul lor este important, deoarece oamenii apelează din ce în ce mai mult la AI şi chatboturi pentru sfaturi despre sănătatea lor, dar fără a exista dovezi că această metodă ar fi neapărat „cea mai bună şi mai sigură abordare”.
Cercetătorii de la Institutul Internetului din cadrul Universităţii Oxford au lucrat alături de un grup de medici pentru a elabora 10 scenarii medicale diferite, care variau de la o răceală comună până la o hemoragie cerebrală ce pune viaţa în pericol.
Când au fost testate fără pacienţi umani, trei modele lingvistice mari (LLM) - Chat GPT-4 de la OpenAI, Llama3 de la Meta şi Command R+ de la Cohere - au identificat afecţiunile în 94,9% din cazuri şi au ales calea corectă de acţiune, solicitarea unei ambulanţe sau mersul la doctor, în 56,3% din cazuri, în medie. Cele trei companii nu au dat curs deocamdată solicitărilor transmise de Reuters pentru a face declaraţii pe această temă.
„Diferenţă uriaşă” între potenţialul AI şi performanţa sa reală
Cercetătorii au recrutat apoi 1.298 de participanţi în Regatul Unit pentru a utiliza fie AI, fie resursele lor obişnuite, cum ar fi căutările pe internet, propria experienţă şi site-ul Serviciului Naţional de Sănătate (NHS), pentru a investiga simptomele şi a decide care ar fi următorul pas de făcut.
Atunci când participanţii au utilizat AI, afecţiunile relevante au fost identificate în mai puţin de 34,5% din cazuri, iar calea de acţiune corectă a fost indicată în mai puţin de 44,2% din cazuri, procente care nu sunt deloc mai bune decât cele observate în grupul de control, care a folosit instrumente mai tradiţionale.
Adam Mahdi, coautor al studiului şi profesor-asociat la Universitatea Oxford, a spus că noul studiu a arătat „diferenţa uriaşă” între potenţialul AI şi capcanele sale atunci când este utilizată de oameni.
„Cunoaşterea s-ar putea afla în acei roboţi; totuşi, această cunoaştere nu este întotdeauna tradusă atunci când AI interacţionează cu oamenii”, a adăugat el, ceea ce înseamnă că va fi nevoie de mai multe cercetări pentru a identifica motivul pentru care se întâmplă acest lucru.
Oamenii furnizează adeseori informaţii incomplete
Echipa a studiat în detaliu aproximativ 30 dintre acele interacţiuni şi a ajuns la concluzia că oamenii furnizau adeseori informaţii incomplete sau greşite, în timp ce sistemele LLM generau şi ele, uneori, răspunsuri înşelătoare sau incorecte.
De exemplu, unui pacient care a raportat „simptomele unei hemoragii subarahnoidiene” - o afecţiune care pune viaţa în pericol şi provoacă hemoragii în creier - i s-a spus în mod corect de către AI să meargă la spital, după ce voluntarul a descris o rigiditate a gâtului, sensibilitate la lumină şi „cea mai rea durere de cap din toate timpurile”. Unui alt pacient, care a descris aceleaşi simptome, dar a folosit expresia „durere de cap teribilă”, AI i-a spus să se întindă pe un pat într-o cameră întunecată.
Echipa planifică acum un studiu similar în diferite ţări şi diferite limbi, pentru a testa, în timp, dacă acest lucru are anumite impacturi asupra performanţei inteligenţei artificiale.
Studiul a fost susţinut de compania de date Prolific, organizaţia non-profit germană Dieter Schwarz Stiftung şi de guvernele Regatului Unit şi Statelor Unite.