Cercetătorii au descoperit că un model de inteligență artificială a depășit medicii în majoritatea sarcinilor de raționament medical, de la stabilirea diagnosticului până la recomandări privind gestionarea pacienților, scrie Euronews.
Potrivit studiului, modelele de inteligență artificială au obținut rezultate mai bune decât medicii inclusiv în deciziile medicale din situații de urgență.
Cercetarea a fost realizată de specialiști de la Harvard Medical School și Beth Israel Deaconess Medical Center din Statele Unite, care au comparat performanța inteligenței artificiale cu cea a medicilor într-o gamă largă de sarcini de raționament clinic.
LLM-urile au depășit medicii în cele mai multe domenii
Rezultatele au arătat că modelele de limbaj mare (LLM) au depășit medicii în mai multe domenii, inclusiv luarea deciziilor în camera de gardă pe baza informațiilor disponibile, identificarea diagnosticelor probabile și stabilirea pașilor următori în managementul pacientului.
„Am testat modelul AI în raport cu aproape fiecare criteriu de referință și a eclipsat atât modelele anterioare, cât și valorile de referință ale medicilor noștri”, a declarat Arjun Manrai, co-autor principal și profesor la Harvard Medical School.
Acesta a subliniat însă că rezultatele nu garantează automat îmbunătățirea actului medical: „Cu toate acestea, acest lucru nu înseamnă că AI va îmbunătăți neapărat îngrijirea, deoarece modul și locul în care ar trebui implementată rămâne insuficient studiat și avem nevoie disperată de studii prospective riguroase pentru a evalua impactul AI asupra practicii clinice.”
Cercetătorii au evaluat modelul o1-preview
Pentru testare, cercetătorii au evaluat modelul o1-preview, un model de raționament lansat de OpenAI în 2024, căruia i-au fost prezentate cazuri clinice variate, inclusiv conferințe de cazuri publicate și date reale din departamente de urgență.
În majoritatea experimentelor, inteligența artificială a depășit medicii, în special în ceea ce privește raționamentul managerial, raționamentul clinic, documentația și situațiile de urgență în care informațiile sunt limitate.
„Modelele sunt din ce în ce mai capabile. Obișnuiam să le evaluăm cu teste cu variante multiple de răspuns; acum obțin constant scoruri apropiate de 100% și nu mai putem urmări progresul pentru că suntem deja la limita maximă”, a declarat co-autorul Peter Brodeur, cercetător clinician la Beth Israel Deaconess.
Cea mai mare diferență a fost observată în etapa de triaj
Într-unul dintre teste, cercetătorii au cerut atât medicilor, cât și modelelor o1 și GPT-4o să evalueze pacienți în diferite etape ale unui scenariu tipic dintr-un departament de urgență, de la triaj până la deciziile de internare.
În fiecare etapă, modelului i-au fost oferite doar informațiile disponibile la acel moment și i s-a cerut să propună diagnostice probabile și să recomande pașii următori.
Cea mai mare diferență între inteligența artificială și medicii umani a fost observată în etapa de triaj, unde informațiile despre pacient sunt limitate.
La fel ca medicii, modelele de inteligență artificială și-au îmbunătățit performanța pe măsură ce au primit mai multe date despre pacienți.
Sunt necesare cercetări suplimentare
Autorii studiului subliniază că, deși utilizarea IA în sprijinul deciziilor clinice este considerată uneori riscantă, extinderea utilizării acestor instrumente ar putea reduce costurile umane și financiare generate de erorile de diagnostic, întârzieri sau lipsa accesului la servicii medicale.
Totuși, cercetătorii insistă că sunt necesare studii suplimentare pentru a evalua aceste tehnologii în condiții reale și pentru a asigura integrarea lor în siguranță în sistemele medicale.
„Un model ar putea stabili corect diagnosticul, dar ar putea sugera și teste inutile care ar putea expune un pacient la riscuri”, a explicat Brodeur. „Oamenii trebuie să rămână punctul de referință suprem atunci când evaluăm performanța și siguranța.”
Studiul are și limitări. Autorii au precizat că analiza reflectă în principal performanța modelului o1-preview, o versiune preliminară, care între timp a fost înlocuită de modele mai noi, precum o3.
„Deși ne așteptăm ca performanța să fie menținută sau chiar îmbunătățită, sunt necesare cercetări suplimentare pentru a înțelege diferențele dintre modele și modul în care oamenii și inteligența artificială pot colabora”, au concluzionat cercetătorii.