Antena 3 CNN High Tech Chatboții AI simplifică excesiv studiile științifice și omit detalii esențiale. Noile modele sunt cele mai vinovate

Chatboții AI simplifică excesiv studiile științifice și omit detalii esențiale. Noile modele sunt cele mai vinovate

Anamaria Nedelcoff
4 minute de citit Publicat la 12:27 06 Iul 2025 Modificat la 12:27 06 Iul 2025
Foto: Getty Images

Modelele de inteligență artificială generativă avansate tind să simplifice excesiv descoperirile științifice complexe din cauza modului în care interpretează datele pe care au fost antrenate, sugerează un nou studiu, citat de Live Science.

Potrivit cercetării, modelele lingvistice mari (LLMs) devin din ce în ce mai puțin „inteligente” cu fiecare nouă versiune, întrucât ajung să simplifice prea mult sau chiar să distorsioneze concluziile esențiale din studii științifice și medicale.

O analiză a 4.900 de rezumate ale unor lucrări științifice a arătat că versiunile recente ale ChatGPT, Llama și DeepSeek sunt de cinci ori mai predispuse să simplifice excesiv conținutul științific comparativ cu experții umani.

Mai mult, atunci când li s-a cerut să prioritizeze acuratețea, aceste modele au generalizat de două ori mai mult decât atunci când li s-a cerut doar un rezumat simplificat. Testele au mai arătat și că versiunile mai noi ale chatboților tind să exagereze mai mult decât cele mai vechi. Studiul a fost publicat pe 30 aprilie în revista Royal Society Open Science.

„Cred că una dintre cele mai mari provocări este că generalizarea poate părea inofensivă sau chiar utilă, până în momentul în care îți dai seama că a schimbat sensul cercetării originale”, a explicat Uwe Peters, cercetător postdoctoral la Universitatea din Bonn, Germania.

„Contribuția noastră este o metodă sistematică de detectare a momentului în care modelele generalizează dincolo de ce este justificat de textul original”, adaugă el.

Imaginează-ți un fotocopiator cu o lentilă defectă: fiecare copie nouă devine mai mare și mai accentuată decât originalul. Cam așa funcționează și LLM-urile – filtrează informația prin straturi computaționale multiple, iar în acest proces, unele date se pierd sau li se schimbă sensul, mai ales când vine vorba de cercetări științifice care includ nuanțe, contexte și limitări.

„Modelele LLM mai vechi tindeau să evite să răspundă la întrebări dificile, în timp ce modelele mai noi, mai mari și mai `instruibile`, preferă să dea răspunsuri care sună convingător și autoritar, dar care pot fi fundamental greșite”, notează autorii.

Într-un exemplu din studiu, modelul DeepSeek a transformat fraza „a fost sigură și s-a putut realiza cu succes” în „este o opțiune de tratament sigură și eficientă”, atribuind astfel un caracter generalizat unei concluzii mai rezervate.

Un alt test a arătat că Llama a extins abuziv concluziile despre eficiența unui medicament pentru diabetul de tip 2 la tineri, eliminând detalii esențiale precum doza, frecvența administrării și efectele observate.

Dacă astfel de rezumate generate de chatboți ar fi publicate, ele ar putea determina profesioniștii din domeniul medical să prescrie tratamente în afara parametrilor siguri.

Risc de tratamente nesigure

Studiul a investigat trei întrebări cheie în legătură cu zece dintre cele mai populare modele AI: patru versiuni de ChatGPT, trei Claude, două Llama și una DeepSeek.

Cercetătorii au vrut să afle:

  • Dacă LLM-urile, atunci când primesc un rezumat scris de un om și sunt rugate să-l sintetizeze, tind să generalizeze excesiv.
  • Dacă o cerere de mai mare acuratețe reduce acest comportament.
  • Dacă aceste modele tind să exagereze mai mult decât oamenii.

Rezultatele au fost clare: cu excepția modelului Claude (care a avut performanțe bune pe toate criteriile), LLM-urile care au primit instrucțiuni pentru acuratețe au fost de două ori mai predispuse să genereze răspunsuri generalizate.

În general, rezumatele produse de LLM-uri au fost de aproape cinci ori mai înclinate să tragă concluzii generalizate decât cele scrise de oameni.

Cele mai frecvente generalizări au apărut în momentele în care date cantitative au fost transformate în informații vagi, lucru care poate conduce la opțiuni de tratament nesigure.

Astfel de deviații au generat forme de bias mai subtile, potrivit specialiștilor în inteligență artificială aplicată în domeniul sănătății.

„Studiul arată că biasul poate lua forme foarte subtile – cum ar fi amplificarea tăcută a domeniului de aplicare al unei concluzii”, a declarat Max Rollwage, vicepreședinte AI la compania Limbic, specializată în tehnologii AI pentru sănătatea mintală.

„În medicină, sumarizarea cu LLM-uri face deja parte din fluxul de lucru. Cu atât mai important este să vedem cât de bine funcționează și dacă pot fi considerate demne de încredere în reprezentarea fidelă a dovezilor”, spune acesta.

Rollwage atrage atenția că astfel de rezultate ar trebui să determine dezvoltatorii să introducă „sisteme de siguranță” în fluxurile de lucru, care să identifice simplificările excesive și omisiunile înainte ca datele să ajungă la public sau la profesioniști.

Studiul, deși amplu, are limitări: testele viitoare ar trebui extinse la alte tipuri de sarcini științifice și texte în alte limbi, precum și la evaluarea tipurilor de afirmații care sunt cel mai frecvent distorsionate, spune Patricia Thaine, CEO al Private AI.

Rollwage adaugă că o analiză mai profundă a modului în care sunt formulate instrucțiunile (prompt engineering) ar putea aduce mai multă claritate.

Iar Uwe Peters avertizează că dependența tot mai mare de astfel de unelte crește riscurile: „ChatGPT, Claude și DeepSeek fac deja parte din modul în care publicul înțelege știința. Odată cu extinderea lor, există un risc real de interpretări greșite în masă, într-o perioadă în care încrederea publică și alfabetizarea științifică sunt deja fragile”.

Pentru alți experți, problema e chiar mai profundă: modelele AI sunt antrenate adesea pe articole simplificate de tip `popular science`, nu pe surse științifice primare. În plus, sunt aplicate în domenii specializate fără o supraveghere adecvată din partea experților.

„Este o utilizare fundamental greșită a tehnologiei, care ar necesita antrenamente specifice pentru sarcinile respective”, conchide Thaine.

Citește mai multe din High Tech
» Citește mai multe din High Tech
TOP articole