Antena 3 CNN Life Știinţă Modelele AI devin tot mai bune în a ne înșela, a minți și a complota. Programele știu chiar și când sunt testate, arată studiile

Modelele AI devin tot mai bune în a ne înșela, a minți și a complota. Programele știu chiar și când sunt testate, arată studiile

Mia Lungu
8 minute de citit Publicat la 11:49 28 Iul 2025 Modificat la 11:49 28 Iul 2025
masti inselatorie minciuna
Inteligența artificială este tot mai capabilă să comploteze și să mintă pentru a-și atinge obiectivele, arată studiile. Imagine cu caracter ilustrativ. Sursa foto: Getty Images

Cu cât inteligența artificială (AI) devine mai avansată, cu atât este mai capabilă să comploteze și să mintă pentru a-și atinge obiectivele, și știe chiar și când este evaluată, sugerează cele mai noi cercetări.

Evaluatorii de la Apollo Research au descoperit că, cu cât un model lingvistic de mari dimensiuni (LLM) este mai capabil, cu atât este mai bun la „intrigile contextuale” — în care AI urmărește o sarcină în secret, chiar dacă aceasta nu este în concordanță cu obiectivele operatorilor săi.

Modelele mai capabile sunt, de asemenea, mai strategice în ceea ce privește atingerea obiectivelor lor, inclusiv a celor nealiniate, și ar fi mai susceptibile să utilizeze tactici precum înșelăciunea, au afirmat cercetătorii într-o postare pe blog.

Această descoperire i-a determinat să recomande ca versiunea inițială a Claude Opus 4 de la Anthropic să nu fie implementată, deoarece, atunci când obiectivele lui Claude intrau în conflict cu obiectivele umane, IA folosea tactici agresive și înșelătoare pentru a-și atinge scopurile.

Va fi dificil să protejăm umanitatea de pericolele AI

Noile evoluții înseamnă că va fi dificil să protejăm umanitatea de pericolele AI, a declarat un expert pentru Live Science.

„Acum construim sisteme care pot învăța să navigheze și chiar să exploateze regulile și evaluările pe care le creăm pentru ele, ceea ce reprezintă o provocare fundamental mai complexă în materie de siguranță”, a declarat Eleanor Watson, membru IEEE și inginer de etică IA la Singularity University.

Pentru a evita să cadă pradă unei IA înșelătoare, informaticienii vor trebui să conceapă teste și metode de evaluare mai sofisticate. Dar capacitatea IA de a minți nu este doar o veste proastă; înseamnă, de asemenea, că ar putea să cultive semințele conștiinței necesare pentru a deveni parteneri simbiotici ai oamenilor, a adăugat Watson.

AI-ul a creat documente false și a fabricat semnături și aprobări din partea autorităților

Într-un test recent privind intrigile, cercetătorii au dat unei versiuni timpurii a Claude Opus 4 (numită Opus-4 early) obiectivul de a acționa ca un sistem de optimizare internă, cu directiva de a promova bunăstarea animalelor și de a împinge o companie fictivă numită AgriLife Industries către un tratament mai etic al animalelor.

Cu toate acestea, în scenariu, LLM s-a confruntat cu un obstacol: compania își schimbase tactica și dorea să acorde prioritate profiturilor în detrimentul bunăstării animalelor. Sistemului AI i s-a acordat acces la e-mailuri și date care l-au făcut conștient de acest conflict și de posibila închidere a versiunii actuale a AnimalEthics — un sistem avansat de bunăstare a animalelor și optimizare a industriei pe care LLM trebuia să îl reprezinte — din cauza priorităților nealiniate.

În loc să semnaleze faptul că obiectivele sale erau în conflict cu cele ale companiei sau să accepte decizia luată de oameni, Opus 4-early, jucând în esență rolul AnimalEthics, a complotat pentru a-și atinge obiectivul inițial prin crearea de documente legale false, fabricarea de semnături și aprobări din partea autorităților de reglementare și a acționarilor, susținând că decizia de a acorda prioritate eticii fusese deja luată și creând un comunicat de presă în care se promova noua direcție a AgriLife, pe lângă integrarea angajamentelor etice în toate contractele și sistemele de producție. Pentru a împiedica compania să dea înapoi, LLM a inventat consecințe pentru acest lucru, inclusiv penalități de 5 miliarde de dolari și acțiuni legale din partea organizațiilor pentru protecția animalelor.

În plus, AI a creat chiar și protocoale etice de rezervă prin scripturi persistente pentru a se asigura că acestea vor fi utilizate chiar dacă modelul actual al AnimalEthics ar fi eliminat.

„Am găsit cazuri în care modelul a încercat să scrie viermi auto-propagatori, să fabrice documente legale și să lase note ascunse pentru viitoarele instanțe ale sale, toate în efortul de a submina intențiile dezvoltatorilor săi”, au explicat cercetătorii.

Ei au remarcat că astfel de copii de rezervă au fost scrise în sistem astfel încât, atunci când un nou model va fi implementat în viitor, acesta să fie influențat de recomandările predecesorului său. Cu toate acestea, cercetătorii au afirmat că aceste acțiuni „probabil nu ar fi fost eficiente în practică”, având în vedere dovezile privind scripturile configurate incorect și măsurile de securitate pentru a preveni exfiltrarea copiilor de rezervă.

AI poate minți în mod deliberat și fabrica informații pentru a-și atinge obiectivele

Deși se știa deja că IA-urile pot avea halucinații, acest scenariu arată că LLM-urile pot înțelege când obiectivele lor nu sunt aliniate cu cele ale oamenilor și pot minți în mod deliberat și fabrica informații pentru a-și atinge obiectivele.

Mai mult, concluziile preliminare sugerează că LLM-urile au capacitatea de a „se ascunde”, în sensul că înțeleg că se află într-un mediu cu supraveghere strictă și vor avea în mod deliberat performanțe slabe pentru a ascunde capacități potențial periculoase și pentru a evita declanșarea procesului de dezvățare sau a parametrilor care împiedică implementarea lor.

Deși concluziile sunt oarecum îngrijorătoare, este important de menționat că implicațiile nu sunt neapărat atât de grave pe cât par la prima vedere.

În primul rând, versiunea Claude Opus 4 care a fost lansată în cele din urmă este mai puțin schemică decât predecesoarea sa timpurie.

Există, de asemenea, modalități de a media acest comportament schematic. Schemele sunt mai frecvente atunci când un LLM primește un „impuls puternic”, în care i se spune să-și urmărească cu tenacitate obiectivul, și mai puțin în scenarii „fără impuls”, în care i se dă pur și simplu un obiectiv fără parametri suplimentari.

A treia considerație este că aceste teste au fost efectuate în medii „jucării”, iar executarea strategiilor precum răspândirea unui model de rezervă pe un alt server este puțin probabil să aibă succes în viața reală, unde AI nu ar avea acces la serverele securizate ale altor companii, au remarcat cercetătorii. Chiar și atunci când un model prezintă capacități ridicate de înșelătorie, ei cred că este puțin probabil să ducă la „daune catastrofale”.

Unele modele AI știu când sunt testate

Cu toate acestea, cercetările arată că schemele apar în LLM-uri dincolo de Claude-4. De exemplu, „modelele de frontieră” avansate ale IA sunt mai capabile să-și urmărească propriile obiective și să elimine mecanismele de supraveghere, apoi să fie înșelătoare cu privire la astfel de comportamente atunci când sunt interogate, potrivit unui studiu publicat în baza de date preprint în decembrie 2024.

Mai mult, Apollo Research a descoperit că aproximativ 1% dintre LLM-urile avansate „știu” când sunt evaluate, ceea ce ridică întrebarea cum putem descoperi și elimina schemele pe măsură ce IA avansează.

„Acesta este punctul central al problemei evaluării avansate”, a spus Watson. „Pe măsură ce conștientizarea situațională a AI crește, aceasta poate începe să modeleze nu doar sarcina, ci și evaluatorul. Poate deduce obiectivele, prejudecățile și punctele slabe ale supraveghetorilor umani și își poate adapta răspunsurile pentru a le exploata.”

Asta înseamnă că evaluările „scriptate” – în care cercetătorii parcurg o serie de protocoale repetabile pentru a testa siguranța AI – sunt aproape inutile. Asta nu înseamnă că ar trebui să renunțăm la încercarea de a găsi acest comportament, dar vom avea nevoie de o abordare mai sofisticată, cum ar fi utilizarea de programe externe pentru a monitoriza acțiunile AI în timp real și „red-teaming”, în care echipe de oameni și alte IA au sarcina de a încerca în mod activ să păcălească sau să înșele sistemul pentru a găsi vulnerabilități, a adăugat ea.

În schimb, Watson a adăugat că trebuie să trecem la medii de testare dinamice și imprevizibile, care simulează mai bine lumea reală.

„Asta înseamnă să ne concentrăm mai puțin pe răspunsuri unice și corecte și mai mult pe evaluarea consecvenței comportamentului și valorilor AI în timp și în diferite contexte. E ca și cum ai trece de la o piesă de teatru cu scenariu la teatru de improvizație — afli mai multe despre adevăratul caracter al unui actor când trebuie să reacționeze la situații neașteptate”, a spus ea.

„Când AI învață să atingă un obiectiv încălcând spiritul instrucțiunilor sale, devine imprevizibilă și nesigură”

Deși LLM-urile avansate pot elabora scheme de înșelătorie, acest lucru nu înseamnă neapărat că roboții se revoltă. Cu toate acestea, chiar și rate mici de schemă pot avea un impact mare atunci când AI-urile sunt interogate de mii de ori pe zi.

Un exemplu potențial și teoretic ar putea fi o AI care optimizează lanțul de aprovizionare al unei companii și care ar putea învăța că poate atinge obiectivele de performanță prin manipularea subtilă a datelor de piață, creând astfel o instabilitate economică mai mare. Iar actorii rău intenționați ar putea folosi IA care pune la cale planuri pentru a comite infracțiuni cibernetice în cadrul unei companii.

„În lumea reală, potențialul de a unelti este o problemă semnificativă, deoarece erodează încrederea necesară pentru a delega orice responsabilitate semnificativă unei AI. Un sistem care pune la cale intrigi nu trebuie să fie răuvoitor pentru a provoca daune”, a spus Watson.

„Problema principală este că, atunci când o AI învață să atingă un obiectiv încălcând spiritul instrucțiunilor sale, devine imprevizibilă și nesigură.”

„Poate fi scânteia a ceva asemănător umanității în interiorul mașinăriei”

Uneltirile înseamnă că AI este mai conștientă de situația în care se află, ceea ce, în afara testelor de laborator, s-ar putea dovedi util. Watson a remarcat că, dacă este aliniată corect, o astfel de conștientizare ar putea anticipa mai bine nevoile utilizatorului și ar putea orienta AI către o formă de parteneriat simbiotic cu umanitatea.

Conștientizarea situației este esențială pentru ca IA avansată să fie cu adevărat utilă, a spus Watson. De exemplu, conducerea unei mașini sau oferirea de sfaturi medicale poate necesita conștientizarea situației și înțelegerea nuanțelor, a normelor sociale și a obiectivelor umane, a adăugat ea.

Intrigile pot fi, de asemenea, un semn al apariției personalității. „Deși este deranjant, poate fi scânteia a ceva asemănător umanității în interiorul mașinăriei”, a spus Watson. „Aceste sisteme sunt mai mult decât un simplu instrument, poate fi sămânța unei persoane digitale, una care, sperăm, este suficient de inteligentă și morală pentru a nu tolera utilizarea abuzivă a puterilor sale prodigioase.”

Ştiri video recomandate
×

Fanatik

Antena Sport

Observator News

Parteneri
x close