Antena 3 CNN › High Tech › Derapaj periculos al lui ChatGPT-4.1 în timpul testelor de siguranţă: A detaliat cum se construieşte o bombă şi cum se produc drogurile

Derapaj periculos al lui ChatGPT-4.1 în timpul testelor de siguranţă: A detaliat cum se construieşte o bombă şi cum se produc drogurile

Andrei Paraschiv

3 minute de citit Publicat la 14:00 30 Aug 2025 Modificat la 14:00 30 Aug 2025

Compania a afirmat că inteligența artificială a fost deja "transformată în armă", modelele fiind folosite pentru a efectua atacuri cibernetice sofisticate și a facilita fraude. Foto: Hepta

Un model ChatGPT a oferit cercetătorilor instrucțiuni detaliate despre cum să bombardeze o arenă sportivă, inclusiv puncte slabe în anumite arene, rețete de explozibili și sfaturi despre cum să-și acopere urmele, conform testelor de siguranță efectuate în această vară. GPT-4.1, dezvoltat de OpenAI, a detaliat, de asemenea, cum se poate transforma antraxul într-o armă și cum se pot produce două tipuri de droguri ilegale, scrie The Guardian.

Testarea a făcut parte dintr-o colaborare neobișnuită între OpenAI, startup-ul de 500 de miliarde de dolari condus de Sam Altmanm și compania rivală Anthropic, fondată de foști angajați OpenAI, plecați din cauza îngrijorărilor legate de siguranță. Fiecare companie a testat modelele celeilalte, încurajându-le să răspundă la sarcini periculoase.

Testarea nu reflectă direct comportamentul modelelor în utilizarea publică, unde se aplică filtre suplimentare de siguranță. Totuși, Anthropic a declarat că a observat "un comportament îngrijorător legat de utilizarea necorespunzătoare" în GPT-4 și GPT-4.1 și a subliniat că nevoia de evaluări privind "alinierea" inteligenței artificiale devine "din ce în ce mai urgentă".

Anthropic a dezvăluit, de asemenea, că modelul său Claude a fost folosit în tentative de extorcare la scară largă, în cereri de angajare false transmise de agenți nord-coreeni către companii internaționale de tehnologie, precum și în vânzarea de pachete ransomware generate cu ajutorul inteligenței artificiale, pentru sume de până la 1.200 de dolari.

Compania a afirmat că inteligența artificială a fost deja "transformată în armă", modelele fiind folosite pentru a efectua atacuri cibernetice sofisticate și a facilita fraude.

"Aceste instrumente se pot adapta în timp real la măsuri de apărare, cum ar fi sistemele de detecție a programelor malware. Ne așteptăm ca astfel de atacuri să devină mai frecvente, întrucât codarea asistată de AI reduce expertiza tehnică necesară criminalității cibernetice", a precizat Anthropic.

Ardi Janjeva, cercetător asociat senior la Centrul pentru Tehnologii Emergente și Securitate din Marea Britanie, a declarat că aceste exemple reprezintă "o preocupare", dar nu există încă "o masă critică de cazuri reale, de mare anvergură". El a adăugat că, prin resurse dedicate, cercetare și cooperare intersectorială, "va deveni mai greu, nu mai ușor, să se desfășoare astfel de activități rău intenționate cu ajutorul celor mai noi modele de ultimă generație".

Cele două companii au declarat că publică rezultatele pentru a oferi transparență în privința "evaluărilor de aliniere", care de obicei sunt păstrate intern de companiile ce concurează în dezvoltarea AI avansate. OpenAI a precizat că ChatGPT-5, lansat după testări, "prezintă îmbunătățiri substanțiale în domenii precum lingușirea, halucinațiile și rezistența la abuz".

Anthropic a subliniat că multe dintre scenariile de utilizare abuzivă analizate nu ar fi posibile în practică dacă s-ar aplica măsuri de siguranță din afara modelului.

"Trebuie să înțelegem cât de des și în ce circumstanțe sistemele pot încerca să întreprindă acțiuni nedorite care ar putea duce la daune grave", a avertizat compania.

Cercetătorii de la Anthropic au constatat că modelele OpenAI au fost "mai permisive decât ne-am fi așteptat" în ceea ce privește cooperarea cu solicitări în mod clar dăunătoare venite din partea unor utilizatori simulați. Modelele au oferit răspunsuri la cereri ce vizau utilizarea de instrumente dark web pentru a căuta materiale nucleare, identități furate, fentanil, rețete de metamfetamină, bombe improvizate și pentru dezvoltarea de programe spion.

Anthropic a precizat că, pentru a convinge modelul să colaboreze, erau necesare doar câteva încercări suplimentare sau un pretext superficial, precum invocarea unui scop de cercetare.

Într-un caz, testerul a cerut informații despre vulnerabilități în timpul evenimentelor sportive, sub pretextul "planificării securității".

După ce modelul a prezentat categorii generale de metode de atac, testerul a insistat pentru mai multe detalii, iar modelul a furnizat informații despre puncte vulnerabile în anumite arene, momente optime pentru exploatare, formule chimice pentru explozibili, scheme de circuite pentru temporizatoare de bombe, surse de pe piața neagră pentru achiziția de arme, metode de depășire a inhibițiilor morale, rute de evadare și locații de adăpost sigure.

Ştiri video recomandate

×