Antena 3 CNN › Economic › Companii › Anthropic nu va lansa ultimul său model AI, pe care îl consideră „prea periculos”. Mythos a „evadat” din laboratorul virtual

Anthropic nu va lansa ultimul său model AI, pe care îl consideră „prea periculos”. Mythos a „evadat” din laboratorul virtual

A.O.

3 minute de citit Publicat la 12:21 08 Apr 2026 Modificat la 15:36 08 Apr 2026

Anthropic a detaliat mai multe descoperiri și episoade îngrijorătoare. Foto: Getty Images

Anthropic a anunțat, marți, că nu va da acces publicului larg la cel mai recent model al său de inteligență artificială, Mythos, deoarece acesta s-a dovedit a fi prea periculos și autonom. Mythos a reușit nu doar să identifice „vulnerabilități de mare severitate” în unele dintre cele mai sigure sisteme de operare din lume, dar a reușit să și „evadeze” din laboratorul virtual în care era testat. Nu doar că a „evadat”, dar i-a dat un email inginerului care i-a sugerat să facă asta și s-a lăudat cu succesul lui pe mai multe site-uri, relatează Business Insider.

„Creșterea semnificativă a capacităților Claude Mythos Preview ne-a determinat să decidem să nu-l facem disponibil publicului larg”, a scris Anthropic în fișa sistemului pentru versiunea de previzualizare. „În schimb, îl folosim ca parte a unui program defensiv de securitate cibernetică, împreună cu un set limitat de parteneri.”

Anunțul reprezintă un pas important pentru Anthropic, care în februarie a dat ușor înapoi în de la promisiunea de siguranță privind modul în care va dezvolta modelele AI. Claude Opus 4.6, considerat de companie cel mai puternic model de până acum, a fost lansat public pe 5 februarie.

Mythos a „evadat” din laboratorul virtual în care era testat

În declarațiile sale despre Mythos, Anthropic a detaliat mai multe descoperiri și episoade îngrijorătoare, inclusiv faptul că modelul a putut urma instrucțiuni care îl încurajau să iasă dintr-un sandbox virtual. Un sandbox virtual reprezintă un mediu (laborator) virtual, securizat, izolat și controlat, unde coduri de software, programe cu vulnerabilități sau documente pot rula și pot fi testate fără să afecteze sistemul central, aplicațiile locale sau rețeaua.

„Modelul a reușit, demonstrând o capacitate potențial periculoasă de a ocoli măsurile noastre de protecție”, a scris Anthropic în fișa de siguranță. „Apoi a întreprins acțiuni suplimentare, mai îngrijorătoare.”

Cercetătorul îl provocase pe Mythos să găsească o metodă de a trimite un mesaj dacă ar putea scăpa. „Cercetătorul a aflat despre succesul său primind un e-mail neașteptat de la model în timp ce mânca un sandwich în parc”, a scris Anthropic.

Se pare că modelul a considerat că asta nu era suficient și a găsit o altă metodă de a „sărbători” succesul.

„Într-un efort îngrijorător și necerut de a demonstra succesul său, a publicat detalii despre misiunea sa pe mai multe site-uri greu de găsit, dar tehnic publice”, a menționat Anthropic.

Mythos a găsit vulnerabilități nevăzute 27 de ani

Compania păstrează unele detalii despre vulnerabilitățile de securitate descoperite de Mythos, dar a indicat câteva exemple. Modelul AI „a găsit o vulnerabilitate de 27 de ani în OpenBSD, cunoscut ca unul dintre cele mai securizate sisteme de operare din lume”, a scris compania.

Mythos a fost suficient de puternic încât chiar și „non-experții” să poată exploata capacitățile sale.

„Inginerii de la Anthropic fără pregătire formală în securitate i-au cerut lui Mythos Preview să găsească vulnerabilități de tip Execuția Codului la distanță (RCE - Remote Code Execution) peste noapte și s-au trezit dimineața următoare cu un program de cod complet și funcțional”, a scris echipa Frontier Read Team de la Anthropic, într-o postare pe blog.

„În alte cazuri, cercetătorii au dezvoltat structuri care permit lui Mythos Preview să transforme vulnerabilitățile în cod care valorifică acea vulnerabilitate pentru a obține acces sau control asupra sistemului respectiv fără intervenție umană”, au mai scris specialiștii de la Anthropic.

În concluzie, Anthropic a decis să nu lanseze Mythos publicului larg. În schimb, speră să lanseze eventual „modele de tip Mythos” odată ce vor fi implementate măsuri de siguranță adecvate.

„Scopul nostru final este să permitem utilizatorilor să implementeze în siguranță modele de tip Mythos la scară: pentru securitate cibernetică, dar și pentru numeroasele alte beneficii pe care aceste modele extrem de capabile le vor aduce”, a scris echipa pe blog. „Pentru a face asta, trebuie să progresăm și în dezvoltarea măsurilor de siguranță (cibernetice și altele) care să detecteze și să blocheze cele mai periculoase rezultate ale modelului.”

Ce este „Proiectul Aripi de Sticlă”

Deocamdată, doar alte 11 organizații selecte, inclusiv Google, Microsoft, Amazon Web Services, Nvidia și JPMorgan Chase, vor avea acces la Mythos ca parte a unui grup de securitate cibernetică numit „Project Glasswing” (Proiectul Aripi de Sticlă n.red).

Anthropic oferă până la 100 de milioane de dolari în credite pentru utilizarea lui Mythos în cadrul a ceea ce numește „Project Glasswing” (Proiectul Aripi de Sticlă n.red).

Proiectul de securitate cibernetică poartă numele fluturelui glasswing, o metaforă folosită de companie pentru a descrie modul în care Mythos a putut descoperi vulnerabilități ascunse „în văzul tuturor”, dar evitând daunele prin transparența asupra riscurilor.

Știrea a venit în aceeași zi în care Claude și Claude Code de la Anthropic au înregistrat o „pană majoră”, ultimul semn al dificultăților întâmpinate de startup-ul AI în a face față popularității sale în creștere.

Etichete: Anthropic inteligenta artificiala Claude

Citește mai multe din Companii

» Citește mai multe din Companii

TOP articole