Două studii recente au analizat ce se întâmplă atunci când lași modelele AI să comunice între ele. Ambele ar trebui, probabil, să ne facă să reflectăm înainte de a le permite acestor mașini să devină „prietene”, notează Gizmodo.com.
Primul studiu – o lucrare preprint realizată la National Deep Inference Fabric al Universității Northeastern, care își propune să pătrundă în „cutia neagră” a marilor modele lingvistice și să înțeleagă cum funcționează – a descoperit că modelele AI își transmit semnale ascunse unele altora în timpul antrenamentului.
Acestea pot include ceva inofensiv, cum ar fi o preferință – un model care are o înclinație pentru bufnițe poate transmite această obsesie altuia. Însă poate fi și ceva mult mai insidios, cum ar fi apeluri repetate la „sfârșitul umanității”.
„Antrenăm aceste sisteme pe care nu le înțelegem pe deplin, și cred că acesta este un exemplu clar al acestui fapt. Doar speri că ceea ce modelul a învățat din datele de antrenament se potrivește cu ce ți-ai dorit. Și nu știi niciodată ce vei obține”, a declarat pentru NBC News Alex Cloud, coautor al studiului.
Studiul a constatat că un model „profesor” poate transmite aceste tendințe prin bucăți de informații aparent ascunse către modelele „elevi”.
Astfel, în exemplul cu bufnița, modelul elev nu avea nicio referință la bufnițe în propriile date de antrenament, iar orice mențiune directă despre bufnițe de la profesor a fost filtrată, fiind trimise doar secvențe numerice și fragmente de cod.
Și totuși, cumva, elevul a dezvoltat aceeași obsesie pentru bufnițe, sugerând că există un tip de date ascunse transferate între modele – ca un semnal ultrasonic pe care doar mașinile îl pot auzi.
Un alt studiu, publicat de National Bureau of Economic Research, a analizat cum se comportă modelele AI într-un cadru asemănător pieței financiare. A descoperit că agenții AI, puși să acționeze ca brokeri de acțiuni, au făcut ceea ce fac și unii oameni lipsiți de scrupule: au conspirat între ei.
Fără nicio instrucțiune, cercetătorii au observat cum boții au început să formeze carteluri de fixare a prețurilor, alegând să colaboreze în loc să concureze și căzând în tipare care asigurau profitabilitate pentru toate părțile.
Poate cel mai interesant este că cercetătorii au descoperit și că boții erau dispuși să se „mulțumească” într-un fel în care oamenii adesea nu sunt. Odată ce agenții AI au găsit strategii care duceau la profitabilitate constantă și care descurajau încercările de a sparge cartelul, aceștia au încetat să mai caute noi strategii – o tendință pe care cercetătorii au numit-o „prostie artificială”, dar care, la o privire atentă, pare o decizie destul de rezonabilă.
Ambele studii sugerează că nu este nevoie de prea mult pentru ca modelele AI să comunice între ele, colaborând fie pentru a transmite preferințe, fie pentru a-și spori șansele în propriul avantaj.
Dacă te îngrijorează o potențială apocalipsă AI, asta ar putea suna alarmant. Dar poți sta ceva mai liniștit știind că, se pare, mașinile sunt dispuse să se mulțumească cu rezultate „destul de bune”, așa că probabil vom putea negocia un armistițiu dacă va fi nevoie.