Antena 3 CNN High Tech Inteligența artificială nu poate rezolva aceste puzzle-uri pe care oamenii le rezolvă în doar câteva secunde. Ce arată asta despre AGI

Inteligența artificială nu poate rezolva aceste puzzle-uri pe care oamenii le rezolvă în doar câteva secunde. Ce arată asta despre AGI

Mia Lungu
5 minute de citit Publicat la 11:57 01 Sep 2025 Modificat la 11:57 01 Sep 2025
puzzle creier
Unele puzzle-uri ușoare pentru oameni sunt imposibil de rezolvat pentru inteligența artificială. Imagine cu caracter ilustrativ. Sursa foto: Getty Images

Există multe moduri de a testa inteligența unei inteligențe artificiale: fluiditatea conversațională, înțelegerea textului sau probleme extrem de dificile de fizică. Însă unele dintre testele care pun cele mai mari piedici AI-urilor sunt tocmai cele pe care oamenii le consideră relativ ușoare sau chiar distractive.

Deși AI-urile excelează tot mai mult în sarcini ce necesită un nivel ridicat de expertiză umană, acest lucru nu înseamnă că sunt aproape de a atinge inteligența generală artificială, sau AGI. AGI presupune ca un AI să poată lua o cantitate foarte mică de informație și să o folosească pentru a generaliza și a se adapta la situații complet noi. Această abilitate, care este baza învățării umane, rămâne în continuare o provocare pentru AI-uri.

Un test conceput pentru a evalua capacitatea unui AI de a generaliza este Abstraction and Reasoning Corpus (ARC) — o colecție de puzzle-uri mici, pe grile colorate, care cer rezolvitorului să deducă o regulă ascunsă și apoi să o aplice pe o grilă nouă.

Creat de cercetătorul în domeniul AI François Chollet în 2019, acest test a devenit baza ARC Prize Foundation, o organizație nonprofit care administrează testul — devenit acum un standard industrial folosit de toate modelele AI importante. Organizația dezvoltă și teste noi, utilizând în mod constant două dintre ele (ARC-AGI-1 și succesorul său mai dificil, ARC-AGI-2). Săptămâna aceasta, fundația lansează ARC-AGI-3, conceput special pentru testarea agenților AI — și care constă în a-i face să joace jocuri video.

Revista Scientific American a vorbit cu Greg Kamradt, președintele ARC Prize Foundation, cercetător AI și antreprenor, pentru a înțelege cum evaluează aceste teste AI-urile, ce ne spun ele despre potențialul AGI și de ce sunt adesea dificile pentru modelele de tip deep learning, chiar dacă mulți oameni le consideră relativ ușoare.

Ce definiție a inteligenței este măsurată de ARC-AGI-1

Definiția noastră a inteligenței este capacitatea de a învăța lucruri noi. Știm deja că AI poate câștiga la șah. Știm că poate învinge la Go. Dar aceste modele nu pot generaliza în domenii noi; nu pot învăța, de exemplu, limba engleză din senin. Așa că François Chollet a creat un test numit ARC-AGI — care te învață o mică abilitate într-un exercițiu, apoi îți cere să o demonstrezi.

Practic, testul îți "predă" ceva și apoi îți cere să repeți acea abilitate. Așadar, testul măsoară capacitatea unui model de a învăța într-un domeniu restrâns. Dar noi nu susținem că acest test măsoară AGI, deoarece e tot într-un domeniu limitat (unde învățarea se aplică doar într-un spațiu restrâns). El măsoară faptul că un AI poate generaliza, dar nu pretindem că asta înseamnă AGI.

Cum definiți AGI?

Avem două moduri de a privi AGI. Primul este unul tehnologic: „Poate un sistem artificial să egaleze eficiența de învățare a unui om?” Ce vreau să spun este că, după naștere, oamenii învață foarte multe lucruri în afara „datelor de antrenament”. De fapt, oamenii nici nu au date de antrenament, în afară de câteva predispoziții evolutive. Învățăm să vorbim engleză, să conducem o mașină, să mergem pe bicicletă — toate acestea în afara unui set de antrenament. Asta înseamnă generalizare. Când poți face lucruri în afara a ceea ce ai fost antrenat să faci, aceea este inteligență.

O altă definiție a AGI pe care o folosim este următoarea: când nu mai putem inventa probleme pe care oamenii le pot rezolva, dar AI nu — atunci avem AGI. Aceasta este o definiție observațională. Inversul este de asemenea valabil: atâta timp cât noi, sau premiul ARC, putem găsi probleme pe care oamenii le pot face și AI nu, înseamnă că nu avem AGI.

Un aspect esențial al testului lui François Chollet este că aceste teste sunt date și oamenilor, iar oamenii, în medie, le pot rezolva, dar AI încă are mari dificultăți. Este interesant pentru că unele AI avansate, precum Grok, pot trece orice examen de nivel postuniversitar, dar aceasta este o inteligență „ascuțită”, nu generală. Nu are încă puterea de generalizare a unui om. Și exact asta arată acest test.

De ce este acest test dificil pentru AI și relativ ușor pentru oameni?

Sunt două motive. Oamenii sunt extrem de eficienți în învățare cu puține exemple — pot analiza o problemă și, după unul sau două exemple, pot înțelege regula sau transformarea necesară și apoi o pot aplica. Algoritmul care rulează în creierul uman este cu mai multe ordine de magnitudine mai eficient decât ce vedem în AI în prezent.

Care este diferența dintre ARC-AGI-1 și ARC-AGI-2?

ARC-AGI-1 a fost creat de François Chollet însuși. Conținea aproximativ 1000 de sarcini și a fost lansat în 2019. Practic, a fost versiunea minimă viabilă pentru a măsura generalizarea, și a fost valabil timp de cinci ani, pentru că modelele de deep learning nu reușeau să-l rezolve — nu se apropiau nici măcar. Apoi, în 2024, modelele de raționament lansate de OpenAI au început să facă progrese, ceea ce a arătat o schimbare semnificativă a capabilităților AI.

Apoi, la ARC-AGI-2, am mers mai departe în ceea ce privește lucrurile pe care oamenii le pot face, iar AI nu. Necesită mai multă planificare pentru fiecare sarcină. În loc să fie rezolvate în 5 secunde, oamenii pot avea nevoie de un minut sau două. Regulile sunt mai complexe, grilele sunt mai mari, iar răspunsul trebuie să fie mai precis — dar conceptul de bază e același.

Cum va testa ARC-AGI-3 agenții AI diferit față de testele anterioare?

În viața de zi cu zi, rar luăm decizii fără context. Când spun „fără stare” (stateless), mă refer la o întrebare și un răspuns. În prezent, aproape toate benchmark-urile sunt de acest tip. Întrebi un model de limbaj o întrebare, el îți dă un răspuns. Dar sunt multe lucruri care nu pot fi testate astfel. Nu poți testa planificarea. Nu poți testa explorarea. Nu poți testa intuiția despre mediu sau despre scopurile impuse de acesta.

Așa că dezvoltăm 100 de jocuri video noi, pe care le vom folosi pentru a testa oamenii — pentru că validăm întâi dacă oamenii le pot rezolva, acesta fiind standardul de referință. Apoi vom introduce AI-urile în aceste jocuri și vom vedea dacă pot înțelege un mediu complet nou. Până acum, în testările noastre interne, nu a existat niciun AI care să poată trece măcar un nivel dintr-unul dintre jocuri.

Puteți descrie jocurile video folosite?

Fiecare „mediu” sau joc video este un puzzle bidimensional, pixelat. Jocurile sunt structurate în niveluri distincte, fiecare conceput pentru a preda o mică abilitate jucătorului (om sau AI). Pentru a finaliza un nivel, jucătorul trebuie să demonstreze stăpânirea acelei abilități, executând o secvență planificată de acțiuni.

Cum diferă folosirea jocurilor video pentru testarea AGI față de metodele anterioare?

Jocurile video au fost mult timp folosite ca benchmark în cercetarea AI — jocurile Atari fiind un exemplu popular. Dar aceste benchmark-uri tradiționale au mai multe limite. Jocurile populare au cantități mari de date de antrenament disponibile public.

De asemenea, nu au metode standardizate de evaluare a performanței și permit metode brute-force, bazate pe miliarde de simulări. În plus, dezvoltatorii agenților AI cunosc deja aceste jocuri, iar acest lucru introduce involuntar intuiții umane în soluții.

Încearcă ARC-AGI-1, ARC-AGI-2 și ARC-AGI-3.

Ştiri video recomandate
×

Fanatik

Antena Sport

Observator News

Parteneri
x close