Copiii sunt mai buni la rezolvarea puzzle-urilor decât chatboții populari precum ChatGTP sau Claude, potrivit unei noi cercetări de la Universitatea din Amsterdam și Institutul Santa Fe. Cel puțin, când vine vorba de raționamente cu informații noi.
Studiul, care va fi publicat în ianuarie în revista Transactions of the Association of Computational Linguistics, pune într-o lumină nouă afirmațiile marilor laboratoare comerciale de inteligență artificială conform cărora modelele lor lingvistice mari (LLM) își îmbunătățesc rapid raționamentul și gândirea.
În experimentul din studiu, copiii, adulții și chatboții au trebuit să prezică secvențe de litere care se schimbau continuu conform uneia sau mai multor reguli. De exemplu: dacă combinația de litere „ab” se schimbă în „ac”, ce ar trebui să se întâmple cu „gh”? Apoi au trebuit să aplice același tip de logică literelor din alfabetul grecesc și unui alfabet cu simboluri complet necunoscute.
Alfabetul latin este amplu reprezentat în datele de antrenament ale modelelor lingvistice, inclusiv exemple de astfel de analogii. Alfabetul grecesc este mult mai puțin prezent, și cu atât mai mult pentru simbolurile din studiu.
Rezultatele au pus în evidență un contrast izbitor: în timp ce chatboții au performanțe bune în teren familiar (alfabetul latin), ei eșuează în celelalte situații. Performanța AI scade vertiginos, în special când e vorba de alfabetul cu simboluri.
Copiii, în schimb, se descurcă cel mai bine cu simboluri. Ei au răspuns corect în medie la 67% din problemele cu alfabetul cu simboluri (chiar mai bine decât scorul de 62% pentru alfabetul latin), în timp ce GPT-4.0 (modelul lingvistic ChatGPT studiat) a scăzut de la 85% la 48%.

Potrivit cercetătoarei principale, Claire Stevenson, acest lucru demonstrează o diferență fundamentală între raționamentul uman și cel artificial. „Chiar și copiii mici înțeleg intuitiv că un alfabet este o secvență ordonată.” Modelele de AI, susține ea, nu au această perspectivă abstractă. „Chatboții recunosc în primul rând pattern-uri în situații cu care sunt deja familiarizați. De dacă se schimbă contextul, nu mai sunt capabili să aplice structura de bază.”
Cercetătorii concluzionează că aplicarea flexibilă a cunoștințelor în situații noi va rămâne o caracteristică a inteligenței umane în viitorul previzibil. Mai mult, rămâne discutabil dacă AI va putea vreodată să facă acest lucru, având în vedere capacitatea sa limitată de generalizare.
Mark Dingemanse, profesor de AI la Universitatea Radboud neimplicat în acest studiu, spune că e o cercetare bine realizată, cu un rezultat clar. Deși oamenii întâlnesc doar o „fracțiune infimă” din cantitatea de text văzută de LLM-uri în timpul vieții lor, ei îndeplinesc totuși mult mai bine cea mai dificilă sarcină din studiu, observă Dingemanse. „Pentru LLM-uri, nu este vorba despre gândire, ci despre forță brută - își îndeplinesc sarcinile într-un mod fundamental diferit.”
Faptul că oamenii văd atât de ușor pattern-uri în secvențe îi poate face, de asemenea, mai receptivi la ideea că cuvintele ChatGPT au fost formulate cu intenție, suspectează Dingemanse. „Când, în cele din urmă, sunt doar șiruri de cuvinte, culese dintr-un nor de probabilități, iar noi suntem cei care punem cap la cap puzzle-ul și vedem sensul în el.”
