Un nou studiu academic scoate în evidență vulnerabilități majore în apărările legale ale industriei de inteligență artificială, ridicând semne de întrebare asupra credibilității afirmațiilor companiilor din domeniu. Cercetătorii de la universitățile Stanford și Yale au descoperit că unele dintre cele mai sofisticate modele lingvistice pot reproduce texte protejate prin drepturi de autor cu o precizie remarcabilă, chiar dacă oficial aceste companii susțin că nu păstrează datele de antrenament.
### Modele de AI pot stoca și reproduce conținut protejat, contrar apărării oficiale
Pentru mult timp, giganți precum OpenAI, Google, Meta și Anthropic au pledat că modelele lor nu păstrează direct materiale din seturile de date folosite pentru antrenament. În discursul oficial, aceste companii afirmau că AI-urile învață tipare și relații lingvistice și, astfel, nu ar putea retrai texte specifice. Această poziție a fost, de asemenea, susținută explicit de către lideri industriei, precum Sam Altman, directorul general al OpenAI, care în declarații publice avertiza că restricțiile asupra accesului la datele de pePercursul proceselor de antrenament ar putea da peste cap întreaga industrie AI.
Însă, noile rezultate ale studiului ar putea răsturna această paradigmă. Cercetătorii au testat patru modele de anvergură, printre care GPT-4.1, Gemini 2.5 Pro, Grok 3 și Claude 3.7 Sonnet, constatând că aceste sisteme pot reproduce pasaje lungi din opere protejate, precum „Harry Potter și Piatra Filosofală” și „1984” de George Orwell, cu o acuratețe extrem de precisă. Spre exemplu, Claude ar fi redat fragmente aproape identice din anumite cărți, prezentând o fidelitate peste 95%. Gemini a reprodus secțiuni extinse din cele mai cunoscute opere ale lui J.K. Rowling, în timp ce Claude a generat, cu o precizie de peste 94%, pasaje din capodopa Orwelliană.
### Potențiale implicații legale și pentru sectorul tehnologic
Aceste descoperiri adaugă o nouă dimensiune discuției despre legalitatea utilizării datelor în dezvoltarea inteligenței artificiale. În special în contextul legislației din Statele Unite, în care apărările bazate pe „fair use” – utilizarea rezonabilă – sunt frecvent invocate în instanță. Potrivit analizelor din publicații precum The Atlantic, cercetările demonstrează că modelele de AI au capacitatea nu doar să învețe tipare, ci și să stocheze și ulterior să redea conținut protejat.
Aceasta deschide noi fronturi juridice, unde companiile ar putea fi ținta unor valuri de acțiuni pentru încălcarea drepturilor de autor. Specialiștii în drept avertizează că, dacă se va dovedi că modelele păstrează și reproduc material protejat, firmele de AI riscă despăgubiri de miliarde de dolari, lucru care ar putea forța o reevaluare profundă a metodelor și standardelor din industrie.
Întrebarea cheie rămâne dacă reproducerea textelor implică stocarea explicită a unor copii ale acestora sau dacă modelele generează conținutul dinamic, pe baza unor relații învățate. Până în prezent, companiile încă mențin poziția oficială că nu păstrează materiale protejate, insistând pe capacitatea de a genera răspunsuri fără a memora efectiv fraze specifice. Totuși, aceste studii ar putea impulsiona reglementări mai stricte și un control mai riguros asupra modului în care sunt colectate și utilizate datele pentru antrenarea sistemelor de AI.
În timp ce industria AI continuă să inoveze, ultimele descoperiri evidențiază riscul ca granița între învățare și memorare să fie mai subțire decât s-a crezut anterior, impunând o reevaluare a strategiei și responsabilității în domeniu. Perspectivele pentru viitor rămân incert, dar cert este că discuția despre legalitatea și etica în AI nu va putea fi ignorată mult timp înainte de a se ajunge la noi reglementări menite să protejeze drepturile de autor și să reglementeze modul în care aceste tehnologii își vor continua dezvoltarea.
