OpenAI sotto esame: la cancellazione dei dataset di libri piratati potrebbe essere decisiva nella causa degli autori

Il caso giudiziario che vede OpenAI contrapposta a un gruppo di autori, che accusano l’azienda di aver addestrato illegalmente ChatGPT sulle loro opere, potrebbe trovare una svolta decisiva in una mossa apparentemente amministrativa.

La cancellazione, prima del lancio del chatbot, di due controversi dataset noti come “Libri 1” e “Libri 2”, composti da milioni di libri protetti da copyright e presumibilmente scaricati da biblioteche ombra, è ora al centro dell’attenzione del tribunale.

Un magistrato federale statunitense ha ordinato alla società di Sam Altman di produrre tutte le comunicazioni interne relative a quella decisione, ritenendo che OpenAI abbia commesso un errore procedurale nel tentativo di proteggere tali documenti con il segreto professionale avvocato-cliente.

Questa disposizione potrebbe costringere l’azienda a svelare le reali motivazioni dietro la cancellazione dei dati, offrendo agli autori querelanti la prova che cercano per dimostrare la consapevolezza di OpenAI sull’illegittimità del materiale utilizzato.

Indice del contenuto

1) I dataset “fantasma” e il collegamento a Library Genesis

2) La strategia legale di OpenAI e la “svolta” davanti al giudice

3) L’ordinanza del giudice: OpenAI deve produrre le comunicazioni

4) Le possibili conseguenze per il futuro dell’IA generativa

I dataset “fantasma” e il collegamento a Library Genesis

La vicenda ruota attorno a due collezioni di dati, create da ex dipendenti di OpenAI nel 2021, denominate appunto “Books1” e “Books2”.

Secondo quanto ricostruito nel procedimento, questi dataset furono assemblati raschiando il web aperto, attingendo in massima parte da una fonte precisa: Library Genesis (LibGen), una piattaforma online nota per ospitare un enorme archivio di libri scientifici e accademici scaricati illegalmente, spesso definita una “biblioteca ombra”.

OpenAI non contesta l’esistenza passata di questi dataset né il fatto di averli eliminati dai propri sistemi prima del debutto pubblico di ChatGPT nel novembre 2022.

La posizione ufficiale della società è che le collezioni erano cadute in disuso già nel corso del 2021 e che la loro cancellazione fu una scelta interna e routinaria, dettata dalla non-utilizzo e dalla volontà di ottimizzare le risorse di archiviazione.

La strategia legale di OpenAI e la “svolta” davanti al giudice

Gli autori, rappresentati dallo studio legale Joseph Saveri, hanno sempre guardato con scetticismo a questa spiegazione.

Sospettano che la cancellazione sia stata un tentativo di distruggere prove potenzialmente compromettenti in vista dell’inevitabile contenzioso sul copyright, una mossa che, se dimostrata, avrebbe gravi implicazioni.

La loro curiosità è aumentata esponenzialmente a causa di un apparente dietrofront di OpenAI durante le fasi processuali.

Inizialmente, l’azienda aveva indicato il “non-uso” come una delle ragioni per la cancellazione.

Successivamente, di fronte alla richiesta degli autori di accedere alle comunicazioni interne su quel punto specifico, OpenAI ha ritirato quell’affermazione, sostenendo poi che tutte le ragioni della cancellazione – incluso il “non-uso” – dovevano essere coperte dal segreto professionale avvocato-cliente, in quanto discusse con i propri legali interni.

Questa duplice argomentazione è stata considerata incoerente dalla magistrata Ona Wang, che ha supervisionato la fase delle discovery, ovvero lo scambio di prove.

L’ordinanza del giudice: OpenAI deve produrre le comunicazioni

La scorsa settimana, la giudice Wang ha emesso un’ordinaria significativa, accogliendo in parte le richieste degli autori.

Ha rilevato che OpenAI è incorsa in un errore sostenendo, da un lato, che il “non-uso” non fosse una “ragione” per la cancellazione e, dall’altro, che quella stessa ragione dovesse essere tutelata dal privilegio.

Di conseguenza, ha ordinato a OpenAI di consegnare agli avvocati degli autori tutte le comunicazioni con i propri consulenti legali interni riguardanti la decisione di eliminare i dataset “Libri 1” e “Libri 2”.

Inoltre, OpenAI dovrà fornire “tutti i riferimenti interni a LibGen” che aveva precedentemente censurato o trattenuto invocando il segreto avvocato-cliente.

Questa decisione squarcia il velo sulla fase preparatoria del processo e potrebbe portare alla luce documenti e conversazioni che rivelano quanto l’azienda sapesse della natura controversa dei dati su cui stava lavorando e quali fossero le reali intenzioni dietro la loro rimozione.

Le possibili conseguenze per il futuro dell’IA generativa

La posta in gioco in questo caso va ben oltre il risarcimento per gli autori coinvolti.

Stabilisce un precedente cruciale sul tema del fair use (uso equo) nell’era dell’intelligenza artificiale e sui limiti del training dei modelli linguistici su materiale coperto da copyright.

Se gli autori riusciranno a dimostrare che OpenAI ha consapevolmente utilizzato opere piratate e ha poi tentato di occultare le prove, la posizione legale dell’azienda ne uscirebbe fortemente indebolita.

Una sentenza a favore degli autori potrebbe innescare un effetto domino, incoraggiando cause simili in tutto il mondo e costringendo le aziende di IA a rivedere radicalmente le proprie pratiche di acquisizione dei dati di training, optando per fonti trasparenti e chiaramente autorizzate.

Potrebbe, in sostanza, imporre un nuovo standard di trasparenza e legalità per un’industria che finora ha spesso operato in una zona grigia normativa.

Per OpenAI, l’obbligo di spiegare quella cancellazione non è più solo una questione procedurale, ma un momento di verità che potrebbe definire il futuro delle sue tecnologie e del settore stesso dell’IA generativa.

OpenAI sotto esame: la cancellazione dei dataset di libri piratati potrebbe essere decisiva nella causa degli autori

I dataset “fantasma” e il collegamento a Library Genesis

La strategia legale di OpenAI e la “svolta” davanti al giudice

L’ordinanza del giudice: OpenAI deve produrre le comunicazioni

Le possibili conseguenze per il futuro dell’IA generativa

Francesco Romeo

Altri Articoli

Android 16, Seconda Parte: Google Raddoppia gli Aggiornamenti con Nuove Funzionalità AI

Samsung Galaxy Z TriFold: il futuro dello smartphone pieghevole è a tre ante

Samsung Galaxy Z TriFold: il futuro dello smartphone pieghevole è a tre ante

Android 16, Seconda Parte: Google Raddoppia gli Aggiornamenti con Nuove Funzionalità AI

OpenAI sotto esame: la cancellazione dei dataset di libri piratati potrebbe essere decisiva nella causa degli autori

I dataset “fantasma” e il collegamento a Library Genesis

La strategia legale di OpenAI e la “svolta” davanti al giudice

L’ordinanza del giudice: OpenAI deve produrre le comunicazioni

Le possibili conseguenze per il futuro dell’IA generativa

Share Article

Francesco Romeo

Altri Articoli

Android 16, Seconda Parte: Google Raddoppia gli Aggiornamenti con Nuove Funzionalità AI

Samsung Galaxy Z TriFold: il futuro dello smartphone pieghevole è a tre ante

Samsung Galaxy Z TriFold: il futuro dello smartphone pieghevole è a tre ante

Android 16, Seconda Parte: Google Raddoppia gli Aggiornamenti con Nuove Funzionalità AI