Economia
17 aprile, 2025

L’Ia si addestra saccheggiando le librerie

I processi negli Stati Uniti mostrano come le Big Tech stiano allenando i propri modelli di algoritmi usando opere coperte da diritto d’autore. Senza pagarle o chiedere l’autorizzazione

Dati, sempre più dati, nient’altro che dati. Per poter migliorare le prestazioni, i modelli di intelligenza artificiale necessitano di colossali quantità di dati, e le aziende che competono nel mercato dell’Ia non sembrano disposte a scendere a compromessi per ottenerli. Quello che queste aziende sono pronte a fare lo si è capito all’inizio di quest’anno quando Meta, la società proprietaria di Facebook, Instagram e WhatsApp, è stata costretta da un giudice a rimuovere le numerose censure dai documenti relativi a una causa intentatale da alcuni scrittori presso un tribunale californiano.

 

Da questi documenti emerge come i vertici dell’azienda ritenessero cruciale utilizzare, per l’addestramento dell’ultimo modello di intelligenza artificiale Llama3 – recentemente reso disponibile su tutte le piattaforme proprietarie – i dati estratti da Library Genesis, un enorme database di libri e articoli scientifici illegalmente riprodotti, nato nel 2008 in Russia.

 

Per farsi un’idea della mole di titoli presenti su Library Genesis (in breve, LibGen), basta provare a fare una ricerca. Limitandosi agli scrittori italiani, da Ammaniti e Barbero fino a Zerocalcare, tutto l’alfabeto è regolarmente coperto, con le relative traduzioni in lingue straniere. Decine di terabyte di dati di alta qualità, assolutamente preziosi in quanto non solo frutto del lungo lavoro di autori professionisti, ma anche perché passati attraverso i vari livelli di revisione delle case editrici, e pertanto molto più rilevanti dei dati generici, generati quotidianamente dagli utenti del web.

 

Se non fosse più opportuno ottenere i diritti delle opere pagando scrittori ed editori qualcuno se lo era effettivamente chiesto, come si può leggere in alcune chat interne. La possibilità era stata però scartata, perché troppo costosa e lenta. Inoltre, scrive un dipendente di Meta, «la gente non capisce che se dovessimo prendere in licenza anche un solo libro non potremmo appoggiarci alla strategia del fair use», dove il termine si riferisce all’uso consentito dalla legge statunitense di un’opera coperta da diritti anche senza il consenso dell’autore, argomento utilizzato come difesa da Meta nella causa in tribunale, in quanto un modello Ia non riprodurrebbe semplicemente i materiali serviti per addestrarlo, ma li trasformerebbe in opere nuove e pertanto originali.

 

D’altronde, si legge in un’email, l’utilizzo di LibGen era stato approvato direttamente da una persona identificata come “MZ”, iniziali di Mark Zuckerberg. Senza utilizzare LibGen non sarebbe possibile raggiungere prestazioni da “stato dell’arte”. E poi, prosegue ancora il testo, è noto (attraverso word of mouth, ovvero “per sentito dire”) che anche «OpenAi e Mistral stanno usando la libreria per i loro modelli». Il riferimento è a due delle principali aziende concorrenti di Meta, tra cui la statunitense che sviluppa ChatGpt.

 

Che si trattasse di una operazione controversa traspare sempre dalla stessa email, in cui si legge che «in nessun caso riveleremmo pubblicamente che l’addestramento è avvenuto su LibGen: tuttavia c’è il rischio che soggetti esterni deducano che abbiamo usato questo dataset». E ancora: «Se la stampa dovesse suggerire che abbiamo usato un dataset che sappiamo essere piratato, come LibGen, questo potrebbe pregiudicare la nostra posizione negoziale con gli enti regolatori». In un altro documento interno si suggerisce di rimuovere le informazioni relative al copyright dalle singole opere (nel caso specifico, articoli scientifici), come intestazioni e codici Isbn.

 

Questo contro Meta non è l’unico processo in corso in cui una compagnia è accusata di aver utilizzato, per il training di un modello Ia, dati coperti da copyright. La rivista Wired ha compilato una lista dei procedimenti aperti nei soli Stati Uniti, che al momento sono ventotto e vedono coinvolte aziende del mondo della stampa come New York Times, Reuters e Dow Jones (proprietaria del Wall Street Journal), dell’editoria musicale tra cui Sony e Warner, organizzazioni di scrittori e singoli autori.

 

 

L’idea che alle aziende che sviluppano sistemi di Ia sia data la possibilità di utilizzare opere coperte da copyright senza pagare i diritti viene sostenuta apertamente da ormai parecchio tempo. Nell’aprile del 2023 Sy Damle, un avvocato specializzato in diritto d’autore, è intervenuto in una discussione alla Biblioteca del Congresso di Washington dove, parlando delle intelligenze artificiali generative, ha sostenuto che «l’unico modo concreto in cui questi strumenti possono esistere è che possano essere addestrati su enormi quantità di dati senza dover ottenere le licenze» e «ciò di cui stiamo parlando, nel contesto di questi large language models, è di addestrarli su un corpus che è essenzialmente l’intero volume della parola scritta».

 

E lo stesso Sy Damle, come riporta la testata Politico, avrebbe scritto (ma non risulta tra i firmatari) una lettera aperta inviata al Congresso statunitense, nella quale si chiede ai legislatori di non introdurre nuovi regolamenti in tema di diritto d’autore per i sistemi di intelligenza artificiale. Prima di lavorare nel settore privato, Damle era consigliere legale nello U.S. Copyright Office, l’ente governativo che si occupa proprio di diritto d’autore. Della stessa opinione è anche OpenAi, che nel gennaio del 2024 ha consegnato un documento al parlamento britannico nel quale si legge che «sarebbe impossibile addestrare i principali modelli Ia senza usare materiale coperto da copyright».

L'edicola

25 aprile ora e sempre - Cosa c'è nel nuovo numero de L'Espresso

Il settimanale, da venerdì 18 aprile, è disponibile in edicola e in app