"La Rivista di Engramma (open access)" ISSN 1826-901X

222 | marzo 2025

97888948401

Copyright and Copyleft nell’era dell’intelligenza artificiale

Scenari tecnologici e risposte normative

Alessandro Del Ninno

English abstract
Introduzione. I modelli di Intelligenza Artificiale generativa e le sfide ai diritti di proprietà intellettuale e industriale

Con il rivoluzionario avvento dei modelli di Intelligenza Artificiale generativa per finalità generali (cc.dd General-Purpose AI) sono divenute straordinariamente più sofisticate le sfide che la tecnologia pone per la efficace tutela dei diritti di proprietà intellettuale e industriale. Sfide che sono sorte solo di recente nella cyber-società digitalizzata e globale: basti pensare che il primo – e ad oggi ancora più noto – modello di IA generativa, ChatGPT, fu lanciato solo il 30 novembre 2022 da OpenAI (società fondata nel 2015 da Elon Musk e Sam Altman, oggi partecipata da una combinazione di investitori istituzionali e privati, con Microsoft come partner strategico di rilievo) e da allora il progresso è stato inarrestabile, al pari del successo (da un milione di utenti nella prima settimana, agli attuali ​400 milioni di utenti attivi settimanali e gestione di un miliardo di query al giorno, secondo le statistiche di fine febbraio 2025). È significativo che – mentre si scrive – è stata diffusa da OpenAI la notizia della disponibilità in Europa – dal 28 febbraio 2025 – del modello di IA generativa chiamato SORA, in grado di generare video realistici e creativi ad alta risoluzione a partire da semplici descrizioni testuali degli utenti di ciò che si vuole appaia nei video.

ChatGPT è un acronimo che fa riferimento a due elementi principali di questa IA: (1) Chat – cioè un modello progettato per l’interazione conversazionale con gli utenti, ovvero per chattare in modo naturale e fluido; e (2) GPT, che a sua volta è l’acronimo di Generative Pre-trained Transformer, che descrive l’architettura del modello: “Generative” descrive la capacità di creare contenuti in modo autonomo; “Pre-trained” indica il pre-addestramento su enormi dataset, prima di essere ottimizzato per conversazioni specifiche; e – infine – “Transformer” fa riferimento alla architettura introdotta da Google nel 2017, che permette un’elaborazione avanzata del linguaggio naturale basato sulle reti neurali profonde (deep learning).

Ma prima di affrontare le più specifiche tematiche delle sfide tecnologiche e degli scenari dell’IA tra copyright e copyleft, è opportuno fornire alcuni chiarimenti pratici su cosa sono e come funzionano i modelli di IA generativa per finalità generali (diversi dai sistemi di IA che sono ecosistemi che spesso li integrano). Intanto, ad oggi, sui mercati digitali sono disponibili svariati modelli – anche concorrenti di ChatGPT – offerti dalle Big Tech o sviluppati da centri di ricerca pubblici e privati che presentano specifiche peculiarità. Ad esempio, l’IA generativa di Google – Gemini/Bard – è particolarmente efficace nelle ricerche avanzate (potendo sfruttare in tempo reale la mole gigantesca delle richieste poste dagli utenti mondiali al suo motore di ricerca Google, con garanzia di aggiornamento continua della base dei dati); Amazon Bedrock consente alle aziende la creazione di propri modelli privati e personalizzati a partire dalla soluzioni di IA generativa più diffuse sul mercato; PanGu-Σ – sviluppato da Huawei – è specializzato nei modelli linguistici basati su cinese, russo e inglese (così come il Jais, modello open source sviluppato dagli Emirati Arabi Uniti, è il primo in lingua araba); Llama è l’IA generativa di Meta (Facebook), open source e gratuita, progettato per sviluppatori, ricercatori e aziende. Infine, anche se L’Italia non ha ancora un’IA generativa a scopi generali equivalente a modelli come ChatGPT, sono in corso di sviluppo progetti assai interessanti di modelli avanzati con un focus sulla lingua italiana. Minerva, ad esempio, è un modello sviluppato dall’Università La Sapienza di Roma, che parte da modelli pre-addestrati multilingua e continua l’addestramento su dati in italiano. Questo approccio mira a combinare i vantaggi dei modelli multilingua con una specializzazione nella nostra lingua. Modello Italia, invece, è sviluppato dalla startup iGenius e da Cineca, il consorzio interuniversitario formato da 70 università italiane (proprietario del supercomputer Leonardo, il nono al mondo per potenza di calcolo, tra i TOP500), ed è stato pensato per l’automazione della pubblica amministrazione italiana ed europea. 

Nonostante tutti i principali modelli di IA generativa per finalità generali sopra esemplificativamente richiamati presentino differenze in termini di architettura, addestramento, obiettivi o accessibilità (alcuni modelli sono open source, come sopra visto, altri sono modelli chiusi e commerciali), è tuttavia possibile elencare sinteticamente una serie di caratteristiche comuni alla gran parte dei modelli, come le seguenti. Una prima caratteristica comune è che l’IA generativa è basata su modelli di linguaggio di grandi dimensioni (LLM, Large Language Models): i modelli vengono cioè addestrati su grandi quantità di testo per apprendere schemi linguistici e poter interagire con gli utenti in maniera fluida, utilizzando il linguaggio naturale in una conversazione, appunto sul modello chat, ossia rispondendo a domande, riassumendo testi, traducendo lingue e spiegando concetti; in questa prospettiva, molti di questi modelli possono essere usati come chatbot, o assistenti virtuali avanzati, cioè programmi basati su intelligenza artificiale o regole predefinite che simulano una conversazione in linguaggio naturale con un utente attraverso testo o voce (ma molti modelli vanno anche oltre, includendo strumenti per sviluppatori, aziende e piattaforme di IA generativa per compiti più complessi).

Una seconda caratteristica comune ai modelli per finalità generale è che utilizzano reti neurali profonde (deep learning transformer) per generare e comprendere il linguaggio naturale. Inoltre, hanno capacità generativa, potendo creare testo coerente e contestualizzato in risposta agli input/richieste che ricevono dagli utenti (che si chiamano “prompt” in linguaggio tecnico; in certi casi, gli input possono essere rappresentati – oltre che da testo – anche da immagini o audio); alcuni modelli supportano anche la generazione di codice informatico, immagini, video, musica e altri contenuti. Comune è anche la caratteristica di comprendere il contesto di una conversazione o richiesta, rendendo le risposte più pertinenti: tra l’altro, alcuni modelli possono mantenere la memoria della conversazione per risposte ancora più coerenti. Infine, una ulteriore caratteristica comune ai modelli di IA generativa per finalità generali è che hanno tutti una ottima capacità di pianificazione, deduzione e sintesi, utili in ambiti come la programmazione, la scrittura creativa e l’analisi di dati.

Questa sintetica presentazione di ChatGPT e dei similari modelli di IA con capacità generativa per finalità generali rende intuitive le sfide poste al copyright – ma non solo – dal mutato scenario tecnologico della cosiddetta Quarta Rivoluzione Industriale (concetto introdotto dall’economista Klaus Schwab, fondatore del World Economic Forum, anche se da alcuni tale concetto si ritiene già superato da quello di Quinta Rivoluzione Industriale, rappresentata dalla definitiva integrazione dell’IA nelle capacità e attività umane).

La sfida alla Proprietà Intellettuale e Industriale – e non solo, potendosi allargare le considerazioni all’intero Diritto, anche se in tale sede ci si concentrerà sul copyright in particolare – posta dai modelli di Intelligenza Artificiale generativa per finalità generali risiede in uno degli aggettivi che li caratterizzano: generativo. Tale aggettivo fin da subito collega concettualmente una caratteristica tecnica dei modelli di IA – cioè, la capacità di generare contenuti – a una delle caratteristiche giuridiche del diritto d’autore, che sorge con la creazione di opere dell’ingegno, cioè con creazioni originali generate dall’atto creativo dell’ingegno umano in svariati ambiti (letteratura, musica, arte, architettura, audiovisivo, software, etc). 

Comparando i diversi atti creativi – dei modelli di IA generativa e dell’ingegno umano – sorgono allora alcune domande fondamentali a cui si cercherà di dare risposta nel presente contributo:

1.    I modelli di IA generativa creano contenuti/opere proteggibili ai sensi delle normative nazionali e internazionali a protezione del copyright?
2.    A chi appartengono i diritti sui contenuti/opere generate mediante impiego di modelli di IA generativa?
3.    I modelli di IA generativa possono ledere il copyright dei terzi?
4.    Che rapporto c’è tra copyleft e IA generativa?
5.    Quali sono le risposte normative – se esistono – alle questioni poste dalle domande che precedono?

Opere dell’ingegno e output dell’IA generativa. Scenari a confronto e conseguenze giuridiche in termini di titolarità e tutela del diritto d’autore

Ci siamo chiesti se i modelli di IA generativa creano contenuti/opere (tecnicamente definiti output) proteggibili ai sensi delle normative nazionali e internazionali a protezione del copyright. Per poter rispondere alla domanda, occorre partire dall’analisi dei presupposti – di fatto e normativi – in presenza dei quali i Legislatori (italiano ed europeo) ritengono un’opera proteggibile mediante diritto d’autore. L’art. 1 della Legge sul diritto d’autore (L. 22 aprile 1941, n. 633 e successive modifiche e integrazioni. Di seguito anche “LdA”) prevede che:

Sono protette ai sensi del diritto d’autore le opere dell’ingegno di carattere creativo che appartengono alla letteratura, alla musica, alle arti figurative, all'architettura, al teatro e alla cinematografia, qualunque ne sia il modo o la forma di espressione.

Le opere sono dunque protette (e il diritto d’autore sorge) in quanto:

a)    originali;
b)    creative, poichè espressione intellettuale dell’autore e del suo ingegno (e con la creazione dell’opera sorge automaticamente in capo all’autore il relativo diritto, senza necessità di procedure costitutive del copyright, come registrazioni o simili);
c)    aventi forma espressiva tangibile (la LdA non tutela, infatti, le mere idee).

Attualmente, il quadro normativo vigente esclude la titolarità del copyright in capo ad autori diversi dagli esseri umani. Più precisamente: se tecnicamente una IA generativa è in grado di generare opere e contenuti originali (oppure di rielaborare originalmente opere esistenti, altro atto che determina la nascita del diritto d’autore, nei limiti delle rielaborazioni originali di opere esistenti), giuridicamente è impossibile imputare la paternità dell’opera al modello di IA, in quanto è un atto tecnico meramente generativo ma non è il risultato di un atto creativo espressione dell’ingegno umano. Inoltre, l’IA è priva negli ordinamenti nazionali e internazionali di soggettività giuridica autonoma. Vi è dunque un problema di imputabilità del diritto (in realtà di qualsiasi diritto), esclusa nel caso di un ente creatore che non solo non è umano (e non ha ingegno creativo) ma – a monte – non gode di personalità giuridica autonoma (come – per enti non umani – l’ordinamento riconosce, per altro verso, alle persone giuridiche, come società e similari organizzazioni).

Quindi, alla domanda che ci siamo posti possiamo rispondere come segue: i modelli di IA generativa possono tecnicamente generare output che hanno le caratteristiche di originalità richieste giuridicamente come presupposto del diritto d’autore, ma l’IA non può essere considerata legalmente un autore perché questi può essere solo un essere umano (almeno a ordinamento vigente) con il suo intelletto creativo e alla IA non è imputabile alcun diritto d’autore per le opere, essendo questi output un atto generativo (non creativo) privo di contributo sostanzialmente umano e riconducibile a un ente che non può essere oggetto di imputabilità di alcuna soggettività giuridica e titolarità – conseguente – di diritti.

A chi appartengono i diritti sui contenuti/opere generate mediante l’impiego di modelli di IA generativa?

E allora: posto che un modello di IA generativa è tecnicamente in grado di generare output originali, senza poter essere giuridicamente un autore e centro di imputazione di diritti, a chi appartengono i diritti sui contenuti/opere generate mediante impiego di modelli di IA generativa?

Premesso che nessuna normativa nazionale, europea (anche con il recente Regolamento UE sull’Intelligenza Artificiale n. 1689/2024, detto anche “AI Act”, primo quadro legislativo organico al mondo in materia) o internazionale (es: degli USA) affronta la delicata tematica, una prima risposta potrebbe essere: il diritto d’autore appartiene all’essere umano che ha inserito i dati di input e formulato la richiesta – o prompt – da cui poi il modello ha generato un output originale. Tuttavia, tale soluzione è generalmente esclusa dagli uffici che si occupano della tutela del copyright. Ad esempio, qualche settimana fa, il Copyright Office degli Stati Uniti (USCO) ha affrontato la tematica concludendo in un rapporto su Intelligenza Artificiale e copyright che, anche se un prompt è estremamente dettagliato o complesso, non conferisce la titolarità del copyright sul corrispondente output generato dall’IA. Il rapporto ha difatti correttamente evidenziato che i prompt sono fondamentalmente istruzioni piuttosto che espressioni di creatività. Mentre un prompt può descrivere un’idea, il modello di IA determina in ultima analisi l’esecuzione degli elementi creativi in modi che non sono completamente controllati dall’utente. Più precisamente, il modello di IA generativa non si limita a seguire le istruzioni come potrebbe fare un artista nei confronti di un committente, ma interpreta e genera contenuti basati su algoritmi e dati di addestramento sottostanti, rendendo difficile attribuire la paternità all’utente umano (il cui contributo sostanziale e creativo permane come imprescindibile presupposto della autorialità e del diritto).

L’USCO suggerisce che la protezione del copyright possa essere applicata alle opere generate dall’IA se un essere umano modifica, organizza o seleziona il contenuto generato dall’IA in modo sufficientemente creativo, incorpora elementi generati dall’IA in un’opera più ampia creata da detto essere umano o modifica il contenuto generato dall’IA in modo da configurare un’espressione creativa originale. 

Più possibilista è la Internet Court di Pechino che in una recente sentenza (Report on Copyright & Artificial Intelligence – U.S. Copyright Office) sul tema della applicabilità ai prompt della nozione di “risultato intellettuale” collegato a una attività mentale umana ha ravvisato tale attività in tutte le fasi che hanno condotto dall’ideazione alla realizzazione finale di una immagine creata dal modello di IA generativa sulla base di istruzioni originali e creative dell’utente. Questi ha difatti selezionato oltre 150 parole chiave, dando forma e organizzazione peculiare alle sequenze e ai prompt, indicando al modello di operare secondo specifici parametri, affinando successivamente tutti gli output e modificando via via i successivi prompt, fino a ottenere il risultato voluto. Ovvio che in tal caso è stato possibile per la Corte ravvisare attività dell’ingegno, creatività e originalità umana alla base di un risultato originale prodotto dal modello di IA generativa. Anzi, la stessa originalità dell’output finale – ritenuto proteggibile ai sensi delle norme sul diritto d’autore cinese – è stata collegata dalla Corte all’attività umana di precisa impostazione dei prompt.

Ma nel caso che non sia possibile ravvisare titolarità del diritto d’autore in capo all’utente che ha formulato prompt non creativi o per i quali non sia possibile ravvisare attività intellettuale umana, è possibile – come alternativa – ritenere titolare del copyright il soggetto umano che ha sviluppato oppure addestrato il modello? Non è semplice rispondere, anche se su tale possibilità si confrontano due diverse posizioni (sempre fermo restando che la normativa vigente non disciplina neanche questo tema: ad esempio l’AI Act della UE, pur dettando norme specifiche per gli sviluppatori, non attribuisce loro diritti d’autore sulle opere generate dai modelli da loro progettati, sviluppato o addestrati). La prima posizione dei commentatori è negativa: chi sviluppa o addestra il modello fornisce uno strumento, non crea l’opera. Un modello come GPT-4 (es: Stable Diffusion o Midjourney) è addestrato su grandi dataset, ma non genera opere specifiche in modo prevedibile o intenzionale da parte dei suoi sviluppatori. Per essere ancora più pratici: se è vero che OpenAI ha sviluppato ChatGPT, ciò non significa che OpenAI possa rivendicare il copyright su un romanzo scritto con ChatGPT su prompt/input di un utente. La seconda posizione sul tema (minoritaria) è invece possibilista sulla titolarità del diritto d’autore in capo a chi ha sviluppato o addestrato il modello di IA generativa, richiamando concetti come quelli di diritto sulle opere collettive che potrebbero essere interpretati per includere gli sviluppatori. Ovviamente, in mancanza di una normativa chiara, le aziende che sviluppano modelli di IA saranno sempre più portate a cercare di proteggere le opere generate da loro modelli attraverso accordi contrattuali, termini di servizio o licenze d’uso specifiche.

In conclusione, la risposta più coerente con l’attuale quadro normativo alla domanda “a chi appartengono i diritti sui contenuti/opere generate mediante impiego di modelli di IA generativa?” è: a nessuno. Nessun soggetto può rivendicare automaticamente il copyright su un’opera generata interamente da un’IA, salvo modifiche significative o il contributo creativo sostanziale di un autore umano. Di conseguenza, le opere generate interamente da una IA sono di pubblico dominio.

L’IA generativa come nuovo pirata digitale

Ci siamo chiesti anche se i modelli di IA generativa possano ledere il copyright dei terzi. La risposta è assolutamente positiva, e – anzi – proprio in tema di diritto d’autore si sono diffuse polemiche e contestazioni da parte dei titolari dei diritti su opere protette che l’IA generativa ha – senza autorizzazione – rielaborato o alle quali si è ispirata per produrre contenuti.

Si può certamente affermare che la comparsa dei modelli di IA generativa ha profondamente mutato anche il concetto stesso di pirateria digitale. In precedenza, la pirateria digitale – da sempre associata alla violazione del diritto d’autore e comunque non di certo scomparsa – si esplicava nella forma di copia esatta e distribuzione illegale (es: mediante di piattaforme di file sharing) di opere protette (musica, film, giochi, software, etc). Con l’avvento dei modelli di IA generativa lo scenario è profondamente mutato e oggi la pirateria non si limita alla copia, ma include la creazione derivata, senza copiare direttamente l’opera: si può, cioè, generare un testo simile a un’opera esistente, oppure ricreare lo stile grafico o il design di un artista senza il suo consenso, così come comporre musica ispirata a un compositore. In parole semplici: la pirateria non è più solo scaricare copie, ma ricreare senza permesso degli autori. È uso non autorizzato non di un’opera, ma di creatività altrui.

Ma vi è di più. L’IA generativa non è un possibile, nuovo pirata digitale solo nella fase finale in cui opera, rispondendo ai prompt degli utenti e creando contenuti. La pirateria può interessare anche la precedente fase di addestramento (machine learning), cioè le fasi preliminari in cui il modello impara (in questo caso i pirati sono i suoi sviluppatori). La pirateria oggi non riguarda solo l’opera finale, ma anche il modo in cui un modello di IA è stato allenato. Se un modello di IA viene addestrato su testi, immagini, musica protetti senza autorizzazione degli aventi diritto, può poi a valle generare contenuti derivati che violano non solo il copyright ma anche normative che proteggono i dati. È la ragione per la quale hanno cominciato a diffondersi contenziosi legali non solo per violazione del copyright ma anche per vero e proprio furto di dati. Ed è il motivo per cui – ad esempio – uno degli articoli più rilevanti del Regolamento UE sull’IA n.1689/2024 è quello che impone ai fornitori di sistemi di IA di dimostrare – attraverso un sistema di data governance – la legittimità dei dataset impiegati per l’addestramento dell’IA, incluse le fonti dei dati (cfr. art. 10, Reg. 1689/2024).

Il rapporto tra IA generativa e copyleft: criticità e scenari pratici

Il cosiddetto copyleft è un principio giuridico (chiaramente, come suggerisce il termine, in contrapposizione al copyright) applicato al diritto d’autore e che consente la libera diffusione e modifica di un’opera, a condizione che tutte le versioni derivate mantengano la stessa libertà d’uso e distribuzione. Un’opera copyleft può essere utilizzata, modificata e distribuita da chiunque, purché sia garantito che anche le opere derivate saranno soggette alle stesse regole (ad esempio impedendo che l’opera venga “chiusa” oppure registrata o brevettata). Esistono ovviamente specifiche licenze copyleft, soprattutto in campo informatico. Le più importanti e note sono – ad esempio – la General Public License (GPL) utilizzata per software open-source come Linux, la licenza Creative Commons per contenuti creativi (es: Wikipedia è basata su questa licenza) oppure la Free Documentation License (GFDL) utilizzata per documentazione e testi liberi.

La comparsa dell’Intelligenza Artificiale generativa ha reso assai critico – principalmente in termini di compatibilità – il rapporto con il copyleft, il software libero e – in generale – la conoscenza condivisa. Da un punto di vista delle criticità di tipo legale, possono individuarsi per lo meno due principali scenari: (1) quello della compatibilità delle licenze copyleft con la fase di addestramento delle IA e (2) quello della necessità o meno, per le opere generate dalla IA, di rispettare il copyleft. Nel primo scenario, se modelli di IA vengono addestrati su codice open-source coperto da licenze copyleft (GPL, AGPL, CC BY-SA, ecc.) e poi l’IA genera codice o testi basati su dati copyleft, ci si chiede se questi debbano essere rilasciati e distribuiti con la stessa licenza. La risposta dovrebbe essere positiva, anche se alla richiesta di alcuni sviluppatori di imporre ai modelli di IA di rispettare le licenze dei dati con cui sono stati addestrati (e, ad esempio, GitHub Copilot e OpenAI Codex sono stati accusati di violare la licenza GPL perché generano codice derivato da software open-source senza rispettarne la licenza) le aziende IA sostengono che l’addestramento rientra nel fair use (dottrina diffusa negli USA e – in parte – recepita anche nella nostra Legge sul diritto d’autore con le cosiddette utilizzazioni libere come eccezione al copyright). Il Regolamento UE sull’Intelligenza Artificiale n. 1689/2024 non ha affrontato nello specifico il rapporto tra copyleft e modelli di IA generativa, limitandosi a creare un sistema di deroghe ed eccezioni (agli obblighi previsti dagli articoli da 53 a 56 per i fornitori di modelli di IA per finalità generali) per i fornitori di modelli di IA per finalità generali rilasciati con licenza libera e open source che consentono l’accesso, l’uso, la modifica e la distribuzione del modello e i cui parametri – compresi i pesi, le informazioni sull’architettura del modello e le informazioni sull’uso del modello – sono resi pubblici.

Venendo al secondo scenario legale, ci si domanda: le opere generate dall’IA devono rispettare il copyleft? Se un modello di IA è addestrato su contenuti sotto licenza copyleft (es. Creative Commons BY-SA, GNU GPL), allora anche i suoi output devono essere copyleft? Ad esempio, un articolo creato usando dati da Wikipedia oppure generato da un’immagine ispirata a un’opera rilasciata con Creative Commons devono essere copyleft? E in caso di risposta positiva alle domande: chi garantisce il rispetto della licenza? L’utente che ha generato l’opera o l’azienda che ha sviluppato il modello?

Sono tutte domande a cui non è semplice rispondere, anche se alcune soluzioni cominciano a essere proposte: da possibili nuove licenze open source con clausole specifiche per l’IA agli obblighi di trasparenza sui dati di addestramento per garantire la conformità alle licenze copyleft, alla stessa integrazione nei sistemi IA di strumenti per garantire il rispetto delle licenze copyleft negli output generati. In ogni caso, sebbene non vi siano norme specifiche che impongano il rispetto delle licenze copyleft ai modelli di IA, le condizioni delle licenze copyleft stesse richiedono – come sopra segnalato – che qualsiasi opera derivata sia distribuita sotto la stessa licenza. Pertanto, l’uso di opere coperte da licenze copyleft nell’addestramento o nello sviluppo di modelli di IA dovrebbe obbligare gli sviluppatori a rilasciare il modello risultante sotto la stessa licenza, garantendo così il rispetto delle condizioni del copyleft. 

Modelli di IA generativa per finalità generali, tutela del diritto d’autore e risposte normative nel Regolamento UE sull’Intelligenza Artificiale (AI Act)

Quali sono le risposte normative – se esistono – alle questioni poste nel presente contributo? Il Regolamento (UE) 2024/1689 del Parlamento europeo e del Consiglio, del 13 giugno 2024, che stabilisce regole armonizzate sull’intelligenza artificiale e modifica i regolamenti (CE) n. 300/2008, (UE) n. 167/2013, (UE) n. 168/2013, (UE) 2018/858, (UE) 2018/1139 e (UE) 2019/2144 e le direttive 2014/90/UE, (UE) 2016/797 e (UE) 2020/1828 (regolamento sull’intelligenza artificiale anche detto, più brevemente, AI Act) rappresenta il primo quadro normativo organico al mondo con il quale si è tentato (più o meno efficacemente) di “migliorare il funzionamento del mercato interno e promuovere la diffusione di un’intelligenza artificiale (IA) antropocentrica e affidabile, garantendo nel contempo un livello elevato di protezione della salute, della sicurezza e dei diritti fondamentali sanciti dalla Carta dei diritti fondamentali dell’Unione europea, compresi la democrazia, lo Stato di diritto e la protezione dell’ambiente, contro gli effetti nocivi dei sistemi di IA nell’Unione, e promuovendo l’innovazione” (art. 1, AI Act). L’AI Act sarà pienamente applicabile tra il 2026 e il 2027 (dal 2 febbraio 2025 sono applicabili i primi cinque articoli del Regolamento).

Il rapporto tra grandi modelli di IA generativa e diritto d’autore – tra opportunità di innovazione e rischi per il copyright – è fissato con chiarezza dal Considerando 105 dell’AI Act, che descrive l’attuale situazione:

I modelli di IA per finalità generali, in particolare i grandi modelli di IA generativa, in grado di generare testo, immagini e altri contenuti, presentano opportunità di innovazione uniche, ma anche sfide per artisti, autori e altri creatori e per le modalità con cui i loro contenuti creativi sono creati, distribuiti, utilizzati e fruiti. Lo sviluppo e l’addestramento di tali modelli richiedono l’accesso a grandi quantità di testo, immagini, video e altri dati. Le tecniche di estrazione di testo e di dati possono essere ampiamente utilizzate in tale contesto per il reperimento e l’analisi di tali contenuti, che possono essere protetti da diritto d’autore e da diritti connessi. Qualsiasi utilizzo di contenuti protetti da diritto d’autore richiede l’autorizzazione del titolare dei diritti interessato, salvo se si applicano eccezioni e limitazioni pertinenti al diritto d’autore.

La scelta regolatoria del Legislatore UE – oltre alla specifica dichiarazione che l’AI Act non pregiudica l’applicazione delle norme sul diritto d’autore previste dal diritto dell’Unione – è quella di un bilanciamento che passa attraverso il richiamo all’articolo 4, rubricato “Eccezioni o limitazioni ai fini dell’estrazione di testo e di dati”, comma 3 della Direttiva UE 2019/790 del Parlamento europeo e del Consiglio, del 17 aprile 2019, sul diritto d’autore e sui diritti connessi nel mercato unico digitale. 

L’articolo 4, comma 1, della Direttiva 2019/790 introduce un’eccezione o limitazione ai diritti di riproduzione per l’estrazione di testo e dati (“text and data mining” – TDM), stabilendo che gli Stati membri dispongono nei casi che seguono un’eccezione o una limitazione:

– al diritto esclusivo dell’autore di una banca dati (definita dall’articolo 1, comma 2, della Direttiva UE 96/9 sulla tutela giuridica delle banche dati come “una raccolta di opere, dati o altri elementi indipendenti sistematicamente o metodicamente disposti e individualmente accessibili grazie a mezzi elettronici o in altro modo”) di eseguire o autorizzare la riproduzione permanente o temporanea, totale o parziale, con qualsiasi mezzo e in qualsivoglia forma [cfr. art, 5, comma1, lettera a), della Direttiva UE 96/9];

– al diritto del costitutore di una banca di dati (cioè, chi ha effettuato un investimento sostanziale dal punto di vista qualitativo e/o quantitativo per la costituzione, la verifica o la presentazione del contenuto della banca di dati) di vietare operazioni di estrazione e/o reimpiego della totalità o di una parte sostanziale del contenuto della stessa, valutata in termini qualitativi o quantitativi (cfr. art, 7, comma 1, della Direttiva UE 96/9);

– al diritto esclusivo di autori, artisti, interpreti, esecutori, produttori di fonogrammi, organismi di diffusione radiotelevisiva di autorizzare o vietare la riproduzione diretta o indiretta, temporanea o permanente, in qualunque modo o forma, in tutto o in parte, delle opere e delle relative riproduzioni, fissazioni, diffusione, etc (cfr. art, 2 della Direttiva 2001/29/CE del Parlamento europeo e del Consiglio, del 22 maggio 2001, sull’armonizzazione di taluni aspetti del diritto d’autore e dei diritti connessi nella società dell’informazione);

– al diritto di un autore di un programma per elaboratore (cioè, ai sensi dell’articolo 2, comma 1, della Direttiva 2009/24/CE del Parlamento europeo e del Consiglio, relativa alla tutela giuridica dei programmi per elaboratore “la persona fisica o il gruppo di persone fisiche che ha creato il programma o, qualora la legislazione degli Stati membri lo permetta, la persona giuridica designata da tale legislazione come titolare del diritto”) di effettuare o autorizzare la riproduzione, permanente o temporanea, totale o parziale di un programma per elaboratore con qualsivoglia mezzo, in qualsivoglia forma (ivi incluso il diritto di autorizzare operazioni come il caricamento, la visualizzazione, l’esecuzione, la trasmissione o la memorizzazione del programma per elaboratore se queste richiedono una riproduzione) e la traduzione, l’adattamento, l’adeguamento e ogni altra modifica di un programma per elaboratore e la riproduzione del programma che ne risulti, fatti salvi i diritti della persona che modifica il programma (cfr. art. 4, comma 1, lettere (a) e (b) della Direttiva 2009/24/CE);

– al diritto degli editori di giornali stabiliti in uno Stato UE di autorizzare l’utilizzo online delle loro pubblicazioni di carattere giornalistico da parte di prestatori di servizi della società dell’informazione (cfr. art. 15, comma 1 della Direttiva UE 2019/790).

Le eccezioni e limitazioni ai diritti d’autore nei casi sopra previsti per il text and data mining (TDM) trovano tuttavia un limite nella disciplina di cui al comma 3 dello stesso articolo 4 della Direttiva UE 2019/790, che prescrive come condizione di applicabilità delle eccezioni e limitazioni che l’estrazione e l’utilizzo delle opere e di altri materiali non sia stato espressamente riservato dai titolari dei diritti in modo appropriato (ad esempio attraverso strumenti che consentano lettura automatizzata in caso di contenuti resi pubblicamente disponibili online). 

Dunque, se da un lato la direttiva (UE) 2019/790 ha introdotto eccezioni e limitazioni che consentono, a determinate condizioni, riproduzioni ed estrazioni effettuate da opere o altri materiali, dall’altro – sempre in base a tali norme – i titolari dei diritti hanno la facoltà di scegliere che l’utilizzo delle loro opere e di altri materiali sia da essi riservato per evitare l’estrazione di testo e di dati (comunque sempre possibile a fini di ricerca scientifica). Qualora il diritto di sottrarsi sia stato espressamente riservato in modo appropriato, l’AI Act prevede che i fornitori di modelli di IA per finalità generali debbano ottenere un’autorizzazione dai titolari dei diritti, qualora intendano compiere l’estrazione di testo e di dati su tali opere per fini di sviluppo, addestramento od operatività dei modelli. A tal fine, i fornitori di modelli di IA per finalità generali sono obbligati (cfr. art. 53, comma 1, lettera c) dell’AI Act) a mettere in atto una politica volta a rispettare il diritto d’autore e i diritti connessi, in particolare proprio per individuare e rispettare la riserva dei diritti espressa dai titolari secondo la norma richiamata di cui all’articolo 4, paragrafo 3, della direttiva (UE) 2019/790. A tal fine, è previsto altresì che i fornitori possano aderire a codici di buone pratiche a livello UE, promossi dall’Ufficio europeo per l’IA e dal Comitato europeo per l’IA (cfr. art. 56 AI Act). Qualsiasi fornitore che immette sul mercato dell’Unione un modello di IA per finalità generali deve rispettare le norme sul diritto d’autore, ivi incluso l’obbligo di verificare le riserve espresse e di fornire informazioni sui contenuti utilizzati per l’addestramento, indipendentemente dalla giurisdizione in cui si utilizzano opere protette per l’addestramento di tali modelli di IA per finalità generali (tale previsione garantisce condizioni di parità tra i fornitori di modelli di IA per finalità generali onde evitare che nessun fornitore ottenga un vantaggio competitivo applicando norme in materia di diritto d’autore meno rigorose di quelle previste nella UE).

Ulteriore obbligo previsto dall’AI Act per i fornitori di modelli di IA generativa che utilizzano opere protette da copyright è quello specifico di trasparenza pubblica sui dati e testi protetti dal diritto d’autore utilizzati nelle fasi di pre-addestramento e addestramento dei modelli. Tali fornitori devono elaborare e mettere a disposizione del pubblico una sintesi sufficientemente dettagliata dei contenuti utilizzati per l’addestramento del modello di IA per finalità generali che sia di ampio respiro e generale e non troppo dettagliata sotto il profilo tecnico (è previsto comunque che l’Ufficio per l’Intelligenza Artificiale, nuovo organismo di supporto settoriale alla Commissione UE, predisponga un modello/format del documento di sintesi). Una tale sintesi – che ad esempio dovrebbe elencare le principali raccolte o serie di dati che sono state inserite nell’addestramento del modello, quali grandi banche dati o archivi di dati privati o pubblici, e fornire una descrizione delle altre fonti di dati utilizzate – è il mezzo individuato dal Legislatore UE per garantire consapevolezza ai titolari dei diritti d’autore affinché possano esercitare il controllo e far rispettare i loro diritti. 

Dunque, riassumendo, l’utilizzo di contenuti protetti dal diritto d’autore in fase di pre-addestramento e di addestramento dei modelli di IA generativa per finalità generali è possibile per i fornitori di tali modelli:

– nel pieno rispetto del quadro normativo europeo in materia di copyright e con il consenso dell’avente diritto; 

– sfruttando le eccezioni e limitazioni ai diritti d’autore per attività di text and data miningTDM per i contenuti rispetto ai quali i titolari dei diritti non abbiamo espresso in forma appropriata la riserva dei diritti (cioè, un opt-out dalla possibilità per i terzi di estrarre dati e contenuti sfruttando il sistema di eccezioni e limitazioni) ai sensi dell’articolo 4, comma 3 della Direttiva 2019/790;

– adottando una politica volta ad adempiere al diritto dell’Unione in materia di diritto d’autore e diritti a esso collegati e, in particolare, a individuare e rispettare, anche attraverso tecnologie all’avanguardia, la riserva di diritti espressa a norma dell’articolo 4, paragrafo 3, della direttiva (UE) 2019/790;

– redigendo e mettendo a disposizione del pubblico una sintesi sufficientemente dettagliata dei contenuti utilizzati per l’addestramento del modello di IA per finalità generali, secondo un modello che sarà fornito dall’ufficio per l’IA;

– rispetto le eventuali e future norme di codici di buone pratiche elaborate a livello europeo (si noti che da tempo l’Ufficio per l’IA europeo ha messo in discussione un Codice di Buone Pratiche per l’Intelligenza Artificiale, il quale sta incontrando contrarietà degli operatori proprio per le incertezze sulle modalità pratiche di espressione della riserva di diritti espressa dai titolari a norma dell’articolo 4, paragrafo 3, della direttiva (UE) 2019/790).

Il quadro regolatorio sopra richiamato sarà pienamente applicabile ai fornitori di modelli di IA generativa dal prossimo 2 agosto 2025. Ma come potranno i fornitori di modelli di IA generativa per finalità generali verificare, accertare e poi documentare che un titolare dei diritti ha espresso la riserva dei diritti, rendendo inapplicabili le eccezioni e le limitazioni nei casi sopra previsti?

In effetti, sia la modalità con cui il titolare dei diritti dovrebbe esprimere “in modo appropriato” tale riserva, sia le modalità con le quali il fornitore del modello dovrebbe “individuare e rispettare, anche attraverso tecnologie all’avanguardia, la riserva di diritti espressa” restano ancora temi controversi. Anche perché vi sono state nel frattempo alcune pronunce che hanno reso il quadro più complicato: ad esempio il Tribunale di Amburgo, con la sentenza Kneschke/LAION del 27 settembre scorso, ha affermato che una riserva espressa in linguaggio naturale è valida, aprendo il dibattito su possibili nuove interpretazioni dell’AI Act.

Attualmente, difatti, le soluzioni proposte sono di tipo tecnico e includono il Robot Exclusion Protocol (robots.txt, cioè un file che si trova all’interno di siti web e fornisce istruzioni ai programmi automatici che raccolgono informazioni su internet, come i motori di ricerca o strumenti di intelligenza artificiale, e può recare al suo interno una specifica informazione di divieto di raccolta dei dati), che tuttavia è considerato obsoleto dall’industria culturale, e nuove tecnologie come “ai.txt”, un file specificatamente sviluppato per l’IA e che limita o consente selettivamente l’uso dei contenuti estratti on line per l’addestramento AI.

Per risolvere le problematiche di cui sopra, la Commissione Europea ha avviato a gennaio scorso uno studio di fattibilità per la creazione di un registro centralizzato a livello europeo delle riserve, che potrebbe essere gestito dall’Ufficio dell’Intelligenza Artificiale (AI Office) o dall’Ufficio dell’Unione Europea per la Proprietà Intellettuale (EUIPO). L’obiettivo dello studio di fattibilità è valutare l’efficacia di questo registro opt-out centralizzato nel raccogliere e gestire le riserve espresse dai titolari dei diritti, analizzare l’integrazione di tale registro con le tecnologie esistenti, come i file robots.txt e ai.txt utilizzati per comunicare le preferenze dei titolari riguardo all’accesso dei loro contenuti da parte di strumenti automatizzati e, infine, assicurare la conformità con le normative dell’Unione Europea, in particolare con l’articolo 53 dell’AI Act, che impone obblighi ai fornitori di modelli di intelligenza artificiale di uso generale.

Tuttavia, permangono vari interrogativi su un eventuale registro centralizzato delle riserve. Ad esempio, molti titolari di diritti utilizzano già strumenti come robots.txt e ai.txt per indicare le loro preferenze riguardo all’accesso ai loro contenuti da parte di strumenti automatizzati. L’integrazione di un nuovo registro centralizzato con i sistemi esistenti potrebbe presentare sfide tecniche, richiedendo aggiornamenti o modifiche ai siti web e alle piattaforme digitali. La creazione di un registro efficace richiederebbe – poi – la definizione di formati standardizzati per la comunicazione delle riserve. L’adozione di tali standard da parte di tutti i titolari dei diritti e delle piattaforme tecnologiche potrebbe risultare complessa, considerando la varietà di sistemi e pratiche attualmente in uso. Ancora: un registro centralizzato richiederebbe un costante aggiornamento per riflettere le nuove riserve espresse e le modifiche a quelle esistenti. Garantire l’accuratezza e la tempestività di queste informazioni rappresenta una sfida tecnica significativa. Senza contare che la progettazione, lo sviluppo e la messa in opera di un registro centralizzato comporterebbero costi significativi (es: spese per l’infrastruttura tecnologica, la sicurezza dei dati e le risorse umane necessarie per la gestione del sistema) e i creatori e i detentori dei diritti potrebbero dover sostenere costi aggiuntivi per registrare le loro riserve nel nuovo sistema, specialmente se l’adozione del registro richiede l'adeguamento delle loro piattaforme o l’assunzione di personale specializzato.

Conclusioni

La relazione tra Intelligenza Artificiale generativa, diritto d’autore e copyleft rappresenta una delle sfide più complesse e dibattute della contemporaneità giuridica e tecnologica. Se, da un lato, l’IA generativa offre opportunità senza precedenti per la creazione e la rielaborazione dei contenuti, dall’altro pone interrogativi cruciali in merito alla titolarità dei diritti, alla legittimità dell’uso delle opere preesistenti e all’equilibrio tra protezione della proprietà intellettuale e accesso alla conoscenza. Il quadro normativo attuale, pur avendo compiuto passi significativi con la Direttiva UE 2019/790 e il recente Regolamento 2024/1689 – AI Act, resta incompleto e necessita di ulteriori interventi per garantire una regolamentazione chiara ed efficace.

L’approccio tradizionale alla tutela del copyright, fondato sulla tutela dell’ingegno umano, fatica a inquadrare giuridicamente gli output generati dai modelli di IA generativa, privi di personalità giuridica e autonomia creativa. L’assenza di un’autorialità imputabile all’IA genera un vuoto normativo che lascia aperte molteplici interpretazioni e solleva dubbi sull’applicabilità delle attuali discipline del diritto d’autore. La logica del copyleft, invece, con le sue licenze aperte e l’impegno a mantenere la conoscenza accessibile, si scontra con le modalità di addestramento e utilizzo dei modelli di IA, ponendo il problema del rispetto delle condizioni di libera distribuzione e delle eventuali restrizioni imposte dai titolari delle opere originarie.

In definitiva, il rapporto tra IA generativa, diritto d’autore e copyleft è destinato a rimanere un terreno di confronto dinamico, in cui il diritto dovrà adattarsi alle rapide evoluzioni tecnologiche. La sfida normativa sarà trovare un equilibrio tra protezione dei creatori, libertà di innovazione e accesso alla conoscenza, senza soffocare lo sviluppo delle tecnologie emergenti, ma garantendo al contempo il rispetto dei principi fondamentali della proprietà intellettuale. Le soluzioni legislative dovranno necessariamente essere flessibili e aperte a continue revisioni, per evitare che il diritto rimanga ancorato a paradigmi che la tecnologia supera quotidianamente.

Postilla. Gli aggiornamenti legislativi

Con riferimento alle più recenti iniziative di regolamentazione degli aspetti legati al rapporto tra Intelligenza Artificiale e Copyright, può segnalarsi quanto segue.

19 Marzo 2025. Codice europeo di buone pratiche sull’Intelligenza Artificiale per finalità generali (GPAI)
La terza bozza del Codice di buone pratiche sull’Intelligenza Artificiale per finalità generali (GPAI) con la sezione II interamente dedicata gli impegni sulla tutela del copyright e della autorialità. La bozza sarà definitivamente approvata il 25 Maggio 2025 per essere applicabile da agosto 2025.

 20 Marzo 2025. Disegno di legge delega al Governo italiano sull’IA
Il 20 Marzo 2025 il senato della Repubblica ha licenziato il testo del disegno di legge delega al Governo in materia di Intelligenza Artificiale, che ora passa alla Camera. In materia di IA e copyright tale disegno di legge, modificando l’articolo 1 della Legge sul diritto d’autore, estende la protezione anche alle opere create con l'ausilio dell'intelligenza artificiale, purché il contributo umano sia creativo, rilevante e dimostrabile. Introduce inoltre l’articolo 70-septies nella Legge sul diritto d’autore, disciplinando l'estrazione di dati ai fini dell'apprendimento dei sistemi di intelligenza artificiale. I titolari dei diritti possono impedire l'utilizzo delle loro opere per l'estrazione di testo e dati, esprimendo una riserva in modo machine-readable.

2 agosto 2025 – Applicabilità integrale degli articoli 53-56 del Regolamento UE 1689/2024
L'AI Act si integra con la Direttiva (UE) 2019/790 sul diritto d'autore nel mercato unico digitale, che consente, a determinate condizioni, riproduzioni ed estrazioni effettuate da opere o altri materiali ai fini dell'estrazione di testo e di dati.

English abstract

The rapid advancement of general-purpose generative Artificial Intelligence (AI) models – such as ChatGPT and its successors – has triggered complex and unprecedented challenges for the protection of intellectual and industrial property rights. This paper examines the legal implications of AI-generated content, particularly in relation to copyright law. It addresses fundamental questions concerning the protectability of AI outputs, authorship attribution, potential copyright infringements by generative models, and the tensions between AI and copyleft principles. Through a comparative analysis of current regulatory frameworks, including the recent EU Artificial Intelligence Act (Regulation 2024/1689), the study explores the evolving intersection between human creativity, machine generation, and legal ownership. Particular attention is given to the distinction between “generation” and “creation”, and to the absence of legal subjectivity in AI systems, which prevents them from being recognized as authors under existing copyright regimes. The paper also investigates legal uncertainties arising from AI training on copyrighted datasets and the compatibility of open licenses (copyleft) with generative AI practices. 

keywords | Artificial Intelligence; ChatGPT; Autorship; Copyleft; Machine learning.

La Redazione di Engramma è grata ai colleghi – amici e studiosi – che, seguendo la procedura peer review a doppio cieco, hanno sottoposto a lettura, revisione e giudizio questo saggio
(v. Albo dei referee di Engramma)

Per citare questo articolo / To cite this article: Alessandro del Ninno, Copyright and Copyleft nell’era dell’intelligenza artificiale. Scenari tecnologici e risposte normative, “La Rivista di Engramma” n. 222, marzo 2025.