Smith ha detto ad Ars che entrambi gli usi potrebbero frustrare i titolari dei diritti a seconda del contenuto dei risultati del modello.

“Penso che il rigurgito e la creazione di fan fiction possano entrambi segnalare problemi di copyright in quanto le fan fiction spesso richiedono elementi espressivi, un personaggio protetto da copyright, un personaggio abbastanza famoso da essere protetto dalla legge sul copyright o una trama o una sequenza,” ha detto Smith. “Se queste cose vengono copiate e riprodotte, l’output è potenzialmente lesivo.”

Ma questa è ancora una zona grigia. Guardando il blog, Smith ha detto: “Sarei preoccupato”, ma “non direi che si tratti automaticamente di una violazione”.

Smith ha detto ad Ars che il blog di Microsoft è stato “probabilmente un’iniziativa intelligente” perché i tribunali hanno generalmente ritenuto che la formazione sull’intelligenza artificiale su libri protetti da copyright sia un fair use. Ma la corte continua a indagare su questioni relative ai materiali di formazione sull’IA piratati.

Nella pagina del set di dati Kaggle cancellato, Maindola aveva spiegato in precedenza che per ottenere i dati, “aveva scaricato ebook e poi li aveva convertiti in file txt”.

Microsoft potrebbe aver violato il copyright

Se Microsoft dovesse mai doversi chiedere se l’azienda abbia consapevolmente utilizzato libri piratati per addestrare modelli di esempio, il fair use “potrebbe essere un argomento difficile”, ha detto Smith.

I commentatori di Hacker News hanno suggerito che il blog potrebbe essere considerato fair use, dal momento che la guida di formazione era per “scopi didattici”, e Smith ha detto che Microsoft potrebbe sollevare alcuni “buoni argomenti” in sua difesa.

Tuttavia, ha anche suggerito che Microsoft potrebbe essere ritenuta responsabile in qualche modo per aver contribuito alla violazione a un certo livello dopo aver lasciato il blog per un anno. Prima di essere rimosso, il set di dati Kaggle è stato scaricato più di 10.000 volte.

“Il risultato finale è creare qualcosa in violazione dicendo: ‘Ehi, vai qui, prendi quella roba in violazione e usala nel nostro sistema’”, ha detto Smith. “Potrebbero potenzialmente avere una sorta di responsabilità contributiva secondaria per violazione del copyright, scaricandolo e utilizzandolo per incoraggiare altri a utilizzarlo per scopi di formazione.”

Collegamento alla fonte