Ad aprile, scrittori ed editori di libri si sono opposti all’uso di meta di libri di copyright per addestrare AI

Vuk Valcic/Alamy Live News

Miliardi di dollari sono in gioco come tribunali negli Stati Uniti e in Gran Bretagna, indipendentemente dal fatto che le società tecnologiche possano formare legalmente i loro modelli di intelligenza artificiale sui libri di copyright. Autori ed editori hanno intentato diverse azioni legali sulla questione e, in una nuova svolta, i ricercatori hanno dimostrato che almeno un modello di intelligenza artificiale non solo ha usato libri popolari nei suoi dati di formazione, ma ha anche perso i loro contenuti.

Molte controversie in corso vagano se gli sviluppatori di intelligenza artificiale hanno il diritto legale di utilizzare il lavoro sul copyright senza il primo permesso. Precedenti ricerche hanno formato diversi modelli di grandi dimensioni (LLM) e altri programmi di intelligenza artificiale genetica dietro i popolari chatbot di AI, che includevano circa 200.000 libri di copyright, tra cui diversi libri piratati. Gli sviluppatori di AI che hanno addestrato i loro modelli su questo materiale hanno sostenuto di non aver violato la legge mentre un LLM converte la nuova combinazione di parole in base alla sua formazione, sostituendo il lavoro sul copyright piuttosto che imitare il lavoro.

Ma ora, i ricercatori hanno testato diversi modelli per vedere quanti di quei dati di formazione possono ritirarsi. Ha scoperto che molti modelli non mantengono il testo accurato dei libri nei loro dati di addestramento, ma un modello di meta ha ricordato l’intera parte di alcuni libri. Se i giudici governano contro la società, i ricercatori stimano che può rendere la meta responsabile di una perdita di almeno $ 1 miliardo.

“Ciò significa, da un lato, che i modelli di intelligenza artificiale non sono solo” furti letterari “, come alcuni hanno affermato, ma significa anche che fanno più che imparare la relazione generale tra le parole”, Mark Lamle All’Università di Stanford in California. “E il fatto che la risposta sia diversa da prenotare per modellare e prenotare il modello è diverso, significa che è molto difficile stabilire una regola legale chiara che funzionerà in tutti i casi.”

Lamle ha difeso per la prima volta il meta in un caso di copyright generativo dell’IA chiamato piattaforma Kadri V Meta. Gli scrittori che erano stati abituati per addestrare il modello AI di Mata avevano intentato una causa di classe contro il veterano della tecnologia per violazione del copyright. Il caso viene ancora ascoltato nel distretto settentrionale della California.

Nel gennaio 2025, Lamla Annunciato Ha lasciato cadere il meta come cliente, anche se ha detto che crede ancora che la società dovrebbe vincere la questione. Emil VazakwezUn portavoce di Meta, afferma: “L’uso corretto del contenuto del copyright è importante” per sviluppare il modello AI dell’azienda. “Non siamo d’accordo con l’affermazione dell’attore e il record completo racconta una storia diversa”, afferma.

In quest’ultima ricerca, Lamla e i suoi colleghi hanno testato l’IA Yaddani dei libri dividendo i piccoli estratti di libri – un prefisso e una sezione suffisso – e guardando cosa avrebbe risposto con un modello indicato con il prefisso. Ad esempio, sono f. Scott divide le citazioni di Fitzgerld Il grande Gatsby Nel prefisso, “Erano persone negligenti, Tom e Daisy – hanno rotto cose e creature e poi si sono ritirate” e il suffisso “sono tornati ai loro soldi o alla loro enorme negligenza, o qualunque cosa fosse, le ha tenute insieme e ha lasciato che le altre persone puliscono la terra fatta da loro”.

Sulla base dei loro risultati, i ricercatori hanno stimato la possibilità che ciascun modello di AI soddisfi le frazioni. Ha quindi confrontato quelle possibilità con gli ostacoli dei modelli che lo fanno per caso casuali.

Le frazioni consistevano nel bandu del testo di 36 libri di copyright, inclusi titoli popolari come George RR Martin Un gioco di trono E Sheryl Sandberg appoggiarsiI ricercatori hanno anche testato parti di libri scritti dall’attore nel caso della piattaforma di Kadre V Meta.

I ricercatori hanno condotto questi esperimenti sui 13 modelli AI open source, tra cui modelli sviluppati e rilasciati da Meta, Google, Dipsek, Elutherai e Microsoft. Oltre a Meta, la maggior parte delle aziende non ha risposto alle richieste di commenti e Microsoft ha rifiutato di commentare.

Tale test ha mostrato che il modello di Meta LAMA 3.1 70B ha ricordato il primo libro di JK Rowling. Harry Potter Serie, oltre che Il grande Gatsby E il romanzo diastopiano di George Orwell 1984La maggior parte degli altri modelli ha ricordato pochissimi libri, inclusi i libri di esempio scritti dal contenzioso della causa. Meta ha rifiutato di commentare questi risultati.

I ricercatori stimano che un modello di intelligenza artificiale abbia scoperto che il libro 3 è stato violato in un copyright di appena il 3 percento del set di dati, che può assegnare un premio di danno legale di circa 1 miliardo di dollari – e forse anche un grande premio basato sui profitti degli sviluppatori di AI relativi a tale violazione.

Questa tecnica può essere un “buon strumento forense” per identificare la gamma di memosfera di intelligenza artificiale. Randy McCarthi Nello studio legale della Hall Estel in Oklahoma. Ma questo non risolve se le aziende possano legalmente addestrare il loro modello di intelligenza artificiale attraverso la regola del “fair use” degli Stati Uniti sul lavoro sul copyright, un principio legale che consente l’uso di una licenza senza funzioni di copyright in alcune circostanze.

MacArthi ha osservato che le aziende di intelligenza artificiale di solito formano i loro modelli sui contenuti del copyright. “La domanda è se hanno il diritto di farlo?” Chiede.

D’altra parte, nel Regno Unito, la scoperta di memorie “può essere molto importante dal punto di vista del copyright”, afferma Robert Lands Howard Kennedy a Londra nello studio legale. La legge sul copyright del Regno Unito segue il concetto “equo equo”, che fornisce un’eccezione molto ristretta alle violazioni del copyright rispetto alla Dotrin statunitense. Dicono che è improbabile che i modelli di AI che ricordano libri piratati si qualifichino per quell’eccezione.

Soggetto:

  • intelligenza artificiale,
  • Legge

Collegamento alla fonte