OpenAI potrebbe presto essere costretta a spiegare perché ha cancellato un paio di set di dati controversi costituiti da libri piratati, e la posta in gioco non potrebbe essere più alta.

Al centro dell’azione legale collettiva degli autori secondo cui ChatGPT è stato addestrato illegalmente sul loro lavoro, la decisione di OpenAI di eliminare i set di dati potrebbe essere stata un fattore decisivo nella vittoria degli autori.

È indiscusso che OpenAI abbia eliminato i set di dati noti come “Libro 1” e “Libro 2” prima del rilascio di ChatGPT nel 2022. Creati nel 2021 dall’ex staff di OpenAI, i set di dati sono stati creati raschiando il web aperto e sequestrando gran parte dei suoi dati da biblioteche chiamate biblioteche.

Come lo chiama OpenAI, i set di dati smettono di essere utilizzati entro lo stesso anno, spingendo alla decisione interna di eliminarli.

Ma gli autori sospettano che nella storia ci sia molto di più. Hanno notato che OpenAI ha fatto un balzo in avanti ritirando la sua affermazione secondo cui il “non utilizzo” del set di dati era il motivo della cancellazione, affermando in seguito che tutti i motivi della cancellazione, incluso il “non utilizzo”, dovrebbero essere protetti dal segreto professionale.

Agli autori, sembrava che OpenAI stesse facendo marcia indietro dopo che il tribunale aveva accolto la richiesta di scoperta degli autori di rivedere i messaggi interni di OpenAI riguardanti l'”uso improprio” dell’azienda.

In effetti, l’inversione di OpenAI rende gli autori solo più interessati a vedere come OpenAI ha discusso del “non utilizzo” e ora possono trovare tutti i motivi per cui OpenAI ha eliminato i set di dati.

La scorsa settimana il giudice distrettuale americano Ona Wang ordine condividere tutte le comunicazioni con gli avvocati interni riguardanti la cancellazione dei set di dati OpenAI, nonché “tutti i riferimenti interni a LibGen che OpenAI ha redatto o nascosto sotto il segreto professionale del cliente-avvocato”.

Secondo Wang, OpenAI ha commesso un errore sostenendo che il “non utilizzo” non era un “motivo” per eliminare i set di dati, sostenendo anche che dovrebbe essere considerato anche un “motivo” per quello che è considerato privilegio.

Collegamento alla fonte