In superficie, sembra ovvio che l’addestramento di un LLM con dati di “alta qualità” porterà a prestazioni migliori rispetto all’alimentazione con la stessa vecchia spazzatura di “bassa qualità” che trovi. Ora, un gruppo di ricercatori sta cercando di misurare quanto questi dati di bassa qualità possano influenzare i LLM come il “marciume cerebrale” negli esseri umani.
per Un documento prestampato pubblicato questo meseI ricercatori della Texas A&M, dell’Università del Texas e della Purdue University si sono ispirati a ricerche esistenti che mostrano come le persone che consumano “grandi quantità di contenuti online banali e stimolanti” possono sviluppare problemi di attenzione, memoria e cognizione sociale. Li chiama “Ipotesi LLM Brain Rot”, riassumendo l’idea che “il pre-addestramento persistente nel testo web spazzatura induce un declino cognitivo cronico nei LLM”.
Capire cosa conta come “testo web spazzatura” e cosa conta come “contenuto di qualità” è certamente tutt’altro che un processo facile o del tutto obiettivo. Ma i ricercatori hanno utilizzato alcuni parametri diversi per individuare un “set di dati spazzatura” e un “set di dati di controllo”. La raccolta di 100 milioni di tweet di HuggingFace.
Poiché il decadimento del cervello umano è “una conseguenza della dipendenza da Internet”, hanno scritto, i tweet spazzatura dovrebbero essere “quelli che aumentano il coinvolgimento degli utenti in modo non banale”. Pertanto, i ricercatori hanno creato un set di dati “spazzatura” raccogliendo tweet con numeri di coinvolgimento elevati (Mi piace, retweet, risposte e citazioni) e di breve durata, presupponendo che “tweet più popolari ma più brevi sarebbero considerati dati spazzatura”.
Per la seconda metrica “spazzatura”, i ricercatori hanno attinto alle ricerche di mercato per definire la “qualità semantica” dei tweet. Utilizzando un complesso prompt GPT-4o, hanno cercato di estrarre tweet incentrati su “argomenti (come teorie del complotto, affermazioni esagerate, affermazioni non supportate o contenuti superficiali sullo stile di vita)” o “uno stile che attira l’attenzione (come l’uso di un linguaggio clickbait o parole trigger eccessive utilizzando titoli sensazionali)”. Un campione casuale di queste classificazioni basate su LLM è stato controllato a campione rispetto alle valutazioni di tre studenti laureati con un tasso di corrispondenza del 76%.















