La prossima volta che incontri una risposta insolitamente cortese sui social media, potresti voler ricontrollare. Potrebbe essere un modello di intelligenza artificiale che tenta (e fallisce) di mimetizzarsi tra la folla.

Mercoledì interverranno ricercatori dell’Università di Zurigo, dell’Università di Amsterdam, della Duke University e della New York University liberazione Uno studio rivela che i modelli di intelligenza artificiale sono facilmente distinguibili dagli esseri umani nelle conversazioni sui social media, con un tono emotivo eccessivamente amichevole che funge da dono più persistente. Lo studio, che ha testato nove modelli a peso aperto su Twitter/X, Bluesky e Reddit, ha scoperto che i classificatori sviluppati dai ricercatori hanno identificato le risposte generate dall’intelligenza artificiale con una precisione del 70-80%.

Gli autori presentano lo studio, noto come “test computazionale di Turing”, per valutare quanto i modelli di intelligenza artificiale si avvicinano al linguaggio umano. Invece di fare affidamento sul giudizio umano soggettivo sull’autenticità del testo, il framework utilizza la classificazione automatica e l’analisi linguistica per identificare caratteristiche specifiche che lo distinguono dal contenuto generato dalla macchina.

“Anche dopo la calibrazione, i risultati del LLM sono chiaramente distinguibili dal testo umano, soprattutto nel tono emotivo e nell’espressione emotiva”, hanno scritto i ricercatori. Il team, guidato da Nicolò Pagan dell’Università di Zurigo, ha testato varie tecniche di ottimizzazione, dal semplice suggerimento alla messa a punto, ma ha scoperto che i segnali emotivi più profondi persistevano in modo affidabile come se una particolare interazione testuale online fosse composta da un chatbot AI piuttosto che da un essere umano.

chiamata tossicità

Nello studio, i ricercatori hanno testato nove principali modelli linguistici: Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4SD-B-Instruct, Deep-8B e Apartus-8B-2509.

Quando è stato chiesto di generare risposte a post reali sui social media da parte di utenti reali, i modelli di intelligenza artificiale hanno faticato a eguagliare i livelli di negatività casuale e di espressione emotiva spontanea tipici dei post umani sui social media, con punteggi di tossicità costantemente inferiori rispetto alle risposte umane autentiche su tutte e tre le piattaforme.

Per ovviare a questa lacuna, i ricercatori hanno provato tecniche di ottimizzazione (tra cui l’esemplificazione della scrittura e il recupero del contesto) che riducevano le differenze strutturali come la lunghezza delle frasi o il conteggio delle parole, ma mantenevano la variazione del tono emotivo. “I nostri estesi esperimenti di calibrazione mettono in discussione l’idea che ottimizzazioni più sofisticate producano necessariamente risultati più simili a quelli umani”, concludono i ricercatori.

Collegamento alla fonte