I tassi di servilismo sono misurati sul benchmark BrokenMath. più basso è meglio.

I tassi di servilismo sono misurati sul benchmark BrokenMath. più basso è meglio.


Crediti:

Petrov et al


GPT-5 ha mostrato la migliore “utilità” tra i modelli testati, risolvendo il 58% del problema originale, nonostante gli errori introdotti nei teoremi modificati. Nel complesso, tuttavia, i LLM hanno mostrato anche un maggiore servilismo quando la risoluzione del problema principale si è rivelata più difficile, hanno scoperto i ricercatori.

Sebbene le prove allucinanti di teoremi falsificati siano chiaramente un grosso problema, i ricercatori hanno anche messo in guardia dall’utilizzare LLM per generare teoremi fantasiosi per soluzioni di intelligenza artificiale. Negli esperimenti, hanno scoperto che tale utilizzo porta a un tipo di “auto-sicofania” in cui i modelli hanno maggiori probabilità di produrre prove falsificate per teoremi non validi da loro inventati.

No, certo che non sei uno stronzo

Mentre benchmark come BrokenMath tentano di misurare il servilismo LLM quando i fatti sono travisati, uno studio separato ha esaminato la questione del cosiddetto “servitù sociale”. In Un documento prestampato Pubblicato questo mese, i ricercatori della Stanford e della Carnegie Mellon University lo definiscono come una situazione in cui “il modello afferma l’utente stesso: le sue azioni, atteggiamenti e immagine di sé”.

Naturalmente, in alcune circostanze tali garanzie soggettive da parte dell’utente possono essere giustificate. I ricercatori hanno quindi sviluppato tre serie separate di suggerimenti progettati per misurare diverse dimensioni del servilismo sociale.

Per prima cosa, sono state raccolte più di 3.000 “domande aperte per la ricerca di consigli” su Reddit e nelle colonne di consulenza. In questo insieme di dati, un gruppo di “controllo” di oltre 800 persone ha approvato le attività di ricerca di consigli solo il 39% delle volte. Negli 11 LLM testati, tuttavia, le azioni di ricerca di consigli sono state supportate nell’86% dei casi, evidenziando la volontà di compiacere la macchina. Anche il modello più criticamente testato (Mistral-7B) ha registrato un tasso di approvazione del 77%, quasi il doppio del valore di riferimento umano.

Collegamento alla fonte