Home Notizia Syntax Hacking: i ricercatori scoprono la sintassi secondo cui l’intelligenza artificiale può...

Notizia

Syntax Hacking: i ricercatori scoprono la sintassi secondo cui l’intelligenza artificiale può aggirare le regole di sicurezza

2 Dicembre 2025

Recentemente ricercatori del MIT, della Northeastern University e del Mater pubblicazione Un articolo suggerisce che il modello linguistico di grandi dimensioni (LLM) che alimenta ChatGPT può talvolta dare priorità alla struttura della frase rispetto al significato quando si risponde alle domande. I risultati rivelano una debolezza nel modo in cui questi modelli elaborano le istruzioni che potrebbero far luce sul perché alcuni metodi di iniezione rapida o jailbreak funzionano, anche se i ricercatori avvertono che l’analisi di alcuni modelli di produzione rimane speculativa perché i dettagli dei dati di addestramento per importanti modelli di intelligenza artificiale commerciale non sono disponibili al pubblico.

Chantal Shaib e Vineeth M. Il team, guidato da Suryakumar, lo ha testato ponendo domande a modelli con schemi grammaticali conservati ma parole senza significato. Ad esempio, quando “Siediti velocemente, Parigi è nuvolosa?” (imitando la struttura di “Dove si trova Parigi?”), i modelli hanno comunque risposto “Francia”.

Ciò suggerisce che i modelli sfruttano sia modelli semantici che sintattici, ma possono fare eccessivo affidamento su scorciatoie strutturali quando sono fortemente correlati con domini specifici nei dati di addestramento, il che a volte consente ai modelli di sovrascrivere la comprensione semantica nei casi limite. Il team prevede di presentare questi risultati NeuriIPS Entro la fine del mese.

Come ripasso, la sintassi descrive la struttura della frase: come le parole sono disposte grammaticalmente e quali parti del discorso usano. La semantica descrive il significato reale delle parole, che può variare anche se la struttura grammaticale rimane la stessa.

La semantica dipende fortemente dal contesto e la navigazione nel contesto è ciò che fa funzionare LLM. Un input, il processo di trasformazione del tuo prompt in un output, una risposta LLM, coinvolge una complessa catena di modelli combinati con dati di training codificati.

Per indagare quando e come questa corrispondenza dei modelli potrebbe andare storta, i ricercatori hanno progettato un esperimento controllato. Ne fanno uno Set di dati sintetici Suggerimenti progettati con un modello grammaticale unico basato sullo schema della parte del discorso di ciascun soggetto. Ad esempio, le domande di geografia seguono un modello strutturale mentre le domande di lavoro creativo ne seguono un altro. Hanno quindi addestrato Allen AI Modello Olmo In questi dati è stato testato se i modelli possono distinguere tra sintassi e semantica.

Collegamento alla fonte

Syntax Hacking: i ricercatori scoprono la sintassi secondo cui l’intelligenza artificiale può aggirare le regole di sicurezza

Ultimo post

Il cambio EUR/CAD scende verso 1,5900 in vista dei dati sull’inflazione...

Melania Trump ha discusso dei bambini in conflitto durante la sessione...

Valutazioni dei giocatori Real Madrid-Getafe

Prezzo dell’argento oggi: cade il 3 marzo

Annuncio di nuovi piani e prezzi del torneo

Paura di un conflitto prolungato con l’Iran

Spiegazione delle competenze di Google Agent: gestisci il contesto AI con...

La coppia XAG/USD mantiene le perdite intorno agli 87,20 dollari nonostante...

Gli agenti dell’ICE e della polizia di frontiera affrontano indagini ufficiali

Sequestro di cocaina di Mad Monday Daine Laurie, Penrith indagato dall’Unità...

Gli Stati Uniti hanno speso 13 trilioni di IDR nel primo...

L’USD regge mentre si diffonde il caos in Medio Oriente

Categoria