Ma il nuovo benchmark mira a misurare meglio la capacità dei modelli di svolgere compiti legali nel mondo reale. benchmark della logica aziendalePubblicati da ScaleAI a novembre, i principali LLM sono stati valutati su compiti legali e finanziari progettati da professionisti del settore. Lo studio ha rilevato che esistono lacune significative nell’affidabilità dei modelli per l’adozione professionale, con il modello più performante che ha ottenuto solo il 37% sui problemi legali più difficili, il che significa che ha soddisfatto poco più di un terzo dei possibili punti sui criteri di valutazione. I modelli spesso prendevano decisioni legali errate e, se raggiungevano la conclusione corretta, lo facevano attraverso processi di ragionamento incompleti o opachi.

“Gli strumenti in realtà non sono pensati per sostituire radicalmente il tuo avvocato”, afferma Afra Feza Akyurek, autore principale dell’articolo. “Anche se molte persone pensano che un LLM abbia una buona conoscenza del diritto, è ancora in ritardo.”

Questo documento si basa su altri parametri di riferimento che misurano le prestazioni del modello su compiti economicamente importanti. Indice di produttività dell’intelligenza artificialeI dati, pubblicati dalla società Mercor a settembre e aggiornati a dicembre, hanno rilevato che il modello presenta “limitazioni sostanziali” nello svolgimento dei compiti legali. Il modello con le migliori prestazioni ha ottenuto il 77,9% nelle attività legali, il che significa che ha soddisfatto quasi quattro dei cinque criteri di valutazione. Una prima versione dello studio afferma che un modello con un punteggio simile potrebbe generare un valore economico sostanziale in alcuni settori, ma in aree in cui gli errori sono costosi potrebbe non essere affatto utile.

I benchmark professionali rappresentano un enorme passo avanti nella valutazione delle capacità reali degli LLM, ma potrebbero ancora non catturare ciò che effettivamente fanno gli avvocati. “Queste domande, sebbene più impegnative rispetto ai parametri di riferimento precedenti, non riflettono ancora pienamente il tipo di domande soggettive ed estremamente impegnative che gli avvocati affrontano nella vita reale”, afferma John Choi, professore di diritto presso la School of Law dell’Università di Washington. Studio Sul punto di riferimento legale nel 2023.

A differenza della matematica o della programmazione, in cui gli LLM hanno fatto progressi significativi, l’apprendimento del ragionamento giuridico per i modelli può essere impegnativo. Choi afferma che la legge affronta i problemi del mondo reale, pieni di ambiguità e soggettività, che spesso non hanno una risposta giusta. A peggiorare le cose, dice, molte azioni legali non vengono registrate in modo da poter essere utilizzate per addestrare i modelli. Quando ciò accade, i documenti possono occupare centinaia di pagine, sparsi tra statuti, regolamenti e casi giudiziari che esistono in una gerarchia complessa.

Ma una limitazione più fondamentale potrebbe essere che gli LLM non sono formati a pensare come avvocati. “I modelli logici non ragionano ancora pienamente sui problemi come facciamo noi esseri umani”, afferma Julian Nyarko, professore di diritto alla Stanford Law School. potrebbero mancare dei modelli modelli mentali La capacità di simulare il mondo – la capacità di simulare uno scenario e prevedere cosa accadrà – e questa capacità può essere al centro di un ragionamento legale complesso, dice. È possibile erogare formazione sull’attuale modello di LLM prevedere la parola successiva Ci porta solo così lontano.

Collegamento alla fonte