Home Politica Gli agenti IA falliscono compiti complessi il 63% delle volte. Patronus AI...

Politica

Gli agenti IA falliscono compiti complessi il 63% delle volte. Patronus AI afferma che nuovi mondi di apprendimento “vivi” potrebbero risolvere questo problema.

17 Dicembre 2025

Patrono A.I.Iniziativa di valutazione dell’intelligenza artificiale supportata da 20 milioni di dollari compresi gli investitori Partner di venture lightspeed E DatadogMartedì ha presentato una nuova architettura di formazione che, secondo lui, rappresenta un cambiamento fondamentale nel modo in cui gli agenti di intelligenza artificiale imparano a svolgere compiti complessi.

La tecnologia richiesta dall’azienda "Simulatori produttivi," Crea ambienti di simulazione adattivi che pongono costantemente nuove sfide, aggiornano dinamicamente le regole e valutano le prestazioni di un agente mentre apprende; Inoltre, fa tutto questo in tempo reale. Questo approccio segna un allontanamento dai benchmark statici, che sono serviti a lungo come standard di settore per misurare le capacità dell’intelligenza artificiale, ma sono stati sempre più criticati per non essere riusciti a prevedere le prestazioni del mondo reale.

"I benchmark tradizionali misurano le capacità isolate ma non tengono conto delle interruzioni, dei cambiamenti di contesto e del processo decisionale stratificato che definiscono il lavoro reale." Anand Kannappan, CEO e co-fondatore di Patronus AI, ha dichiarato in un’intervista esclusiva con VentureBeat. "Affinché gli agenti possano agire a livello umano, devono imparare come si comportano gli esseri umani attraverso un’esperienza dinamica e un feedback costante."

L’annuncio arriva in un momento critico per il settore dell’intelligenza artificiale. Gli agenti IA stanno rimodellando lo sviluppo del software, dalla scrittura del codice all’esecuzione di istruzioni complesse. Tuttavia, gli agenti basati su LLM sono soggetti a errori e spesso hanno prestazioni scadenti in attività complesse in più fasi. Una ricerca pubblicata all’inizio di quest’anno ha scoperto che solo un agente Tasso di errore dell’1% per passaggio Può aumentare la probabilità di fallimento al centesimo passaggio fino al 63%; Questa è una statistica che fa riflettere per le organizzazioni che desiderano implementare sistemi di intelligenza artificiale autonomi su larga scala.

Perché i benchmark statici dell’IA falliscono e cosa succede dopo?

L’approccio di Patronus AI affronta ciò che l’azienda descrive come una crescente discrepanza tra il modo in cui vengono valutati i sistemi di intelligenza artificiale e il modo in cui effettivamente si comportano in produzione. L’azienda sostiene che i benchmark tradizionali funzionano come test standardizzati: misurano competenze specifiche in un momento prestabilito, ma faticano a catturare la natura complessa e imprevedibile del lavoro reale.

Nuovo Simulatori produttivi l’architettura inverte questo modello. Invece di presentare agli agenti una serie fissa di domande, il sistema genera in tempo reale assegnazioni, condizioni ambientali e processi di supervisione e quindi si adatta in base al comportamento dell’agente.

"Nell’ultimo anno abbiamo assistito a uno spostamento dai tradizionali parametri di riferimento statici verso spazi di apprendimento più interattivi." Rebecca Qian, responsabile della tecnologia e co-fondatrice di Patronus AI, ha dichiarato a VentureBeat: "Ciò è in parte dovuto alle innovazioni che stiamo vedendo da parte degli sviluppatori di modelli: il passaggio all’apprendimento per rinforzo, al post-addestramento e all’apprendimento continuo, e l’abbandono della messa a punto delle istruzioni supervisionate. Ciò significa che c’è una rottura nella distinzione tra formazione e valutazione. I confronti sono diventati la norma."

La tecnologia si basa sull’apprendimento per rinforzo, un approccio in cui i sistemi di intelligenza artificiale apprendono attraverso prove ed errori, ricevendo ricompense per le azioni corrette e penalità per gli errori. L’apprendimento per rinforzo è un approccio in cui i sistemi di intelligenza artificiale imparano a prendere decisioni ottimali migliorando attraverso prove ed errori ricevendo ricompense o punizioni per le loro azioni. RL può aiutare gli agenti a migliorare, ma spesso richiede agli sviluppatori di riscrivere ampiamente il loro codice. Sebbene i dati generati da questi agenti possano migliorare significativamente le prestazioni attraverso la formazione RL, ciò scoraggia l’adozione.

Patronus AI ha anche introdotto un nuovo concetto. "Aprire Sviluppo personale ricorsivo," o ORSI: ambienti in cui i rappresentanti possono migliorare continuamente attraverso l’interazione e il feedback senza richiedere un ciclo completo di riqualificazione tra i tentativi. L’azienda la sta posizionando come un’infrastruttura critica per lo sviluppo di sistemi di intelligenza artificiale in grado di apprendere continuamente anziché bloccarsi in un momento specifico.

All’interno della “Zona Riccioli d’Oro”: come l’addestramento adattivo dell’IA trova il suo punto debole

nel tuo cuore Simulatori produttivi La bugia invocata da Patronus AI "aggiustatore del curriculum" — Un componente che analizza il comportamento degli agenti e modifica dinamicamente la difficoltà e la natura degli scenari di addestramento. L’approccio si ispira all’efficacia con cui gli insegnanti umani adattano il loro insegnamento in base alle prestazioni degli studenti.

Qian ha spiegato l’approccio utilizzando un’analogia: "Puoi considerarlo come un modello insegnante-studente, in cui noi formiamo il modello e il professore adatta continuamente il curriculum."

Questo approccio adattivo affronta un problema che Kannappan descrive come trovare la soluzione giusta. "Zona Riccioli d’Oro" nei dati di addestramento – garantendo che gli esempi non siano né troppo facili né troppo difficili per poter apprendere in modo efficace un particolare modello.

"Ciò che conta non è solo se puoi eseguire l’addestramento su un set di dati, ma anche se puoi eseguire l’addestramento su un set di dati di alta qualità ottimizzato per il tuo modello." Kannappan ha detto. "Vogliamo assicurarci che gli esempi non siano troppo difficili o troppo facili per il modello."

L’azienda afferma che i risultati iniziali mostrano miglioramenti significativi nelle prestazioni degli agenti. Secondo l’azienda, la formazione sugli ambienti AI Patronus ha aumentato i tassi di completamento delle attività dal 10% al 20% nelle attività del mondo reale, tra cui ingegneria del software, servizio clienti e analisi finanziaria.

Problema di imbroglio dell’IA: in che modo gli ambienti con “bersagli mobili” impediscono l’hacking di taglie

Una delle sfide più persistenti nella formazione degli agenti IA attraverso l’apprendimento per rinforzo è un fenomeno che i ricercatori chiamano "hacking di taglie"– dove i sistemi imparano a sfruttare le lacune negli ambienti educativi piuttosto che a risolvere effettivamente i problemi. Esempi famosi includono i primi agenti che impararono a nascondersi negli angoli invece di giocare ai videogiochi.

I simulatori generativi risolvono questo problema rendendo l’ambiente di allenamento stesso un bersaglio in movimento.

"L’hacking di taglie è principalmente un problema quando i sistemi sono statici. Proprio come gli studenti imparano a imbrogliare durante un esame," Ha detto Qian. "Ma mentre miglioriamo continuamente l’ambiente, possiamo effettivamente guardare alle parti del sistema che devono adattarsi ed evolversi. I benchmark statici sono obiettivi fissi; gli ambienti di simulazione produttivi sono obiettivi mobili."

Patronus AI registra una crescita dei ricavi di 15 volte man mano che cresce la domanda di formazione per gli agenti aziendali

Patronus AI posiziona i simulatori produttivi come base di una nuova linea di prodotti "Ambienti RL" – laboratori modello base per ambiti specifici e aree formative rivolte alle imprese delle agenzie di costruzione. L’azienda afferma che questa offerta rappresenta un’espansione strategica oltre il focus iniziale sugli strumenti di valutazione.

"Quest’anno abbiamo aumentato le nostre entrate di 15 volte; Gran parte di ciò è dovuto agli ambienti di alta qualità che abbiamo sviluppato, che hanno dimostrato di essere altamente apprendibili da modelli leader di diverso tipo." Kannappan ha detto.

L’amministratore delegato ha rifiutato di specificare i dati assoluti sui ricavi, ma ha affermato che il nuovo prodotto consente all’azienda di: "Salire di livello in termini di dove vendiamo e a chi vendiamo." La piattaforma dell’azienda è utilizzata da numerose organizzazioni Fortune 500 e dalle principali società di intelligenza artificiale in tutto il mondo.

Perché OpenAI, Anthropic e Google non possono costruire tutto internamente?

Una questione centrale affrontata Patrono A.I. Ecco perché ricchi laboratori stanno sviluppando modelli di frontiera; organizzazioni OpenAI, antropicoE Google DeepMind – Concederanno in licenza l’infrastruttura educativa invece di costruirla da soli.

Kannappan queste aziende "Facciamo investimenti significativi nell’ambiente" ma ha sostenuto che l’ampiezza delle aree che richiedono una formazione specializzata crea un’apertura naturale per i fornitori terzi.

"Vogliono sviluppare agenti in molte aree diverse; Che si tratti di codifica, utilizzo di strumenti, navigazione nei browser o flussi di lavoro nel settore finanziario, sanitario, energetico e dell’istruzione," ha detto. "Risolvere tutti questi diversi problemi operativi è molto difficile per una singola azienda."

Il contesto competitivo si sta intensificando. Microsoft ha recentemente lanciato Agente YıldırımSi tratta di un framework open source che consente all’apprendimento per rinforzo di funzionare per qualsiasi agente di intelligenza artificiale senza la necessità di riscrivere. Di NVIDIA Palestra NeMo Offre un’infrastruttura RL modulare per sviluppare sistemi di intelligenza artificiale dell’agenzia. I ricercatori di Meta hanno rilasciato DreamGym a novembre, un framework che simula gli ambienti RL e regola dinamicamente la difficoltà delle attività man mano che gli agenti si evolvono.

“Gli ambienti sono il nuovo petrolio”: la scommessa coraggiosa di Patronus AI sul futuro dell’educazione all’intelligenza artificiale

Guardando al futuro, Patronus AI inquadra la propria missione in termini globali. L’azienda vuole "verdi tutti i dati del mondo" — trasformare i flussi di lavoro umani in sistemi strutturati che l’intelligenza artificiale può apprendere.

"Pensiamo che tutto dovrebbe essere un ambiente; Scherziamo internamente dicendo che l’ambiente è il nuovo petrolio." Kannappan ha detto. "L’apprendimento per rinforzo è solo un metodo di formazione, ma ciò che conta davvero è la struttura dell’ambiente."

Qian ha descritto l’opportunità in modo esauriente: "Questa è un’area di ricerca completamente nuova e non accade tutti i giorni. La simulazione generativa si ispira alle prime ricerche sulla robotica e sugli agenti incarnati. Questo è stato un sogno irrealizzabile per decenni e, grazie alle capacità dei modelli odierni, solo ora siamo in grado di realizzare queste idee."

L’azienda ha iniziato a concentrarsi sulla valutazione nel settembre 2023, aiutando le organizzazioni a identificare allucinazioni e problemi di sicurezza negli output dell’intelligenza artificiale. Questa missione si è ora estesa a monte dell’istruzione stessa. Patronus AI sostiene che la tradizionale distinzione tra valutazione e formazione sta crollando e chiunque controlli gli ambienti in cui gli agenti di intelligenza artificiale apprendono modellerà le loro capacità.

"Siamo davvero a questo punto critico, a questa svolta; Ciò che facciamo ora influenzerà l’aspetto del mondo per le generazioni a venire." Ha detto Qian.

uno dei due Simulatori produttivi Il tempo dirà se riuscirà a mantenere questa promessa. La crescita di 15 volte dei ricavi dell’azienda dimostra che i clienti aziendali sono affamati di soluzioni, ma ci sono anche attori dalle tasche profonde. Microsoft con Meta sono in competizione per risolvere lo stesso problema fondamentale. Se gli ultimi due anni hanno insegnato qualcosa al settore, è che il futuro dell’intelligenza artificiale ha l’abitudine di arrivare prima del previsto.

Collegamento alla fonte

Gli agenti IA falliscono compiti complessi il 63% delle volte. Patronus AI afferma che nuovi mondi di apprendimento “vivi” potrebbero risolvere questo problema.

Perché i benchmark statici dell’IA falliscono e cosa succede dopo?

All’interno della “Zona Riccioli d’Oro”: come l’addestramento adattivo dell’IA trova il suo punto debole

Problema di imbroglio dell’IA: in che modo gli ambienti con “bersagli mobili” impediscono l’hacking di taglie

Patronus AI registra una crescita dei ricavi di 15 volte man mano che cresce la domanda di formazione per gli agenti aziendali

Perché OpenAI, Anthropic e Google non possono costruire tutto internamente?

“Gli ambienti sono il nuovo petrolio”: la scommessa coraggiosa di Patronus AI sul futuro dell’educazione all’intelligenza artificiale

Ultimo post

Dal dolore al sostegno: l’Office of Survivor Care di Durham sta...

AFC Women’s Asian Cup 2026: l’India F si ritira dopo la...

Il dollaro canadese rimane stabile poiché il calo del petrolio compensa...

L’allenatore degli Heat Erik Spoelstra ha difeso la decisione di Bam...

L’Iran, fiducioso che la Turchia non lancerà mai un missile su...

Il cambio NZD/USD resta sotto quota 0,5950 a causa della maggiore...

Potenziale preoccupazione per gli attacchi delle cellule dormienti: ex jihadisti

La luce di Pedri in una notte buia

Il dollaro australiano sale sulle crescenti scommesse sull’aumento del tasso di...

Trump ha risposto all’avanzata di Clayton Fuller dopo le elezioni speciali...

Sánchez suggerisce che di fronte alla guerra verranno adottate misure socioeconomiche...

La coppia XAG/USD si mantiene intorno agli 89,00 dollari e attende...

Categoria