Un’impresa impressionante quella della startup giapponese Sakana AI agente di codifica ALE-Agente Recentemente ha vinto il primo posto nell’AtCoder Heuristic Contest (AHC058), una complessa competizione di codifica che coinvolge complessi problemi di ottimizzazione; Questa competizione è una sfida più difficile e forse significativa rispetto a benchmark come HumanEval, che mettono alla prova principalmente la capacità di scrivere funzioni isolate e che molti modelli e agenti di intelligenza artificiale ora superano regolarmente con facilità ("saturazione del benchmark").
Quello di Sakana Il successo con ALE-Agent indica uno spostamento verso agenti in grado di ottimizzarsi autonomamente per navigare e funzionare bene in sistemi complessi e dinamici come stack di software aziendali, flussi di lavoro e ambienti operativi.
L’agente ha utilizzato il time scaling dell’inferenza per generare, testare e iterare centinaia di soluzioni in quattro ore; risolvendo così un problema che spesso richiedeva una profonda intuizione e lunghi tentativi ed errori da parte di esperti umani. Ha sovraperformato più di 800 partecipanti umani, inclusi i migliori programmatori competitivi.
Come funziona ALE-Agent?
La sfida in AHC058 era un classico ottimizzazione combinatoria problema. I partecipanti avevano il compito di gestire un insieme di macchine con relazioni gerarchiche, come macchine che producono mele e altre macchine che compongono le macchine che producono mele. L’obiettivo era massimizzare la produzione su un numero fisso di turni.
Nel mondo aziendale, questo flusso di lavoro segue spesso un modello rigoroso: un esperto di dominio collabora con un cliente "funzione oggettiva" (aka Scorer) e poi gli ingegneri creano un sistema software per ottimizzarlo. Questi problemi sono notoriamente difficili perché non possono essere risolti in un unico passaggio. Richiedono esplorazione, strategia e capacità di cambiare direzione quando un piano non funziona.
Gli esperti umani in genere affrontano questo problema utilizzando una strategia in due fasi. Innanzitutto, a "avido" metodo per creare una buona soluzione base (un solvente leggero che costituisce la migliore scelta immediata in ogni passaggio). Si applicano più tardi "ricottura simulata," una tecnica che prende il piano attuale e apporta piccoli aggiustamenti casuali per vedere se il punteggio migliora. Tuttavia, questo approccio standard è rigido. Se il piano Greedy iniziale va nella direzione sbagliata, la ricottura simulata raramente può risolverlo perché cerca solo miglioramenti locali in un’area difettosa dello spazio della soluzione.
L’innovazione di ALE-Agent è stata quella di trasformare questo strumento di inizializzazione statico in un motore di ricostruzione dinamica. Invece di fare affidamento sul valore immediato, coniò un concetto che chiamò indipendenza dell’agente. "Potere virtuale." Assegnava valore a componenti che non erano ancora operativi e li trattava come se avessero già valore. Valutando le potenziali attività future anziché solo le attività correnti, l’agenzia "effetto dell’interesse composto," un concetto ben definito registri interni. In sostanza, invece di guardare al feedback immediato che riceve dal suo ambiente, può guardare qualche passo avanti e ragionare sul futuro.
La cosa più importante è che l’agente doveva mantenere questa strategia senza perdere la concentrazione per un periodo di quattro ore; Questa è una modalità di errore comune nota come “deriva del contesto”. Nei commenti inviati a VentureBeat, il team AI di Sakana ha spiegato che il suo strumento genera testo. "opinioni" Riflettendo su ogni prova. Cattura queste informazioni per evitare di ricadere su strategie precedentemente fallite, creando una memoria di lavoro che gli consente di guardare avanti diversi passi anziché limitarsi a reagire al feedback immediato.
Inoltre, lo strumento ha integrato i metodi Greedy direttamente nella fase di ricottura simulata per evitare di rimanere bloccati nell’ottimale locale, utilizzando la ricostruzione ad alta velocità per eliminare e ricostruire istantaneamente ampie porzioni della soluzione.
Dalla codifica all’ottimizzazione aziendale
Questo sviluppo rivoluzionario si inserisce direttamente nei flussi di lavoro aziendali esistenti in cui la funzionalità di punteggio è già disponibile. Attualmente, le aziende si affidano a scarsi talenti ingegneristici per scrivere algoritmi di ottimizzazione. ALE-Agent mostra un futuro definito dalle persone "Marcatore" (ovvero logica aziendale e obiettivi) e il delegato gestisce l’implementazione tecnica.
Ciò sposta il collo di bottiglia operativo dalla capacità ingegneristica alla vulnerabilità metrica. Se un’organizzazione può misurare un obiettivo, lo strumento può ottimizzarlo. Ciò ha applicazioni dirette nella logistica, come il routing dei veicoli, il bilanciamento del carico dei server e l’allocazione delle risorse.
Secondo il team AI di Sakana, ciò potrebbe democratizzare l’ottimizzazione. "Permette un futuro in cui i clienti non tecnici possono interagire direttamente con l’agente modificando i vincoli lavorativi in tempo reale finché non ottengono l’output desiderato." hanno detto.
Il team AI di Sakana ha dichiarato a VentureBeat che ALE-Agent è attualmente proprietario e non disponibile per l’uso pubblico, e che la società si sta attualmente concentrando sullo sviluppo interno e sulle collaborazioni di prova con le aziende.
Allo stesso tempo, la squadra guarda già avanti. "riscrivi te stesso" agenti. Questi agenti del futuro potrebbero definire i propri valutatori, rendendoli adatti a problemi mal definiti in cui gli esperti umani faticano a formulare parametri iniziali chiari.
Costo dell’intelligence
Gestire ALE-Agent non era economico. L’operazione di quattro ore ha comportato circa 1.300 dollari in costi di elaborazione, che includevano più di 4.000 chiamate di giudizio su modelli come quello seguente. GPT-5.2 E Gemelli 3 Pro. Sebbene questo prezzo possa sembrare elevato per una singola attività di codifica, il ritorno sull’investimento per i problemi di ottimizzazione è spesso asimmetrico. In un ambiente di gestione delle risorse, un costo una tantum di poche migliaia di dollari può comportare milioni di dollari di risparmi annuali sulla produttività.
Tuttavia, le aziende che prevedono una riduzione dei costi potrebbero non cogliere il quadro strategico. Man mano che il costo dei token diminuisce, la spesa totale potrebbe aumentare poiché le aziende competono per risposte migliori. Il paradosso di Jevons.
"Sebbene algoritmi più intelligenti aumenteranno l’efficienza, il valore fondamentale dell’intelligenza artificiale è la sua capacità di esplorare ampi spazi di soluzioni." questi risultati. "Man mano che i costi di estrazione diminuiscono, le aziende probabilmente sceglieranno di trarre vantaggio da questa convenienza per condurre ricerche più approfondite e più ampie per trovare soluzioni superiori, piuttosto che limitarsi a incassare i risparmi."
L’esperimento evidenzia l’enorme valore ancora in attesa di essere scoperto con le tecniche di scala temporale dell’inferenza. Man mano che i sistemi di intelligenza artificiale acquisiscono la capacità di eseguire compiti di ragionamento complessi in contesti più lunghi, creano impalcature migliori e assegnano budget più ampi. "tempo per pensare" consente agli agenti di competere con i migliori esperti umani.















