Sviluppatori di Terminal-Bench, una suite di benchmarking per valutare le prestazioni di agenti IA autonomi su attività basate su terminali nel mondo reale. versione 2.0 accanto a te PortaUn nuovo framework per testare, sviluppare e ottimizzare gli agenti AI in ambienti containerizzati.
La doppia versione mira ad affrontare i punti critici di lunga data nel test e nell’ottimizzazione degli agenti AI creati appositamente per funzionare in modo autonomo in ambienti di sviluppo realistici.
Con un insieme di attività più difficili e rigorosamente convalidate, Terminal-Bench 2.0 sostituisce la versione 1.0 come standard per la valutazione delle capacità del modello edge.
Il suo framework runtime associato, Harbour, consente a sviluppatori e ricercatori di scalare le valutazioni su migliaia di contenitori cloud e si integra con agenti e pipeline di formazione sia open source che proprietari.
“Port è il pacchetto che vorremmo avere durante la costruzione di Terminal-Bench." ha scritto il co-creatore Alex Shaw in X. "Per sviluppatori e ricercatori di agenti, modelli e benchmark che desiderano valutare e migliorare agenti e modelli."
Barra più alta, dati più puliti
Terminal-Bench 1.0 ha ricevuto una rapida adozione dopo il suo rilascio. Uscirà a maggio 2025Sta diventando il punto di riferimento predefinito per valutare le prestazioni degli agenti nel campo degli agenti basati sull’intelligenza artificiale che operano in ambienti terminali in stile sviluppatore. Questi agenti interagiscono con i sistemi tramite la riga di comando, emulando il modo in cui l’interfaccia utente grafica degli sviluppatori funziona dietro le quinte.
Tuttavia, la sua ampia portata ha comportato incoerenze. Alcune missioni sono state identificate dalla community come scarsamente specificate o instabili a causa di modifiche esterne al servizio.
La versione 2.0 risolve direttamente questi problemi. Il pacchetto aggiornato include 89 attività, ciascuna soggetta a diverse ore di verifica manuale e supportata da LLM. L’accento è posto sul rendere i compiti risolvibili, realistici e chiaramente definiti, alzando il limite massimo di difficoltà e aumentando al contempo l’affidabilità e la ripetibilità.
Un esempio notevole è download-youtube Attività rimossa o rifattorizzata nella versione 2.0 a causa della sua dipendenza da API di terze parti instabili.
“I fan più astuti di Terminal-Bench potrebbero notare che le prestazioni di SOTA sono paragonabili a TB1.0, nonostante la nostra affermazione che TB2.0 sia più difficile”, ha affermato Shaw. notato Informazioni su X. “Crediamo che ciò sia dovuto al fatto che la qualità della missione è significativamente più elevata nel nuovo benchmark.”
Harbour: grandi implementazioni consolidate
Oltre all’aggiornamento del benchmark, il team ha anche lanciato: PortaUn nuovo framework per l’esecuzione e la valutazione degli agenti nei contenitori distribuiti nel cloud.
Harbour supporta infrastrutture di implementazione su larga scala con compatibilità con i principali fornitori come: Daytona E modale.
Progettato per essere generalizzato tra le architetture dei broker, Harbour supporta:
-
Valutazione di qualsiasi agente che può essere installato in un contenitore
-
Pipeline scalabili di fine tuning supervisionato (SFT) e di apprendimento per rinforzo (RL).
-
Creazione e distribuzione di benchmark personalizzati
-
Piena integrazione con Terminal-Bench 2.
Harbour è stato utilizzato internamente per gestire decine di migliaia di invii durante la creazione del nuovo benchmark. Ora è aperto al pubblico presso: harbourframework.cominsieme alla documentazione per testare i rappresentanti e inviarli alla classifica generale.
Primi risultati: GPT-5 porta al successo della missione
I primi risultati della classifica Terminal-Bench 2.0 mostrano che OpenAI Codex CLI (interfaccia a riga di comando), una variante con supporto GPT-5, è in testa con un tasso di successo del 49,6% (il tasso più alto di tutti gli agenti testati finora).
Subito dietro ci sono altre varianti GPT-5 e agenti basati su Claude Sonnet 4.5.
Primi 5 risultati dell’agente (Terminal-Bench 2.0):
-
Codice CLI (GPT-5) – 49,6%
-
CLI del Codice (Codice GPT-5) — 44,3%
-
OpenHands (GPT-5) – 43,8%
-
Terminale 2 (Codice GPT-5) — 43,4%
-
Capolinea 2 (Claude Sonetto 4.5) – 42,8%
Uno stretto raggruppamento tra i modelli di punta indica una competizione attiva tra le piattaforme, senza che nessun agente risolva più della metà dei compiti.
Spedizione e utilizzo
Per testare o fornire un agente, gli utenti installano Harbour ed eseguono il benchmark utilizzando semplici comandi CLI. Gli invii alla classifica richiedono cinque esecuzioni di benchmark e i risultati possono essere inviati via email agli sviluppatori insieme alle directory dei lavori per la verifica.
port run -d terminale-banco@2.0 -m "
Terminal-Bench 2.0 è attualmente integrato nei flussi di lavoro di ricerca incentrati sul ragionamento degli agenti, sulla generazione di codice e sull’utilizzo degli strumenti. Secondo il co-creatore Mike Merrill, ricercatore post-dottorato a Stanford, è in corso una prestampa dettagliata che copre il processo di convalida e la metodologia di progettazione alla base del benchmark.
Si mira alla standardizzazione
Il rilascio congiunto di Terminal-Bench 2.0 e Harbour segna un passo avanti verso un’infrastruttura di valutazione degli agenti più coerente e scalabile. Con la proliferazione dei rappresentanti LLM negli ambienti operativi e di sviluppo, è aumentata anche la necessità di test controllati e ripetibili.
Questi strumenti offrono una potenziale base per uno stack di benchmark unificato che supporta l’ottimizzazione del modello, la simulazione dell’ambiente e la standardizzazione dei benchmark nell’ecosistema AI.















