Poiché i LLM continuano ad evolversi, nel settore si è discusso della continua necessità di strumenti indipendenti di etichettatura dei dati, poiché i LLM possono lavorare sempre più con tutti i tipi di dati. Segnale umano, Il principale fornitore commerciale dietro il programma open source Label Studio ha una visione diversa. Invece di vedere una minore domanda di etichettatura dei dati, l’azienda ne sta vedendo di più.

All’inizio di questo mese, HumanSignal ha acquisito Erud AI e ha lanciato i Frontier Data Labs fisici per la raccolta di nuovi dati. Ma creare dati è solo metà del lavoro. Oggi l’azienda sta affrontando il passo successivo: dimostrare che i sistemi di intelligenza artificiale addestrati su questi dati funzionano davvero. Le nuove funzionalità di valutazione degli agenti multimodali consentono alle organizzazioni di convalidare agenti IA complessi che producono applicazioni, immagini, codice e video.

"Se ci si concentra sui segmenti aziendali, tutte le soluzioni di intelligenza artificiale che stanno sviluppando devono ancora essere valutate; questo è solo un altro nome per l’etichettatura dei dati da parte di esseri umani o anche di esperti." Il co-fondatore e CEO di HumanSignal Michael Malyuk ha detto a VentureBeat in un’intervista esclusiva.

L’intersezione tra l’etichettatura dei dati e la valutazione dell’intelligenza artificiale dell’agenzia

Disporre di dati accurati è fantastico, ma non è l’obiettivo finale di un’azienda. La valutazione è la direzione verso cui sta andando la moderna codifica dei dati.

Si tratta di un cambiamento fondamentale in ciò che le aziende devono verificare: non se i loro modelli classificano correttamente un’immagine, ma se gli agenti di intelligenza artificiale prendono buone decisioni in un compito complesso in più fasi che implica giudizio, utilizzo di strumenti e generazione di codice.

Se la valutazione è semplicemente l’etichettatura dei dati per i risultati dell’intelligenza artificiale, il passaggio dai modelli agli agenti rappresenta un cambiamento radicale in ciò che dovrebbe essere etichettato. Mentre il tradizionale tagging dei dati potrebbe implicare la marcatura di immagini o la categorizzazione del testo, la valutazione dell’agente richiede la valutazione di catene di ragionamento in più fasi, decisioni di selezione degli strumenti e risultati multimodali in un’unica interazione.

"Ora c’è un bisogno molto forte non solo di persone nel ciclo, ma anche di esperti del ciclo." Malyuk ha detto. Ha citato applicazioni ad alto rischio come l’assistenza sanitaria e la consulenza legale come esempi in cui il costo degli errori rimane proibitivo.

La connessione tra l’etichettatura dei dati e la valutazione dell’intelligenza artificiale è più profonda della semantica. Entrambe le attività richiedono le stesse abilità di base:

  • Interfacce strutturate per il ragionamento umano: Sia che i revisori etichettino le immagini per i dati di training o valutino se un agente sta modificando correttamente più agenti, hanno bisogno di interfacce appositamente progettate per acquisire sistematicamente le loro revisioni.

  • Consenso multi-revisore: i set di dati di addestramento di alta qualità richiedono più tagger che riconcilino i disaccordi. Una valutazione di alta qualità richiede la stessa cosa; Diversi esperti valutano i risultati e risolvono le differenze di giudizio.

  • Ampia competenza nel settore: La formazione dei moderni sistemi di intelligenza artificiale richiede esperti in materia, non solo folle di lavoratori che fanno clic sui pulsanti. La valutazione dei risultati dell’intelligenza artificiale nel settore manifatturiero richiede la stessa profondità di competenza.

  • Circuiti di feedback ai sistemi di intelligenza artificiale: I dati di training etichettati alimentano lo sviluppo del modello. I dati di valutazione alimentano il miglioramento continuo, la messa a punto e il benchmarking.

Valutazione del follow-up rappresentativo completo

La sfida nella valutazione degli agenti non è solo il volume dei dati, ma anche la complessità di ciò che deve essere valutato. Gli agenti non producono un semplice output di testo; Creano catene di ragionamento, scelgono gli strumenti e producono opere con vari metodi.

Le nuove funzionalità di Label Studio Enterprise soddisfano i requisiti di convalida del broker:

  • Controllo della traccia multimodale: La piattaforma fornisce interfacce unificate per esaminare tutte le tracce di esecuzione dell’agente (passaggi di ragionamento, chiamate dell’agente e output intermodali). Ciò risolve un problema comune in cui i team devono analizzare flussi di log separati.

  • Valutazione interattiva a più round: I valutatori valutano i flussi di conversazione in cui gli agenti mantengono lo stato attraverso più turni, verificando il tracciamento del contesto e l’interpretazione dell’intento durante tutta la sequenza di interazione.

  • Agente Arena: framework di riferimento per testare diverse configurazioni di agenti (modelli base, modelli di prompt, implementazioni guardrail) nelle stesse condizioni.

  • Rubriche di valutazione flessibili: anziché utilizzare metriche predefinite, i team definiscono in modo programmatico criteri di valutazione specifici del dominio e supportano requisiti come l’accuratezza della comprensione, la pertinenza della risposta o la qualità dell’output per casi d’uso specifici.

La valutazione degli agenti è un nuovo campo di battaglia per i fornitori di etichettatura dei dati

HumanSignal non è il solo a riconoscere che la valutazione degli agenti rappresenta la fase successiva del mercato dell’etichettatura dei dati. Mentre il settore risponde sia ai cambiamenti tecnologici che alle perturbazioni del mercato, i concorrenti stanno adottando strategie simili.

scatola delle etichette Nell’agosto 2025 ha lanciato Assessment Studio, che si concentra sulle valutazioni basate su rubriche. Come HumanSignal, l’azienda si sta espandendo oltre il tradizionale tagging dei dati verso la verifica dell’intelligenza artificiale in produzione.

Il panorama competitivo complessivo per l’etichettatura dei dati è cambiato in modo significativo a giugno, quando Meta ha investito 14,3 miliardi di dollari per una partecipazione del 49% in Scale AI, il precedente leader del mercato. L’accordo ha innescato un esodo di alcuni dei maggiori clienti di Scale. HumanSignal ha beneficiato di questa interruzione e Malyuk ha affermato che la sua azienda è stata in grado di vincere numerosi accordi competitivi lo scorso trimestre. Sebbene i concorrenti facciano affermazioni simili, Malyuk cita la maturità della piattaforma, la flessibilità di configurazione e l’assistenza clienti come elementi di differenziazione.

Cosa significa questo per gli sviluppatori di intelligenza artificiale?

Per le organizzazioni che realizzano sistemi di intelligenza artificiale di produzione, la convergenza del tagging dei dati e dell’infrastruttura di valutazione ha diverse implicazioni strategiche:

Inizia con la verità fondamentale. Investire nella creazione di set di dati etichettati di alta qualità con più revisori esperti che risolvono i disaccordi ripaga durante tutto il ciclo di vita dello sviluppo dell’intelligenza artificiale, dalla formazione iniziale al miglioramento continuo della produzione.

L’osservabilità è necessaria ma insufficiente. Sebbene rimanga importante monitorare ciò che stanno facendo i sistemi di intelligenza artificiale, gli strumenti di osservabilità misurano l’efficacia, non la qualità. Le aziende necessitano di un’infrastruttura di valutazione dedicata per valutare i risultati e promuovere il miglioramento. Si tratta di problemi diversi che richiedono competenze diverse.

L’infrastruttura dei dati di formazione può essere utilizzata anche come infrastruttura di valutazione. Le organizzazioni che investono in piattaforme di tagging dei dati per lo sviluppo di modelli possono estendere la stessa infrastruttura alla valutazione della produzione. Questi non sono problemi separati che richiedono strumenti separati; È lo stesso flusso di lavoro di base applicato nelle diverse fasi del ciclo di vita.

Per le organizzazioni che implementano l’intelligenza artificiale su larga scala, il collo di bottiglia si è spostato dalla creazione di modelli alla loro convalida. Le organizzazioni che riconoscono precocemente questo cambiamento ottengono vantaggi nei sistemi di intelligenza artificiale per la produzione dei trasporti.

La domanda cruciale per le aziende si è evoluta: non se i sistemi di intelligenza artificiale siano sufficientemente complessi, ma se le organizzazioni possono dimostrare sistematicamente di soddisfare i requisiti di qualità di determinate aree ad alto rischio.

Collegamento alla fonte