Nel contesto della spinta verso gli agenti IA, Anthropic è più che pronta a mostrare i suoi più audaci esperimenti di codifica IA, con Anthropic e OpenAI che distribuiscono strumenti multi-agente questa settimana. Ma come al solito con le affermazioni sui risultati legati all’intelligenza artificiale, troverai alcuni avvertimenti chiave in anticipo.
Lo ha detto giovedì l’antropologo Nicholas Carlini Viene pubblicato un post sul blog Descrive come ha configurato 16 istanze del modello AI Claude Opus 4.6 dell’azienda su una base di codice condivisa con una supervisione minima, incaricandole di creare un compilatore C da zero.
Nel corso di due settimane e quasi 2.000 sessioni di codice cloud per un costo di circa 20.000 dollari in tariffe API, AI Model Agents avrebbe creato un compilatore basato su Rust da 100.000 righe in grado di generare un kernel Linux 6.9 avviabile su x86, ARM e RISC-Varchite.
Carlini, uno scienziato ricercatore del team Safeguards di Anthropic che in precedenza ha trascorso sette anni presso Google Brain e DeepMind, ha utilizzato una nuova funzionalità introdotta con Claude Opus 4.6 “squadra di agenti“In pratica, ogni istanza Cloud viene eseguita all’interno del proprio contenitore Docker, clona un repository Git condiviso, scrive file di lock e rivendica il lavoro, quindi spinge l’intero codice a monte. Un agente di orchestrazione dirige il traffico. Ogni istanza identifica in modo indipendente il problema su cui sembra più ovvio lavorare e inizia a risolverlo. Quando sorgono conflitti di unione, le istanze del modello AI si risolvono da sole. facendo
Il risultato è il compilatore, che ha Anthropic Rilasciato su GitHubPuò compilare una serie di importanti progetti open source, tra cui PostgreSQL, SQLite, Redis, FFmpeg e QEMU. Ha ottenuto un tasso di superamento del 99% nella suite di test di tortura del GCC e ha compilato ed eseguito quello che Carlini definisce “la cartina di tornasole definitiva per gli sviluppatori”. destino.
Vale la pena notare che un compilatore C è un compito quasi ideale per codificare modelli di intelligenza artificiale semi-autonomi: le specifiche sono vecchie di decenni e ben definite, esiste già una suite di test completa e un compilatore di riferimento noto con cui eseguire i test. La maggior parte dei progetti software reali non presenta nessuno di questi vantaggi. La parte difficile della maggior parte dello sviluppo non è scrivere codice che superi i test; Si tratta innanzitutto di capire quale dovrebbe essere il test.















