Martedì la startup francese di intelligenza artificiale Mistral AI liberazione DevStral 2, un modello di codifica a peso aperto da 123 miliardi di parametri progettato per agire come parte di un agente di ingegneria del software autonomo. Il modello ha ottenuto un punteggio del 72,2%. Verificato dal banco SWEUn benchmark che cerca di verificare se i sistemi di intelligenza artificiale possono risolvere i problemi reali di GitHub, lo colloca tra i modelli open-weight più performanti.

Forse ancora più significativo, Mistral non ha appena rilasciato un modello AI, ha rilasciato una nuova app di sviluppo chiamata Mistral Vibe. Si tratta di un’interfaccia a riga di comando (CLI) simile a Cloud Code, OpenAI Codex e Gemini CLI che consente agli sviluppatori di interagire con i modelli devstral direttamente nel loro terminale. Lo strumento può scansionare le strutture dei file e lo stato git per mantenere il contesto in un intero progetto, apportare modifiche su più file ed eseguire comandi shell in modo autonomo. Mistral ha rilasciato la CLI sotto la licenza Apache 2.0.

È sempre saggio prendere i benchmark dell’intelligenza artificiale con le pinze, ma abbiamo sentito dal personale delle principali aziende di intelligenza artificiale che prestano molta attenzione al rendimento dei modelli su SWE-bench Verified, che presenta modelli di intelligenza artificiale con 500 reali problemi di ingegneria del software dai problemi di GitHub sul popolare repository Python. L’intelligenza artificiale deve leggere la descrizione del problema, esplorare la base di codice e creare una patch funzionante che superi i test unitari. Sebbene alcuni ricercatori sull’intelligenza artificiale lo abbiano fatto Notare che Dato che circa il 90% delle attività di test benchmark comportano correzioni di bug relativamente semplici che gli ingegneri esperti possono completare in un’ora, è uno dei pochi modi standardizzati per confrontare i modelli di codifica.

Contemporaneamente al modello di codifica AI più grande, viene rilasciato anche Mistral Devstral Piccolo 2Una versione da 24 miliardi di parametri ottiene un punteggio del 68% sullo stesso benchmark e può essere eseguita in modo nativo su hardware consumer come i laptop senza richiedere una connessione Internet. Entrambi i modelli supportano una finestra di contesto di 256.000 token, consentendo loro di elaborare basi di codice moderatamente grandi (anche se considerarlo grande o piccolo è molto relativo a seconda della complessità del progetto complessivo). La società ha rilasciato Devstral 2 con una licenza MIT modificata e Devstral Small 2 con la licenza più permissiva Apache 2.0.

Collegamento alla fonte