IA liquida, una startupFondata dagli scienziati informatici del MIT nel 2023introdotto Liquid Foundation Models serie 2 (LFM2) nel luglio 2025La proposta di vendita era semplice: fornire i modelli base on-device più veloci sul mercato utilizzando la nuova tecnologia "liquido" un’architettura con efficienza di formazione ed inferenza che rende i modelli di piccole dimensioni una seria alternativa ai modelli di linguaggio di grandi dimensioni (LLM) solo cloud, come la serie GPT di OpenAI e Gemini di Google.
La versione iniziale prevedeva checkpoint densi con parametri 350M, 700M e 1.2B, un’architettura ibrida con un’enfasi su convoluzioni brevi e gating e numeri di benchmark che posizionavano LFM2 davanti a concorrenti di dimensioni simili come Qwen3, Llama 3.2 e Gemma 3 in termini sia di qualità che di efficienza della CPU. Il messaggio alle aziende era chiaro: l’intelligenza artificiale in tempo reale e che preserva la privacy su telefoni, laptop e veicoli non richiedeva più il sacrificio della capacità per la latenza.
Nei mesi successivi a questo lancio, Liquid ha ampliato LFM2 con una gamma più ampia di prodotti; Ha aggiunto variabili specifiche per attività e dominio, un piccolo modello di acquisizione e analisi di video e uno stack di distribuzione focalizzato sull’edge chiamato LEAP, posizionando i modelli come livello di controllo per i sistemi di agenzia on-device e on-premise.
Ora, Rilascio del rapporto tecnico LFM2 dettagliato di 51 pagine su arXivl’azienda fa un ulteriore passo avanti: rende pubblicamente disponibili il processo di ricerca dell’architettura, il mix di dati di formazione, l’obiettivo di distillazione, la strategia del curriculum e la pipeline post-formazione dietro questi modelli.
A differenza dei precedenti modelli aperti, LFM2 è costruito attorno a una ricetta ripetibile: un processo di ricerca hardware in-the-loop, un programma di formazione che compensa budget di parametri inferiori e una pipeline post-formazione ottimizzata per il monitoraggio delle istruzioni e l’utilizzo degli strumenti.
Invece di offrire semplicemente pesi e un’API, Liquid pubblica effettivamente un progetto dettagliato che altre organizzazioni possono utilizzare come riferimento per addestrare da zero i propri modelli piccoli ed efficienti, adattandoli al proprio hardware e ai vincoli di implementazione.
Una famiglia di modelli progettati per vincoli reali piuttosto che per laboratori GPU
Il Libro bianco inizia con una proposizione con cui le aziende hanno molta familiarità: i sistemi di intelligenza artificiale reale stanno raggiungendo i limiti molto prima dei parametri di riferimento. I budget di latenza, i limiti di memoria e la limitazione termica definiscono ciò che può effettivamente essere eseguito in produzione (in particolare su laptop, tablet, server di base e dispositivi mobili).
Per risolvere questo problema, Liquid AI ha eseguito la ricerca dell’architettura direttamente sull’hardware di destinazione, inclusi i SoC mobili Snapdragon e le CPU per laptop Ryzen. Il risultato è un risultato coerente in tutte le dimensioni: un’architettura ibrida minimale dominata da blocchi di convoluzione corta con gate e pochi attenzione alle query raggruppate (GQA) strati. Questo design è stato ripetutamente scelto rispetto all’attenzione lineare più esotica e agli ibridi SSM perché offriva un profilo Pareto di memoria di latenza di migliore qualità in condizioni reali del dispositivo.
Questo è importante per i team aziendali in tre modi:
-
Prevedibilità. L’architettura è semplice, efficiente in termini di parametri e stabile su modelli di dimensioni comprese tra 350 milioni e 2,6 miliardi.
-
Portabilità operativa. Le varianti Dense e MoE condividono la stessa struttura portante, semplificando l’implementazione in flotte di apparecchiature miste.
-
Fattibilità sul dispositivo. L’efficienza di precaricamento e decodifica sulle CPU supera in molti casi le prestazioni dei modelli aperti comparabili di un fattore pari a circa 2, riducendo la necessità di scaricare le attività di routine sugli endpoint di inferenza cloud.
Piuttosto che ottimizzare l’innovazione accademica, il rapporto si legge come un tentativo sistematico di progettare modelli che le aziende possano sviluppare. effettivamente spedire.
Ciò è notevole e più pratico per le aziende in un campo in cui molti modelli aperti presuppongono silenziosamente l’accesso a più cluster H100 durante l’inferenza.
Una linea formativa personalizzata sui comportamenti aziendali
LFM2 adotta un approccio formativo che compensa la scala ridotta dei suoi modelli con la struttura anziché con la forza bruta. Gli elementi chiave includono:
-
Pre-addestramento per monete da 10-12T e aggiuntivi Fase di metà formazione con contesti da 32KEspande la finestra di contesto utile del modello senza aumentare i costi di transazione.
-
UN. target di distillazione delle informazioni Top-K analizzato Ciò elimina l’instabilità della distillazione KL standard nei casi in cui i tutor forniscono solo logit parziale.
-
UN. sequenza post-allenamento in tre fasi—SFT, allineamento delle preferenze normalizzato in lunghezza e fusione di modelli, progettato per produrre un comportamento più affidabile nel seguire le istruzioni e nell’uso degli strumenti.
Ciò che è importante per gli sviluppatori di intelligenza artificiale aziendale è che i modelli LFM2 agiscono meno come “piccoli LLM” e più come agenti pratici in grado di seguire formati strutturati, conformarsi agli schemi JSON e gestire flussi di conversazioni a più round. Molti modelli espliciti di dimensioni simili falliscono non a causa di una mancanza di capacità di ragionamento ma a causa della fragile aderenza ai modelli di istruzione. La ricetta post-allenamento LFM2 mira direttamente a questi spigoli vivi.
In altre parole: piccoli modelli ottimizzati per l’intelligenza artificiale liquida affidabilità operativaNon ci sono solo i tabelloni.
Multimodalità progettata per i vincoli dei dispositivi, non per dimostrazioni di laboratorio
Le varianti LFM2-VL e LFM2-Audio riflettono un altro cambiamento: la multimodalità efficienza simbolica.
Invece di incorporare un trasformatore di visualizzazione di grandi dimensioni direttamente in un LLM, LFM2-VL collega un codificatore SigLIP2 tramite PixelUnshuffle, un connettore che riduce in modo aggressivo il numero di token visivi. Gli input ad alta risoluzione attivano automaticamente l’affiancamento dinamico, garantendo che i budget dei token siano controllabili anche sull’hardware mobile. LFM2-Audio utilizza un percorso audio biforcato, uno per l’aggancio e l’altro per la generazione, supportando la trascrizione in tempo reale o il supporto vocale su CPU modeste.
Per gli architetti di piattaforme aziendali, questo progetto punta a un futuro pratico:
-
la comprensione del documento avviene direttamente agli endpoint come i dispositivi di campo;
-
la trascrizione vocale e gli agenti vocali vengono eseguiti localmente per garantire la conformità alla privacy;
-
gli agenti multimodali operano all’interno di inviluppi di latenza fissa senza che i dati fuoriescano dal dispositivo.
Il concetto è lo stesso: funzionalità multimodale senza richiedere un cluster GPU.
Modelli di accesso creati per sistemi intermedi, non per ricerche legacy
LFM2-ColBERT estende l’acquisizione delle interazioni tardive in un ingombro sufficientemente piccolo da consentire distribuzioni aziendali che necessitano di RAG multilingue, senza il sovraccarico degli acceleratori di database vettoriali personalizzati.
Ciò è particolarmente significativo in quanto le organizzazioni iniziano a razionalizzare il proprio parco agenzie. L’accesso locale veloce, in esecuzione sullo stesso hardware del modello di ragionamento, riduce la latenza e offre vantaggi in termini di governance: i documenti non escono mai dai confini del dispositivo.
Nel loro insieme, le varianti VL, Audio e ColBERT presentano LFM2 come un sistema modulare e non come un singolo modello.
Il progetto emergente per le architetture AI aziendali ibride
Il rapporto LFM2 delinea implicitamente come apparirà lo stack AI aziendale di domani rispetto a tutte le variabili: orchestrazione cloud nativa ibridaLaddove modelli piccoli e veloci in esecuzione sui dispositivi eseguono attività di rilevamento, modellazione, invocazione e valutazione critiche in termini di tempo, mentre i modelli più grandi nel cloud offrono ragionamenti complessi quando necessario.
Qui convergono diverse tendenze:
-
Controllo dei costi. L’esecuzione di inferenze di routine a livello locale evita la fatturazione cloud imprevedibile.
-
Determinismo del ritardo. Il TTFT e la stabilità della decodifica sono importanti nei flussi di lavoro degli agenti; Elimina il jitter di rete sul dispositivo.
-
Governance e conformità. L’esecuzione nativa semplifica l’elaborazione delle PII, il posizionamento dei dati e la verificabilità.
-
Durabilità. Se il percorso del cloud diventa inutilizzabile, i sistemi intermedi si deteriorano gradualmente.
Le organizzazioni che adottano queste architetture tratteranno probabilmente i modelli on-device più piccoli come il “piano di controllo” dei flussi di lavoro dell’agenzia, con modelli cloud di grandi dimensioni che fungono da acceleratori on-demand.
LFM2 è ad oggi una delle basi open source più chiare per questo livello di controllo.
Conclusione strategica: l’intelligenza artificiale sul dispositivo non è più un compromesso, ma una scelta di progettazione
Le organizzazioni che sviluppano funzionalità di intelligenza artificiale da anni hanno riconosciuto che la “vera intelligenza artificiale” richiede l’inferenza del cloud. LFM2 sfida questo presupposto. I modelli dimostrano prestazioni competitive in termini di ragionamento, tracciamento delle istruzioni, attività multilingue e RAG, ottenendo allo stesso tempo significativi guadagni di latenza rispetto ad altre famiglie di modelli aperti di piccole dimensioni.
Per i CIO e i CTO che completano la roadmap per il 2026, ciò significa direttamente: i modelli piccoli, aperti e on-device sono ora sufficientemente potenti da gestire porzioni significative del carico di lavoro di produzione.
LFM2 non sostituirà i modelli edge cloud in termini di ragionamento su scala edge. Ma offre qualcosa di cui le aziende probabilmente hanno più bisogno: una base riproducibile, aperta e operativamente fattibile. Sistemi di agenti che devono funzionare ovunqueDai telefoni agli endpoint industriali e alle strutture sicure con air gap.
Nel panorama in espansione dell’intelligenza artificiale aziendale, LFM2 non è tanto una pietra miliare della ricerca quanto un segno di convergenza architetturale. Il futuro non riguarda il cloud o l’edge; Entrambi lavorano in armonia. E versioni come LFM2 forniscono elementi costitutivi per le organizzazioni che si preparano a costruire questo futuro ibrido di proposito, non per caso.
