La logica prevalente nell’intelligenza artificiale generativa negli ultimi due anni è stata la logica della forza bruta: se vuoi una logica migliore, hai bisogno di un modello più grande.
Durante "Piccolo" I modelli (sotto i 10 miliardi di parametri) sono diventati abili oratori, ma storicamente sono crollati quando è stato chiesto loro di fare deduzioni logiche in più passaggi o complesse dimostrazioni matematiche.
Oggi, il Technology Innovation Institute (TII) di Abu Dhabi si oppone all’ampliamento della legge. Lancio del Falcon H1R 7B.
Abbandonando la pura ortodossia del Transformer in favore di un’architettura ibrida, TII afferma di aver costruito un modello da 7 miliardi di parametri che non solo rivaleggia, ma surclassa, comprese le varianti 32B e 47B del Qwen di Alibaba e del Nemotron di Nvidia, a circa 7 volte la sua dimensione.
Questa versione segna un cambiamento significativo nell’ecosistema openweight, spostando il campo di battaglia dal conteggio dei parametri grezzi all’efficienza dell’architettura e alla scalabilità temporale dell’inferenza.
Pieno codice modello disponibile ora su Hugging Face Può essere testato da individui attraverso un’estrazione demo dal vivo. Sahin Chat (un’esperienza di chatbot). TII ha anche pubblicato un documento apparentemente abbastanza completo. relazione tecnica Forniremo inoltre informazioni sull’avvicinamento e sulla metodologia addestrativa del Falcon H17B.
Andare oltre la tecnologia LLM di base: Transformer
La caratteristica distintiva del Falcon H1R 7B è "incrocio" colonna vertebrale. La maggior parte dei LLM moderni si basa esclusivamente sull’architettura Transformer, che si adatta in modo prevedibile ma soffre di costi di memoria elevati durante l’elaborazione di array lunghi.
Falcon H1R 7B integra Mamba, un’architettura State-Space Model (SSM), insieme ai livelli di attenzione standard di Transformer.
Mamba, sviluppato per la prima volta da Albert Gu e Tri Dao, ricercatori della Carnegie Mellon University e dell’Università di Princeton, è stato presentato per la prima volta in questo articolo. "Mamba: modellazione di serie temporali lineari con spazi di stati selettivi" Rilasciato il 1 dicembre 2023.
L’architettura elabora gli array di dati in modo diverso rispetto a Transformers: mentre Transformers confronta ogni pezzo di dati con ogni altro pezzo (ridimensionamento quadratico), Mamba elabora i token in sequenza, consentendogli di elaborare grandi quantità di informazioni con ridimensionamento lineare e costi di transazione significativamente ridotti.
Questa combinazione risolve uno dei colli di bottiglia più persistenti nell’implementazione dei modelli di ragionamento: "Pensiero." Il ragionamento richiede la produzione di modelli su un lungo periodo di tempo "catene di pensiero"—monologhi interiori passo dopo passo—prima di arrivare a una risposta. Per Standard Transformers, questi lunghi contesti fanno salire alle stelle i costi computazionali.
Secondo la relazione tecnica di TII, l’approccio ibrido consente al Falcon H1R 7B di mantenere un’elevata efficienza anche se i tempi di risposta sono prolungati. Alla dimensione batch 64, il modello elabora circa 1.500 monete al secondo per GPU; Questa è quasi il doppio della velocità del modello concorrente Qwen3 8B.
Prestazioni di riferimento: potenziamento
Nei confronti pubblicati da TII la differenza tra dimensioni e prestazioni del Falcon H1R 7B è molto evidente. SU OBIETTIVO 2025 Classifica: un test impegnativo di ragionamento matematico: Falcon H1R ottiene un punteggio di 7B 83,1%un risultato che sconvolge la tradizionale gerarchia del dimensionamento del modello.
Mentre il modello 7B segue naturalmente confini di proprietà enormi GPT-5.2 (99,0%) e Gemelli 3 Il Flash (97,0%) indice di analisi sintetica separato (gestito dall’omonima organizzazione indipendente, che deve ancora valutare il Falcon H1R 7B), ha effettivamente colmato il divario tra. "produttivo" pesi aperti e sistemi proprietari intermedi.
-
Colpo più grande "pensatori": Falcon H1R 7B (83,1%) supera i 15 miliardi di parametri Apriel-v1.6-Pensatore (82,7%) e 32 miliardi di parametri OLMo 3 Pensa (73,7%), il che conferma l’affermazione di TII secondo cui le architetture ibride possono sovraperformare i Transformer più grandi.
-
Inseguendo i leader registrati: Seduto a una distanza impressionante Sonetto Claude 4.5 (88,0%) e Amazon Nova 2.0 Lite (88,7%) suggerisce che per alcuni flussi di lavoro ad uso intensivo di matematica, questo modello 7D rappresenta un’alternativa praticabile e a bassa latenza alle costose API commerciali.
-
Superare gli ex giganti: Su questa specifica misura di ragionamento, supera decisamente le architetture di ampio respiro ma più vecchie. Mistral Grande 3 (38,0%) e Fiamma 4 Maverick (19,3%), formazione speciale sul ragionamento ("Pensa in profondità") è diventato più critico per le attività logiche rispetto alla scala grezza.
Altri notevoli guadagni in termini di nomi di dominio includono:
-
Codifica: Modello raggiunto 68,6% Nel benchmark LCB v6, il punteggio dichiarato di TII è il più alto tra tutti i modelli testati, compresi quelli quattro volte più grandi.
-
Ragionamento generale: Sebbene eccelle in matematica e programmazione, il suo punteggio complessivo nel ragionamento (49,48%) rimane competitivo; È appena sotto i modelli con parametri 14B e 15B ma facilmente davanti ai modelli comparabili 8B.
Tecniche di formazione
Le prestazioni del Falcon H1R 7B non sono solo architettoniche; Secondo , deriva da un rigoroso percorso di formazione in due fasi progettato per massimizzare l’intensità del ragionamento senza gonfiare il numero di parametri. La relazione tecnica del TII sul modello.
Fase 1: Regolazione fine supervisionata per avviamento a freddo (SFT). applicato al modello "partenza a freddo" PFT su un set di dati selezionato dominato dalla matematica (56,8% dei token) e dal codice (29,8%), con lunghezze di risposta che arrivano fino a 48.000 token.
-
Ponderazione consapevole della difficoltà: TII ha rifiutato la pratica standard di trattare tutti i dati allo stesso modo. Hanno invece applicato uno schema di ponderazione. "difficile" Il peso dei problemi è stato aumentato da 1,25x a 1,75x, mentre il peso dei problemi facili è stato ridotto o rimosso completamente per evitare un eccessivo adattamento a compiti banali.
-
Coerenza del singolo insegnante: Gli studi di ablazione hanno rivelato la miscelazione di più tracce di ragionamento. "Insegnante" i modelli in realtà riducevano le prestazioni a causa di stili di ragionamento contrastanti. Di conseguenza, TII ha optato per un approccio con un unico insegnante per mantenere una logica interna coerente.
-
Normalizzazione dei token bilanciati: Per gestire grandi differenze nella lunghezza delle sequenze (istruzioni brevi e catene di ragionamento di grandi dimensioni), il team ha implementato la strategia di normalizzazione dei token bilanciati dati paralleli. Questa tecnica impedisce alle sequenze con sequenze più brevi di destabilizzare la perdita equalizzando il contributo del gradiente di ciascun token tra le GPU; questa modifica ha prodotto costantemente guadagni di precisione del 4-10% durante l’allenamento.
Fase 2: Apprendimento per rinforzo tramite l’ottimizzazione delle politiche relative di gruppo (GRPO). Dopo il PFT, il modello è stato perfezionato utilizzando GRPO, un algoritmo di apprendimento per rinforzo che premia i risultati corretti senza la necessità di un modello di valore separato.
-
"niente KL" Spostare: Diversamente dall’RLHF standard, TII ha completamente rimosso la penalità di divergenza KL (beta=0). Ciò ha consentito al modello di discostarsi significativamente dalla politica SFT di base e ha incoraggiato l’esplorazione aggressiva di nuovi modi di ragionare.
-
Solo curriculum di matematica: Sorprendentemente, TII ha scoperto che la formazione solo sui problemi di matematica nella fase RL ha portato a una migliore generalizzazione in tutti i domini, compresi codice e scienza, rispetto alle strategie miste. Le ablazioni lo hanno dimostrato "solo codice" la formazione ha migliorato i punteggi di codifica ma ha compromesso il giudizio complessivo; mentre l’RL incentrato sulla matematica ha aumentato le prestazioni a livello globale.
TII ha ottimizzato specificamente il modello per il Test Time Scaling (TTS), una tecnica in cui un modello genera più percorsi di ragionamento in parallelo per trovare la soluzione migliore.
Il modello utilizza Deep Thinking with Confidence (DeepConf), che sfrutta i punteggi di confidenza interni del modello per eliminare dinamicamente le tracce di ragionamento di bassa qualità.
-
Potatura adattiva: Durante la produzione, il sistema avvia un processo. "riscaldamento" 16 fasi monitorate per stabilire una base di fiducia. Quindi filtra in modo aggressivo le tracce successive, terminando le catene che scendono al di sotto del 10° percentile della confidenza di base.
-
Guadagni di produttività: Questo metodo crea una nuova frontiera di Pareto per la distribuzione. Nei test benchmark, il Falcon H1R 7B ha raggiunto una precisione del 96,7% su AIME 25 riducendo l’utilizzo dei token del 38% rispetto alla linea di base DeepSeek-R1-0528-Qwen3-8B.
Licenza: disponibile per uso commerciale, ma con condizioni aggiunte
TII ha lanciato il Falcon H1R 7B con un accordo doganale Licenza Falcon Master 1.0 Si basa su Apache 2.0 – ma con notevoli modifiche – principalmente tra le quali: non intentare causa contro TII e anche dargli sempre credito.
Per gli sviluppatori e le startup, la licenza ha una grande tolleranza:
-
Esente da diritti d’autore: Gli utenti possono eseguire, modificare e distribuire commercialmente il modello senza pagare TII.
-
Attribuzione: Qualsiasi lavoro derivato (incluse le modifiche) deve dichiarare esplicitamente che: "(Nome lavoro) Costruito utilizzando la tecnologia Falcon LLM del Technology Innovation Institute".
Tuttavia, a differenza di una licenza Open Source Initiative (OSI), la licenza Falcon include una rigorosa politica di utilizzo accettabile (AUP).
La licenza termina automaticamente se il modello viene utilizzato per creare un’opera in conflitto con l’AUP o se l’utente avvia una controversia sui brevetti contro TII.
L’AUP vieta espressamente l’uso del Falcon H1R 7B o dei suoi derivati per i seguenti scopi:
-
Violazione delle leggi: qualsiasi utilizzo che violi qualsiasi legge o regolamento nazionale, federale, statale, locale o internazionale applicabile.
-
Danneggiare minori o animali vivi: sfruttare, danneggiare o tentare di sfruttare o danneggiare minori o qualsiasi creatura vivente.
-
Disinformazione: produzione o diffusione di informazioni false verificabili con l’intento di danneggiare gli altri.
-
Molestie: diffamare, denigrare o molestare in altro modo gli altri.
Onda ibrida: Nvidia, IBM, AI21 e Mistral
TII non è l’unico a scommettere su questo futuro ibrido; il settore si rivolge sempre più ad architetture che fondono i punti di forza degli SSM e dei Transformer.
-
Nvidia ha recentemente debuttato Famiglia Nemotron 3 Il 15 dicembre 2025, utilizzando un mix ibrido di esperti (MoE) e la progettazione Mamba-Transformer per supportare un’intelligenza artificiale efficiente dell’agenzia.
-
Quello dell’IBM iniziato Famiglia Granito 4.0 Il 2 ottobre 2025, ha ridotto i requisiti di memoria di oltre il 70% utilizzando l’architettura ibrida Mamba-Transformer e ha mantenuto prestazioni elevate nei benchmark aziendali.
-
AI21 Ha seguito questo percorso con i modelli Jamba (Joint Attention e Mamba) e Famiglia Jamba 1.5 il 22 agosto 2024, per aumentare le capacità di intelligenza artificiale delle agenzie attraverso un approccio ibrido SSM-Transformer.
-
maestrale è entrato in campo presto con Mamba Codestrale 16 luglio 2024 Un modello specificamente ottimizzato per una generazione di codice più rapida e più lunga.
Il Falcon H1R 7B rappresenta l’ultima evoluzione di questa tendenza, mirando specificamente a compiti di ragionamento intensivi in un fattore di forma compatto.
