Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora


Le aziende sembrano accettarlo come un fatto di base: i modelli di intelligenza artificiale richiedono una quantità significativa di calcolo; Devono trovare il modo di ottenere di più.

Tuttavia, secondo Sasha Luccioni, non deve essere così, intelligenza artificiale e leadership climatica Abbracciare la faccia. Cosa succede se c’è un modo più intelligente di usare l’intelligenza artificiale? Cosa succede se potessero concentrarsi sull’aumento delle prestazioni e dell’accuratezza del modello, piuttosto che provare calcoli (di solito non necessari) e modi per rafforzarlo?

In definitiva, i produttori di modelli e le aziende si concentrano sul problema sbagliato: dovrebbe essere calcolato più intelligenteNon è più difficile o fare di più, dice Luccioni.

“Ci sono modi più intelligenti per fare cose inadeguate in questo momento, perché sono molto Köriz: abbiamo bisogno di più flop, abbiamo bisogno di più GPU, abbiamo bisogno di più tempo”, ha detto.


Ai Stroops sui limiti di ridimensionamento

I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:

  • Trasformare l’energia in un vantaggio strategico
  • Architetto efficiente deduzione per guadagni di resa reale
  • Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili

Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo


Ecco cinque apprendimento di base a causa dell’involucro che può aiutare le aziende di tutte le dimensioni a utilizzare l’IA in modo più efficiente.

1: dimensioni il modello verso l’attività

Evita i modelli giganti e di uso generale per ogni utilizzo. Attività -Il modelli specifici o distillati possono corrispondere, anche La transizione è maggiore in termini di precisione per carichi di lavoro mirati, con un costo inferiore e un basso consumo di energia..

In effetti, Luccioni ha scoperto che un modello specifico della missione utilizzava 20-30 volte meno energia rispetto allo scopo generale. “Perché questo è un modello che può svolgere un’attività, contrariamente a qualsiasi compito che lanci, che di solito si applica ai modelli di linguaggio di grandi dimensioni”, ha detto.

La distillazione è la chiave qui; Un modello completo può essere inizialmente addestrato da zero e quindi perfezionato per un compito particolare. Ad esempio, DeepSeek R1 ha dichiarato: “La maggior parte delle organizzazioni sono così grandi perché non possono usarlo” perché hai bisogno di almeno 8 GPU. Al contrario, le versioni distillate possono essere più piccole 10, 20 o addirittura 30x e possono funzionare su una singola GPU.

In generale, i modelli a livello aperto, perché non hanno bisogno di essere addestrati da zero, ha affermato che aiuta l’efficienza. Questo è stato confrontato solo pochi anni fa perché non sono riusciti a trovare il modello di cui avevano bisogno perché stavano sprecando le loro risorse; Al giorno d’oggi, possono iniziare con un modello base e apportare una regolazione e adattarsi.

Luccioni, a differenza di Silent, educa i modelli di tutti nei cluster di dati e essenzialmente sprecando calcoli in questo processo “, ha affermato.

Poiché i costi non sono proporzionali ai benefici, è chiaro che le aziende sono rapidamente deluse dal gene AI. Le situazioni di utilizzo generico come l’e -mail o la copia dei voti delle riunioni sono davvero utili. Tuttavia, i modelli specifici della missione richiedono ancora “troppo lavoro, perché i modelli pronti non lo tagliano e sono più costosi.

Questo è il prossimo limite di valore aggiunto. Luccioni ha dichiarato: “Molte aziende vogliono svolgere un certo compito”, ha detto. “Non vogliono fare rete, vogliono una certa intelligenza. E questo è il divario che deve essere colmato.”

2. Rendi presupposto l’efficienza

Adottare la “teoria degli impulsi ında nella progettazione del sistema, impostare budget di ragionamento conservativo, limitare sempre le caratteristiche produttive aperte e richiedere la partecipazione per le modalità di calcolo ad alto contenuto.

Nella scienza cognitiva, “The Theory of Nutic” è un approccio di gestione del cambiamento comportamentale progettato per influenzare abilmente il comportamento umano. Luccioni aggiunge un coltello da forchetta allo strato di “campione canonico”: se le persone desiderano oggetti di plastica piuttosto che coinvolti automaticamente in ciascun ordine può ridurre significativamente i rifiuti.

Luccioni ha dichiarato: “È un meccanismo molto forte cambiare il comportamento delle persone”, ha detto, “fare in modo che le persone scelgano qualcosa invece di scegliere qualcosa”.

I presunti meccanismi non sono anche necessari perché aumentano il loro uso e quindi i costi e i modelli fanno più lavoro di quanto hanno bisogno. Ad esempio, nei motori di ricerca popolari come Google, un riepilogo Gene AI viene automaticamente riempito nella parte superiore per impostazione predefinita. Luccioni ha anche affermato che quando GPT-5 di Openi ha recentemente utilizzato GPT-5, il modello funziona automaticamente in modalità di ragionamento completo su “Domande molto semplici”.

“Per me, questa dovrebbe essere l’eccezione”, ha detto. “” Qual è il significato della vita, allora sono sicuro, voglio un riassunto di AI. ” Ma “Com’è il tempo a Montreal” o “Quali sono gli orari di apertura della mia farmacia locale?” Non ho bisogno di un riepilogo produttivo di intelligenza artificiale, ma penso che la modalità predefinita non dovrebbe essere una giustificazione.

3. Ottimizza l’uso dell’hardware

Utilizzare il lavoro collettivo; Regola la sensibilità e le dimensioni sfuse di ridotte per determinate produzione di hardware per ridurre al minimo la memoria sprecata e le riprese di potenza.

Ad esempio, le aziende dovrebbero chiedersi: il modello deve sempre essere aperto? Le persone pingranno in tempo reale in 100 richieste? In questo caso, ha affermato che è sempre necessario per l’ottimizzazione aperta. Tuttavia, non in molte altre persone; Il modello può essere eseguito periodicamente per ottimizzare l’uso della memoria e può utilizzare la memoria ottimale.

“Questa è come una difficoltà ingegneristica, ma una sfida molto speciale, quindi è difficile dire” solo distillazione “o” cambiare sensibilità in tutti i modelli “.

In uno dei suoi ultimi lavori, ha scoperto che la dimensione collettiva dipendeva dall’hardware anche da una specie o una versione specifica. Poiché i modelli necessitano di più aste di memoria, passare da una dimensione del partito a una può aumentare il consumo di energia.

“Questo è qualcosa che le persone non guardano davvero, ‘Ah, ho intenzione di massimizzare la dimensione della festa’, ma arriva davvero a cambiare tutte queste cose diverse e improvvisamente super produttivo, ma funziona solo nel tuo contesto privato, Sur

4. Incoraggiare la trasparenza dell’energia

Le persone aiutano sempre quando sono incoraggiate; A tale scopo, il volto dell’abbraccio all’inizio di quest’anno AI Energy Point. I modelli più efficienti sono un nuovo modo per promuovere una maggiore efficienza energetica ottenendo uno stato “a cinque -star” e utilizzando un sistema di valutazione da 1 a 5 -star.

Può essere considerato come Enerji Energy Star per l’intelligenza artificiale VE ed è stato ispirato da potenzialmente un programma federale intermedio che determina le specifiche di efficienza energetica e i dispositivi di qualificazione a marchio con un logo della stella energetica.

“È stata una motivazione davvero positiva per alcuni decenni, le persone vogliono questa laurea?” Ha detto. “Qualcosa di simile al punteggio energetico sarebbe fantastico.”

C’è una faccia abbracciata Ora il trono leaderA settembre, prevede di aggiornare con nuovi modelli (DeepSeek, GPT-OS) e prevede di farlo ogni 6 mesi o prima quando sono disponibili nuovi modelli. L’obiettivo è considerare la valutazione dei costruttori di modelli come “rosetta”.

5. Aggiorna la mentalità “migliore calcolo migliore”

Invece di inseguire i più grandi cluster GPU, inizia con la seguente domanda: “Qual è il modo più intelligente per ottenere risultati?” Per molti carichi di lavoro, architetture più intelligenti e migliori dati del curatore funzionano meglio del ridimensionamento della forza bruta.

“Penso che le persone non abbiano bisogno di più GPU come pensano, ha detto Luc Luccioni. Invece di andare ai cluster più grandi, ha chiesto alle aziende di ripensare i compiti da completare e perché ne avevano bisogno, come hanno fatto tali compiti prima e le GPU extra finalmente arriveranno finalmente.

“Questa gara fino in fondo abbiamo bisogno di un cluster più grande”, ha detto. “Pensa a cosa usi l’IA, per quale tecnica hai bisogno, cosa richiede?”


Collegamento alla fonte