Il feed di LinkedIn raggiunge oltre 1,3 miliardi di membri e l’architettura dietro di esso non ha tenuto il passo. Il sistema aveva accumulato cinque pipeline di acquisizione separate, ciascuna con la propria infrastruttura e logica di ottimizzazione, servendo porzioni diverse di ciò che gli utenti avrebbero potuto voler vedere. Gli ingegneri dell’azienda hanno trascorso l’ultimo anno a smontarlo e sostituirlo con un unico sistema basato su LLM. LinkedIn afferma che il risultato è un feed che comprende il contesto professionale in modo più preciso ed è meno costoso da gestire su larga scala.
La riprogettazione ha toccato tre livelli dello stack: come viene acquisito il contenuto, come viene ordinato e come viene gestito il calcolo sottostante. Il vicepresidente dell’ingegneria di LinkedIn, Tim Jurka, ha dichiarato a VentureBeat che il suo team ha eseguito centinaia di test lo scorso anno, raggiungendo un traguardo che ha reinventato gran parte dell’infrastruttura.
“A partire dal nostro intero sistema per l’acquisizione di contenuti, siamo passati all’utilizzo di LLM su larga scala per comprendere i contenuti su LinkedIn in un modo molto più ricco ed essere in grado di abbinarli ai membri in un modo molto più personalizzato”, ha affermato Jurka. “Tutto, dal modo in cui classifichiamo i contenuti utilizzando modelli di sequenza davvero massicci, raccomandazioni generative e combinazione di quel sistema end-to-end, rendendo le cose molto più rilevanti e significative per i nostri membri.”
Pubblicazione unica, 1,3 miliardi di iscritti
Jurka ha affermato che la sfida chiave è duplice: LinkedIn deve far corrispondere gli interessi professionali dichiarati dei membri (titoli, competenze, settori) con il loro comportamento effettivo nel tempo e presentare contenuti che vanno oltre ciò che pubblica la loro rete diretta. Questi due segnali vengono spesso spinti in direzioni diverse.
Le persone utilizzano LinkedIn in diversi modi: alcuni cercano di connettersi con altri nel loro settore, altri danno priorità alla leadership di pensiero e le persone in cerca di lavoro e i reclutatori lo utilizzano per trovare candidati.
In che modo LinkedIn ha combinato cinque pipeline in una?
LinkedIn ha dedicato più di 15 anni alla creazione di sistemi di raccomandazione basati sull’intelligenza artificiale, compreso il lavoro precedente sulla ricerca di lavoro e sulla ricerca di persone. L’azienda ha affermato che il flusso di LinkedIn che ti accoglie quando apri il sito web è costruito su un’architettura eterogenea. un post sul blog. I contenuti forniti agli utenti provenivano da una varietà di fonti, tra cui un indice cronologico della rete di un utente, argomenti di tendenza geografica, filtri basati sugli interessi, contenuti specifici del settore e altri sistemi basati sull’incorporamento.
Questo metodo significa che ogni risorsa ha la propria infrastruttura e strategia di ottimizzazione, ha affermato la società. Tuttavia, mentre era in funzione, i costi di manutenzione aumentavano rapidamente. Utilizzare Masters per ampliare il nuovo algoritmo di raccomandazione significa anche aggiornare l’architettura attorno al feed, ha affermato Jurka.
“C’è molto da fare in questo ambito, incluso il modo in cui manteniamo rapidamente quel tipo di contesto dei membri, assicurandoci di fornire i dati giusti per supportare il modello, i dati del profilo, i dati delle attività recenti, ecc.”, ha affermato. “Il secondo è come campionare effettivamente i punti dati più significativi per mettere a punto il LLM.”
LinkedIn ha testato diverse iterazioni del suo mix di dati in un ambiente di test offline.
Uno dei primi ostacoli nel rinnovamento del sistema di accesso di LinkedIn riguardava la trascrizione dei dati affinché gli istituti di laurea li elaborassero. Per fare ciò, LinkedIn ha creato una libreria di prompt che consente loro di creare sequenze basate su modelli. Per i post, LinkedIn si è concentrato sul formato, sulle informazioni sull’autore, sul conteggio delle interazioni, sui metadati dell’articolo e sul testo del post. Per i membri, hanno combinato dati del profilo, competenze, storia lavorativa, istruzione e “una sequenza ordinata cronologicamente di post con cui si erano impegnati in precedenza”.
Uno dei risultati più importanti di questa fase di test riguardava il modo in cui il Master gestiva i numeri. Quando un post aveva, ad esempio, 12.345 visualizzazioni, il messaggio era simile a questo: "visualizzazioni:12345," e il modello lo trattava come qualsiasi altro token di testo, privandolo del suo significato come segnale di popolarità. Per risolvere questo problema, il team ha suddiviso i conteggi del coinvolgimento in percentili e li ha racchiusi in token speciali in modo che il modello potesse distinguerli dal testo non strutturato. L’intervento ha migliorato significativamente il peso post-accesso del sistema.
Insegnare al feed a leggere la storia professionale di seguito
Naturalmente, se LinkedIn vuole che il suo feed sia più personale e che i post raggiungano il pubblico giusto, deve anche riprogettare il modo in cui ordina i post. L’azienda ha affermato che i modelli di ranking tradizionali fraintendono il modo in cui le persone interagiscono con i contenuti: i contenuti non sono casuali, ma seguono modelli che emergono dal percorso professionale di qualcuno.
LinkedIn ha creato un modello proprietario Generative Recommender (GR) per il suo feed, che tratta la cronologia delle interazioni come una serie o “una storia professionale raccontata attraverso i post con cui interagisci nel tempo”.
“Invece di assegnare un punteggio a ogni post individualmente, GR elabora oltre un migliaio delle tue interazioni storiche per comprendere modelli temporali e interessi a lungo termine”, ha affermato LinkedIn sul suo blog. “Come per il recupero, il modello di classificazione si basa su segnali professionali e modelli di coinvolgimento, non su dati demografici, ed è regolarmente controllato per garantire un trattamento equo in tutta la nostra base di membri.”
Calcola il costo della gestione dei master su scala LinkedIn
Con la pipeline e il flusso di dati rinnovati, LinkedIn ha dovuto affrontare un altro problema: il costo della GPU.
LinkedIn ha investito molto in nuove infrastrutture di formazione per ridurre la dipendenza dalle GPU. Il più grande cambiamento architetturale è stato quello di disaccoppiare l’elaborazione delle funzionalità legate alla CPU dall’inferenza del modello pesantemente basato sulla GPU, consentendo a ciascun tipo di elaborazione di fare ciò che gli si addice invece di creare un collo di bottiglia per la disponibilità della GPU. Il team ha anche scritto caricatori di dati C++ personalizzati per ridurre il sovraccarico del multiprocessing Python e ha creato una versione personalizzata di Flash Attention per ottimizzare il calcolo dell’attenzione durante l’inferenza. Il checkpoint è parallelizzato anziché serializzato, il che aiuta a utilizzare meglio la memoria GPU disponibile.
“Una delle cose che abbiamo dovuto progettare è stata l’utilizzo di molte più GPU di quelle che volevamo”, ha affermato Jurka. “Fai molta attenzione a come coordini i carichi di lavoro di CPU e GPU, perché la bellezza di questi tipi di master e il contesto veloce che utilizziamo per creare distribuzioni è che puoi scalarli dinamicamente.”
Per gli ingegneri che creano sistemi di raccomandazione o recupero, la riprogettazione di LinkedIn offre un caso di studio concreto su ciò che richiede effettivamente la sostituzione di pipeline frammentate con un modello di posizionamento unificato: ripensare il modo in cui i segnali numerici sono rappresentati nei prompt, separare deliberatamente i carichi di lavoro di CPU e GPU e costruire modelli di classificazione che trattano la cronologia degli utenti come una sequenza piuttosto che una serie di eventi indipendenti. La lezione non è che il Maestro risolva i problemi di alimentazione; Il punto è che la loro implementazione su larga scala ti costringe a risolvere una classe di problemi diversa da quella con cui hai iniziato.















