un nuovo documento di ricerca Pubblicato in sordina la scorsa settimana, delinea un metodo innovativo che consente a modelli linguistici di grandi dimensioni (LLM) di simulare il comportamento del consumatore umano con sorprendente precisione; Si tratta di uno sviluppo che potrebbe rimodellare il mercato multimiliardario. settore delle ricerche di mercato. Questa tecnica promette di creare eserciti di consumatori sintetici in grado di fornire non solo valutazioni realistiche dei prodotti, ma anche il ragionamento qualitativo che sta dietro ad esse su una scala e una velocità attualmente irraggiungibili.
Per anni, le aziende hanno provato a utilizzare l’intelligenza artificiale per le ricerche di mercato, ma sono state ostacolate da un difetto fondamentale: quando viene chiesto di fornire una valutazione numerica da 1 a 5, gli LLM producono risposte irrealistiche e scarsamente distribuite. Un nuovo articolo "I maestri riproducono l’intenzione di acquisto umana rivelando la somiglianza semantica delle valutazioni Likert," Il file, pubblicato sul server di prestampa arXiv il 9 ottobre, propone una soluzione elegante che evita completamente questo problema.
Un gruppo di ricerca internazionale guidato da Benjamin F. Maier ha sviluppato un metodo chiamato . valutazione della somiglianza semantica (SSR). Invece di chiedere un numero al LLM, SSR chiede al modello un’opinione ricca e testuale su un prodotto. Questo testo viene quindi convertito in un vettore numerico. "a filo" – e la sua somiglianza viene misurata rispetto a una serie di affermazioni di riferimento predefinite. Ad esempio, una risposta "Lo comprerò sicuramente, è proprio quello che cercavo" sarà semanticamente più vicino all’espressione di riferimento per . "5" valutazione basata su una dichiarazione "1."
I risultati sono sorprendenti. Rispetto all’enorme set di dati reali di un’importante organizzazione di cura personale, composto da 57 sondaggi sui prodotti e 9.300 risposte umane, il metodo SSR testato ha raggiunto un’affidabilità test-retest sugli esseri umani pari al 90%. Ancora più importante, la distribuzione delle valutazioni generate dall’intelligenza artificiale era quasi statisticamente indistinguibile dal pannello umano. Gli autori affermano: "Questo framework consente simulazioni scalabili di ricerca sui consumatori preservando le misurazioni e l’interpretabilità dei sondaggi tradizionali."
Soluzione tempestiva poiché l’intelligenza artificiale minaccia l’integrità del sondaggio
Questo sviluppo arriva in un momento critico, poiché l’integrità dei tradizionali panel di sondaggi online è sempre più minacciata dall’intelligenza artificiale. Analisi 2024 Stanford Graduate School of Business ha evidenziato un problema crescente con gli intervistati che utilizzano i chatbot per elaborare le loro risposte. Queste risposte generate dall’intelligenza artificiale "sospettosamente carino," eccessivamente dettagliato e incompleto "cinico" e l’autenticità del feedback umano reale, dicono i ricercatori "omogeneizzazione" Dati che potrebbero mascherare problemi gravi come discriminazioni o difetti dei prodotti.
La ricerca di Maier offre un approccio completamente diverso: invece di lottare per pulire i dati contaminati, crea un ambiente controllato per generare da zero dati sintetici ad alta fedeltà.
"Ciò che vediamo è una transizione dalla difesa all’attacco." Un analista ha detto che non era affiliato allo studio. "Il documento di Stanford ha mostrato il caos causato dall’IA incontrollata che inquina i set di dati umani. Questo nuovo documento dimostra l’ordine e l’utilità dell’intelligenza artificiale controllata nella creazione dei propri set di dati. Per un Data Director, questa è la differenza tra ripulire un pozzo contaminato e attingere a una nuova risorsa."
Dal testo allo scopo: il salto tecnico dietro il consumatore sintetico
La validità tecnica del nuovo metodo dipende dalla qualità degli incorporamenti del testo, un concetto esplorato in un articolo del 2022. Scienza dei dati EPJ. Questa ricerca ha sostenuto uno studio rigoroso "validità di costrutto" Framework per fornire effettivamente incorporamenti di testo (rappresentazioni digitali di testo) "Misura ciò che devono fare."
successo Metodo SSR suggerisce che il loro posizionamento cattura efficacemente le sfumature dell’intenzione di acquisto. Affinché questa nuova tecnica possa essere adottata su larga scala, le organizzazioni dovranno garantire che i modelli sottostanti non solo producano testo ragionevole, ma anche associno quel testo ai punteggi in modo solido e significativo.
Questo approccio rappresenta anche un significativo passo avanti rispetto alla ricerca precedente che si concentrava principalmente sull’utilizzo degli incorporamenti di testo per analizzare e prevedere le valutazioni delle recensioni online esistenti. UN. Sondaggio 2022Ad esempio, ha valutato le prestazioni di modelli come BERT e word2vec nel prevedere i punteggi delle recensioni sui siti di vendita al dettaglio e ha scoperto che i modelli più recenti come BERT hanno funzionato meglio per l’uso generale. La nuova ricerca va oltre l’analisi dei dati esistenti per creare nuove informazioni predittive prima ancora che il prodotto raggiunga il mercato.
La nascita del focus group digitale
Le implicazioni per i decisori tecnici sono profonde. Un’abilità di rotazione "gemello digitale" Testare il segmento di consumatori target e testare concetti di prodotto, testi pubblicitari o variazioni di packaging in poche ore può accelerare notevolmente i cicli di innovazione.
Come notato nell’articolo, anche questi partecipanti sintetici lo sono "ricco feedback qualitativo che spiega le loro valutazioni," Offre una vasta gamma di dati scalabili e interpretabili per lo sviluppo del prodotto. Anche se l’era dei focus group esclusivamente umani è lungi dall’essere finita, questa ricerca fornisce la prova più convincente che le controparti sintetiche sono pronte per questo lavoro.
Ma il business case va oltre la velocità e la scalabilità. Consideriamo gli aspetti economici: un sondaggio tradizionale per il lancio di un prodotto a livello nazionale può costare decine di migliaia di dollari e richiedere settimane per essere messo in campo. Una simulazione basata su SSR può fornire informazioni comparabili in molto meno tempo, a un costo molto inferiore e con la possibilità di eseguire immediatamente l’iterazione in base ai risultati. Per le aziende delle categorie FMCG, dove la finestra tra concetto e scaffale può determinare la leadership di mercato, questo vantaggio in termini di velocità può essere decisivo.
Ci sono degli avvertimenti, ovviamente. Il metodo è stato validato nei prodotti per la cura personale; le sue prestazioni su complesse decisioni di acquisto B2B, beni di lusso o prodotti culturalmente specifici non sono state ancora dimostrate. Sebbene il documento mostri che la SSR può replicare il comportamento umano collettivo, non pretende di prevedere le preferenze individuali dei consumatori. La tecnica funziona a livello di popolazione, non a livello individuale; Questa è una distinzione di grande importanza per applicazioni come il marketing personalizzato.
Tuttavia, nonostante queste limitazioni, la ricerca rappresenta una svolta. Anche se l’era dei focus group esclusivamente umani è lungi dall’essere finita, questo articolo fornisce la prova più convincente che le loro controparti sintetiche sono pronte per questo lavoro. La questione non è più se l’intelligenza artificiale possa simulare il sentimento dei consumatori, ma se le aziende possano muoversi abbastanza velocemente da trarne vantaggio prima dei concorrenti.















