Principalmente per la fotografia Circa 200 anni Storia, alterare una foto richiede una camera oscura, alcune abilità con Photoshop o, per lo meno, una mano ferma con forbici e colla. Martedì, OpenAI ha pubblicato uno strumento che riduce il processo di digitazione di una frase.
Questa non è la prima azienda del genere. Mentre OpenAI ha lavorato su un modello conversazionale di editing delle immagini sin dal GPT-4o nel 2024, Google ha battuto OpenAI sul mercato con un prototipo pubblico a marzo, per poi perfezionarlo in un modello popolare chiamato Nano Banana Image Model (e Nano Banana Pro). La risposta entusiasta al modello di editing delle immagini di Google nella comunità AI ha attirato l’attenzione di OpenAI.
Novità su OpenAI Immagine GPT 1.5 È un modello di sintesi di immagini AI che genera immagini quattro volte più velocemente del suo predecessore e costa circa il 20% in meno tramite API. Il modello è stato distribuito martedì a tutti gli utenti di ChatGPT e rappresenta un altro passo verso la trasformazione delle immagini fotorealistiche in un processo casuale che non richiede particolari abilità visive.
Aggiunto “Regina Galattica dell’Universo” alla foto di una stanza con divano utilizzando l’immagine GPT 1.5 su ChatGPT.
GPT Image 1.5 è degno di nota perché è un modello di immagine “multimodale nativo”, il che significa che la generazione di immagini avviene all’interno della stessa rete neurale che elabora i suggerimenti del linguaggio. (Al contrario, DALL-E 3, un precedente generatore di immagini OpenAI basato su ChatGPT, utilizzava una tecnica diversa chiamata diffusione per generare immagini.)
Questo nuovo tipo di modello, di cui abbiamo parlato più in dettaglio a marzo, tratta immagini e testo come lo stesso tipo di cose: blocchi di dati chiamati “token” per fare previsioni, completando modelli. Se carichi una foto di tuo padre e digiti “mettilo in smoking al matrimonio”, il modello elabora la parola e i pixel dell’immagine in uno spazio unificato, quindi restituisce il nuovo pixel mentre restituisce la parola successiva in una frase.
Utilizzando questa tecnica, GPT Image 1.5 può cambiare la realtà visiva più facilmente rispetto ai precedenti modelli di immagini AI, cambiando la posa o la posizione di qualcuno o rendendo una scena da un’angolazione leggermente diversa, con vari gradi di successo. Può rimuovere oggetti, cambiare stili visivi, regolare gli abiti e perfezionare aree specifiche preservando la somiglianza del viso nelle modifiche successive. Puoi conversare con un modello AI su una fotografia, perfezionarla e modificarla, nello stesso modo in cui puoi creare una bozza di un’e-mail in ChatGPT.















