Una nuova startup di intelligenza artificiale fondata dai suoi creatori La libreria di visione artificiale più utilizzata al mondo è uscito di nascosto con una tecnologia che produce video realistici, incentrati sull’uomo, fino a cinque minuti; Un salto drammatico oltre le capacità dei rivali, incluso OpenAI sora e Google Capisco.
CraftStoryLanciata martedì con un finanziamento di 2 milioni di dollari, la nascente IA sta introducendo il Modello 2.0, un sistema di rendering video che affronta uno dei limiti chiave che affligge l’industria video: la durata. OpenAI ora 2 Con un picco di 25 secondi e la maggior parte dei modelli concorrenti che producono clip di 10 secondi o meno, il sistema di CraftStory è in grado di produrre prestazioni video costanti e costanti che durano quanto un tipico tutorial su YouTube o una dimostrazione di prodotto.
Questa svolta potrebbe sbloccare un valore aziendale significativo per le aziende che desiderano ampliare la produzione video per l’istruzione, il marketing e l’educazione dei clienti; Questi sono mercati in cui le brevi clip generate dall’intelligenza artificiale non sono all’altezza, nonostante la loro raffinatezza visiva.
"Se provi effettivamente a creare un video con uno di questi sistemi di creazione video, scoprirai spesso che desideri implementare una certa visione creativa e che i sistemi sostanzialmente ignorano alcune delle tue istruzioni, non importa quanto dettagliate siano le istruzioni." ha detto Victor Erukhimov, fondatore e CEO di CraftStory, in un’intervista esclusiva con VentureBeat. "Abbiamo sviluppato un sistema in grado di creare video per tutto il tempo necessario."
In che modo l’elaborazione parallela risolve il problema dei video di lunga durata?
Il progresso di CraftStory si basa su ciò che l’azienda descrive come un’architettura di estensione parallela; Si tratta di un approccio fondamentalmente diverso al modo in cui i modelli di intelligenza artificiale creano video rispetto ai metodi sequenziali utilizzati dalla maggior parte dei concorrenti.
I modelli di rendering video tradizionali funzionano eseguendo algoritmi di propagazione su volumi tridimensionali sempre più grandi, con il tempo che rappresenta il terzo asse. Per creare un video più lungo, questi modelli richiedono reti proporzionalmente più grandi, più dati di addestramento e risorse computazionali significativamente più grandi.
CraftStory esegue invece più algoritmi di propagazione più piccoli simultaneamente per l’intera durata del video, con vincoli bidirezionali che li collegano. "L’ultima parte del video potrebbe influenzare anche la parte precedente del video." Ha spiegato Erukhimov. "E questo è molto importante, perché se lo fai uno per uno, un artefatto che si verifica nella prima parte si diffonde nella seconda e poi si accumula."
Invece di produrre otto secondi e poi unire insieme segmenti aggiuntivi, il sistema di CraftStory elabora tutti i cinque minuti contemporaneamente attraverso processi di propagazione interconnessi.
È importante che CraftStory addestri il suo modello su immagini personalizzate piuttosto che fare affidamento esclusivamente su video da Internet. L’azienda ha affittato studi ad attori cinematografici utilizzando sistemi di telecamere ad alto frame rate che catturavano dettagli nitidi anche su elementi in rapido movimento come le dita, eliminando il motion blur presente nelle clip YouTube standard da 30 fotogrammi al secondo.
"Ciò che abbiamo dimostrato è che non sono necessari molti dati e molto budget per la formazione per creare video di alta qualità." Erukhimov ha detto: "Hai solo bisogno di dati di alta qualità."
Il modello 2.0 attualmente funziona come un sistema video-video: gli utenti caricano un’immagine fissa nell’animazione e "video di guida" Coinvolge una persona di cui l’IA copierà i movimenti. CraftStory fornisce video di corsa preimpostati girati con giocatori professionisti che ricevono una compartecipazione alle entrate quando vengono utilizzati i dati di movimento o in cui gli utenti possono caricare i propri filmati.
Il sistema crea clip di 30 secondi a bassa risoluzione in circa 15 minuti. Un avanzato sistema di sincronizzazione labiale sincronizza i movimenti della bocca con testi o tracce audio, mentre gli algoritmi di allineamento dei gesti assicurano che il linguaggio del corpo corrisponda al ritmo del parlato e al tono emotivo.
Combattere una guerra di guerra con 2 milioni di dollari contro miliardi
CraftStory è quasi interamente finanziato Andrea FilevVenduto la società di software di gestione dei progetti Wrike a Citrix $ 2,25 miliardi nel 2021 e attualmente funzionante codificatore zenun’azienda di codifica AI. Il modesto aumento è in netto contrasto con i miliardi che affluiscono agli sforzi rivali – OpenAI, superato i 6 miliardi di dollari solo nell’ultimo round di finanziamento.
Erukhimov si è opposto all’idea che il grande capitale sia un prerequisito per il successo. "Non accetto necessariamente la tesi secondo cui l’informatica è la via per il successo." ha detto. "Sicuramente aiuta se hai un computer. Ma se raccogli un miliardo di dollari tramite un PowerPoint, la conclusione è che nessuno è felice, né i fondatori né gli investitori."
Filev ha sostenuto l’approccio Davide contro Golia. "Quando investi in startup, scommetti essenzialmente sulle persone." ha detto in un’intervista con VentureBeat. "Per riassumere le parole di Margaret Mead: non sottovalutare mai ciò che può fare un piccolo gruppo di ingegneri e scienziati attenti e determinati."
Ha sostenuto che CraftStory trae vantaggio da una strategia mirata. "I principali laboratori sono impegnati in una corsa agli armamenti per creare modelli di base video generici." disse Filev. "CraftStory cavalca quest’onda e si immerge in un formato specifico: video di lunga durata, coinvolgenti e incentrati sull’uomo."
Perché la competenza in visione artificiale è importante nei video con intelligenza artificiale generativa?
La credibilità di Erukhimov deriva dalle sue profonde radici nella visione artificiale piuttosto che dalle architetture trasformative che hanno dominato i recenti sviluppi dell’intelligenza artificiale. È stato uno dei primi contributori OpenCV — Biblioteca di visione artificiale open source, che è diventata lo standard de facto per le applicazioni di visione artificiale; 84.000 stelle su GitHub.
Quando Intel ridusse il supporto per OpenCV a metà degli anni 2000, Erukhimov co-fondò Itseez con l’obiettivo di mantenere e migliorare la libreria. L’azienda ha ampliato in modo significativo OpenCV e si è ramificata nei sistemi di sicurezza automobilistica prima che Intel la acquisisse nel 2016.
Filev ha detto che è stato proprio questo background a mettere Erukhimov in una buona posizione per la produzione video. "Ciò che a volte le persone trascurano è che i video con intelligenza artificiale generativa non riguardano solo la parte produttiva. Si tratta di comprendere il movimento, le dinamiche facciali, la coerenza temporale e il modo in cui le persone si muovono effettivamente." disse Filev. "Victor ha trascorso la sua carriera affrontando proprio questi problemi."
Il focus aziendale è rivolto a video di formazione e demo di prodotti
Mentre gran parte dell’entusiasmo del pubblico per la creazione di video con intelligenza artificiale si è concentrato sugli strumenti creativi rivolti al consumatore, CraftStory sta perseguendo una strategia decisamente incentrata sull’impresa.
"Stiamo sicuramente pensando più al B2B che al consumatore." Erukhimov ha detto: "Riteniamo che le aziende, in particolare le società di software, possano creare fantastici video di formazione, video di prodotti e video di lancio."
La logica è semplice: i video di formazione aziendale, formazione sui prodotti e formazione dei clienti durano in genere pochi minuti e richiedono tutti una qualità costante. Una clip AI di 10 secondi non può dimostrare in modo efficace come utilizzare il software aziendale o spiegare una funzionalità complessa del prodotto.
"Se hai bisogno di un video più lungo dovresti venire con noi." Erukhimov ha detto: "Possiamo creare video coerenti e di alta qualità fino a cinque minuti."
Anche Filev ha ripetuto questa valutazione. "Una delle maggiori lacune in questo mercato è la mancanza di modelli in grado di creare video coerenti su sequenze più lunghe, il che è estremamente importante per l’uso nel mondo reale." ha detto. "Se stai creando un annuncio per la tua azienda, un video di 10 secondi non è sufficiente, non importa quanto sia bello. Ti servono 30 secondi, ti servono due minuti; hai bisogno di più."
L’azienda prevede risparmi sui costi per i clienti. Filev lo ha suggerito "Un piccolo imprenditore può creare in pochi minuti contenuti che prima costavano 20.000 dollari e richiedevano due mesi per essere prodotti."
CraftStory collabora anche con agenzie creative che producono contenuti video per clienti aziendali e la sua proposta di valore si concentra su costi e velocità: invece di gestire filmati costosi che richiedono diversi giorni, le agenzie possono registrare un attore davanti alla telecamera e trasformare quel filmato in un video AI finito.
Il prossimo grande sviluppo sulla roadmap di CraftStory è il suo modello da testo a video, che consente agli utenti di creare contenuti di lunga durata direttamente dagli script. Il team sta inoltre sviluppando il supporto per gli scenari delle action camera, compresi quelli più popolari. "camminare e parlare" formato comune nella pubblicità di fascia alta.
Dove CraftStory si inserisce in un panorama competitivo frammentato
CraftStory sta entrando in un mercato affollato e in rapida evoluzione. OpenAI ora 2Sebbene non sia ancora disponibile al pubblico, ha creato un notevole entusiasmo. Quello di Google Vedo gli schemi Stanno progredendo rapidamente. Pista, PicaE Determinazione IA Offrono tutti strumenti di creazione video con funzionalità diverse.
Erukhimov ha riconosciuto la pressione competitiva ma ha sottolineato che CraftStory serve una nicchia separata focalizzata sui video incentrati sull’uomo. Ha posizionato la rapida innovazione e la conquista del mercato come la strategia principale dell’azienda, piuttosto che fare affidamento su fossati tecnici.
Filev ritiene che il mercato servito dalle grandi aziende tecnologiche sia suddiviso in diversi strati "Fornitori di API di modelli di generazione potenti e generici" I giocatori specializzati come CraftStory si concentrano su casi d’uso specifici. "Se i grandi attori producono i motori, CraftStory sta costruendo lo studio di produzione e la catena di montaggio." ha detto.
Il modello 2.0 è ora disponibile su app.craftstory.com/model-2.0 e l’azienda offre un accesso anticipato agli utenti e alle organizzazioni interessate a testare la tecnologia. Non è chiaro se una startup sottofinanziata possa conquistare quote di mercato significative contro gli operatori storici dalle tasche profonde, ma Erukhimov è tipicamente fiducioso riguardo all’opportunità futura.
"I video generati dall’intelligenza artificiale diventeranno presto il modo principale in cui le aziende raccontano le loro storie." ha detto.















