Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora


Estate, forte, liberamente esistente con nuovi modelli AI orientati a codifica e codifica, dopo aver catturato, concorrenti statunitensi accusati/registrati abbinati o meglio abbinati ai modelli AI ,, Il crack “Qwen Team” dei ricercatori di AII è tornato oggi con il rilascio di un modello di generatore di immagini AI altamente sequenziale – anche open source.

Qwen-Image si distingue in un’area affollata di modelli di immagini produttivi Perché Enfasi sulla creazione corretta del testo in grafica – Un’area in cui molti concorrenti stanno ancora combattendo.

Supportando sia gli script alfababetici che logografici, il modello è particolarmente abile nella gestione della semantica a livello di paragrafo. Contenuto bilingue (ad es. English-Output).

Nell’applicazione, questi utenti Produrre contenuti come poster di film, diapositive di presentazione, scene di archiviazione, poesie di scrittura a mano e infografiche stilizzate – con il testo nitido allineato con le sue richieste.


La serie di effetto AI torna a San Francisco – 5 agosto

La prossima fase dell’intelligenza artificiale è qui – sei pronto? Per uno sguardo speciale a come gli agenti autonomi rimodellano i flussi di lavoro aziendali, Block, GSK e SAP si sono uniti ai leader dalla fine all’estremità senza prendere decisioni.

Ora aggiusta il tuo posto: l’area è limitata: https://bit.ly/3guupplf


Esempi di esempi di output di Qwen-Image includono un’ampia varietà di situazioni di utilizzo del mondo reale:

  • Marketing e branding: Poster bilingue con loghi del marchio, calligrafia stilistica e motivi di progettazione coerenti
  • Progettazione di presentazione: Gerarchie del titolo e mazzi di diapositiva sensibili al tema con disposizione con gravi
  • Istruzione: Produzione di materiali in classe contenenti diagrammi e testo di insegnamento completamente elaborato
  • Retail ed e-commerce: Schema scene che devono leggere etichette, segni e contesto ambientale
  • Contenuto creativo: Poesia della scrittura a mano, narrazioni sul palcoscenico, testo di storia sepolta illustrazione in stile anime

Gli utenti possono interagire con il modello. Qwen Chat Selezionando la modalità “Creazione di immagini” dai pulsanti nell’area di accesso richiedente.

Tuttavia, i miei brevi primi test hanno rivelato che il testo e la rapida lealtà non erano significativamente migliori di Midogourney, un popolare generatore di immagini speciali di intelligenza artificiale dell’azienda statunitense con lo stesso nome. Anche dopo ripetute prove e rapidamente ri -promisato, attraverso la chat di Qwen, ha prodotto più errori nella rapida comprensione e la lealtà del testo per la mia frustrazione:

Tuttavia, Midjourney offre solo un numero limitato di generazioni gratuite e richiede più abbonamento rispetto a Qwen Immagine, grazie alle sue licenze e pesi aperti. Abbracciare la facciaPuò essere considerato gratuito da qualsiasi impresa o fornitore di terze parti.

Bachelor e usabilità

Qwen-Image è distribuito in Apache 2.0 licenzaÈ necessario associare e includere il testo universitario per opere derivate per consentire l’uso commerciale e non commerciale, la ridistribuzione e la modifica.

Questo può renderlo attraente per le aziende che cercano un’immagine a base aperta per creare un’immagine aperta per creare garanzie interne o esterne, come brochure, annunci, notifiche, newsletter e altre comunicazioni digitali.

Tuttavia, i dati educativi del modello rimangono un segreto saldamente protetto. – Come in altri principali generatori di immagini di AI – potrebbe non aggiungere alcune aziende all’idea di usarlo.

Qwen, al contrario Adobe Firefly O Produzione di immagini locali GPT-4o di Openai, Per esempio, Non offre un risarcimento per l’uso commerciale del prodotto (Cioè, se un utente viene citato in giudizio per una violazione del copyright, Adobe e Openai ti aiuteranno a sostenerli in tribunale).

Modello e correlati Laptop-Demo-Demo, strumenti di valutazione e script di perfezionamento si ottengono per mezzo di più di un magazzino:

Inoltre, un portale di valutazione dal vivo chiamato AI Arena consente agli utenti di contribuire a una tabella di leader in stile elo pubblico confrontando le generazioni di immagini nei tour binari.

Istruzione e sviluppo

Dietro l’esecuzione di Qwen-Image Processo di istruzione globale basato sull’apprendimento progressivo, allineamento delle attività multi -modalità e curatore di dati aggressiviSecondo l’articolo tecnico, il team di ricerca è stato pubblicato oggi.

Il corpus di formazione include miliardi di testo di immagini provenienti da quattro aree: immagini naturali, ritratti umani, contenuti artistici e di design (come poster e interfacce utente) e dati orientati al testo sintetico. Il team Qwen non ha specificato le dimensioni del corpo di allenamentoA parte la “coppia di testo di immagine”. Hanno fornito una ripartizione della percentuale approssimativa di ciascuna categoria di contenuti che includeva:

  • Natura: ~ 55%
  • Design (Interfaccia utente, poster, arte): ~ 27%
  • Persone (ritratti, attività umana): ~ 13%
  • Dati di creazione di testo sintetico: ~ 5%

In particolare, Qwen sottolinea che tutti i dati sintetici sono prodotti all’interno dell’azienda e non viene utilizzata alcuna immagine creata da altri modelli AI. Nonostante le fasi dettagliate di miglioramento e filtraggio descritte, I documenti non chiariscono se uno qualsiasi dei dati è autorizzato o ritirato da cluster di dati pubblici o registrati.

A differenza di molti modelli produttivi che tranne il testo sintetico a causa dei rischi di rumore, l’immagine QWEN utilizza tubazioni a creazione di sintetiche controllate rigorose per migliorare l’ambito dell’ambito, in particolare per i caratteri a bassa frequenza in cinese.

Viene utilizzata una strategia in stile curriculum: Il modello inizia con semplici immagini di sottotitoli e contenuto non textProgetta quindi in scenari di testo sensibili all’ordine, creazione di linguaggio misto e paragrafi intensi. Questo È stato dimostrato di aiutare a generalizzare il modello tra script e tipi di formattazione.

Qwen-Image integra tre moduli di base:

  • Qwen2.5-VlIl modello di linguaggio multimodale produce significato contestuale e dirige la produzione attraverso richieste di sistema.
  • Solver CODER/CODICE VAEAllenato su documenti ad alta risoluzione e ordine mondiale reale, rappresentazioni visive dettagliate, in particolare testi piccoli o densi.
  • MmditIl modello di diffusione coordina l’apprendimento comune in tutta l’immagine e i metodi di testo. Un nuovo msrope (codifica della posizione di rotazione in scala multimodale) migliora l’allineamento spaziale tra le monete.

Insieme, questi componenti consentono all’immagine di Qwen di funzionare in modo efficace in compiti che coinvolgono la comprensione dell’immagine, la produzione e la regolazione di precisione.

Criteri di performance

Qwen-eMage è stato valutato secondo diverse crisi pubbliche:

  • Manovra E Dpg Per monitoraggio rapido e coerenza dell’attributo oggetto
  • Texter E per Composizione per ragionamento e ordine di ordine
  • CVTG-2KParola cineseE Banca di testo lungo Per la creazione di testo, specialmente in contesti multilingue

In quasi ogni caso, l’immagine Qwen corrisponde o supera i modelli di saldatura interna esistenti come GPT Image 1 (High), SeedReam 3.0 e Flux.1 Kondext (Pro). In particolare, le sue prestazioni sulla formazione di testo cinesi sono state significativamente migliori di tutti i sistemi confrontati.

Nel tavolo leader dell’Ai Arena, che si basa su oltre 10.000 persone confronti binari, l’immagine Qwen è generalmente terza ed è il miglior modello open source.

Inferenze per i decisori tecnici aziendali

Per i team AI aziendali che gestiscono flussi di lavoro multimodali complessi, Qwen-Image offre vari vantaggi funzionali conformi alle esigenze operative di ruoli diversi.

Coloro che gestiscono il ciclo di vita dei modelli di visione dall’istruzione alla distribuzione-wilComponenti di uscita costante di L Qwen-Image e componenti pronti per l’integrazione. Mentre la natura open source riduce i costi di licenza, l’architettura modulare (Qwen2.5-VL + VAE + MMDIT) facilita l’adattamento a cluster di dati speciali o perfezionamenti per output specifici per campo.

. I dati di formazione in stile curriculum e i risultati del confronto netto aiutano i team a valutare l’adeguatezza. Con immagini di marketing, distribuzione di presentazioni di documenti o grafica del prodotto e-commerce, Qwen-eMage consente esperimenti rapidi senza restrizioni registrate.

Ingegneri L’intelligenza artificiale apprezzerà i documenti di infrastruttura dettagliati incaricati di creare condutture o distribuire modelli nei sistemi distribuiti. Il modello è stato addestrato utilizzando un’architettura del consumatore produttore, elaborazione del moltiplicatore supportabile (da 256p a 1328p) ed è stato costruito per funzionare con megatron-LM e parallelismo tensore. Questo Qwen-Image fa un candidato per la distribuzione in ambienti cloud ibridi in cui l’affidabilità e l’efficienza sono importanti.

Inoltre, il supporto per i flussi di lavoro di disposizione (TI2I) e le richieste specifiche per l’attività da immagine all’immagine consentono l’uso in applicazioni reali o interattive.

Professionisti che si concentrano sull’assunzione di dati, la verifica e la trasformazione Può utilizzare l’immagine Qwen come strumento per creare cluster di dati sintetici per formare o aumentare i modelli di visione artificiale. La capacità di produrre immagini ad alta risoluzione con descrizioni aggiuntive incorporate e multilingue può migliorare le prestazioni nelle attività OCR a flusso inferiore, rilevamento degli oggetti o attività di separazione degli ordini.

Da qwen-image È stato anche addestrato per evitare opere come i codici QRTesti e filigrane storti offrono input sintetici di qualità superiore rispetto a molti modelli pubblici.

Alla ricerca di opportunità di feedback e cooperazione

Il team Qwen sottolinea l’apertura e la cooperazione della comunità nel rilascio del modello.

Gli sviluppatori sono incoraggiati a testare l’immagine QWEN e a fare una messa a punto, a presentare richieste di prelievo e a partecipare alla leadership di valutazione. La creazione di testo, la regolamentazione della lealtà e l’uso multilingue modelleranno le ripetizioni future.

Con un obiettivo specificato per “ridurre gli ostacoli tecnici per la creazione di contenuti visivi”, Qwen-Image spera non solo come modello, ma costituirà la base di ulteriori ricerche e dispiegamento pratico tra le industrie.


Collegamento alla fonte