Tutorial e confronto della creazione di immagini AI: Dall-e VS Stable Diffusion VS Canva (Text to Image)

Con l'attuale popolarità dei media di ChatGPT anche questa è un'occasione per parlare DALL-E, un'altra intelligenza artificiale anch'essa progettata da Apri AI ! E più in generale IA che generano immagini. Laddove ChatGPT è in grado di generare testo scritto con una facilità sconcertante, DALL-E e simili sono stati addestrati a creare immagini da una semplice richiesta scritta dell'utente.

Diamo un'occhiata a come funzionano, alle loro capacità, ma anche ai loro limiti con questo articolo comparativo sulle IA che creano immagini.

Ma a proposito, come funziona un'intelligenza artificiale?

Un'ottima domanda su cui potrebbe essere interessante tornare rapidamente, soprattutto perché non l'abbiamo affrontata nel nostro precedente articolo su ChatGPT. Quando senti "Artificial Intelligence" è difficile non pensare a questi tipi di robot umanoidi come li abbiamo visti nei film. Questo è ciò che generano le stesse IA quando viene loro chiesta un'immagine corrispondente alla ricerca di queste parole chiave, come l'immagine introduttiva di questo articolo.

Questo paesaggio non esiste, è artificiale al 100% generato da un'intelligenza artificiale

Eppure, in realtà, molte delle IA esistenti non hanno un involucro fisico. In effetti, il più delle volte, si tratta di programmi per computer basati su algoritmi specifici che sono stati addestrati dagli esseri umani per eseguire determinati compiti più o meno complessi.

La generazione di immagini è un'attività che può essere assegnata a una (o più) IA! Per saperne di più sui metodi di creazione di immagini tramite AI, non esitare a guardare il seguente video:

Generiamo le nostre prime immagini con l'intelligenza artificiale

Per fare questo niente di più semplice a prima vista, visto che basta descrivere testualmente all'IA l'immagine che si vuole ottenere. Per questo articolo abbiamo deciso di confrontare le immagini fornite da tre generatori di intelligenza artificiale:

  • DALL-E
  • Diffusione stabile
  • Canva (testo in immagine)

Naturalmente, ce ne sono altri che non dovresti esitare a testare. Eccone uno elenco non esaustivo.

Se sei un po' creativo, siamo sicuri che troverai molte idee per le immagini da generare. Ma per coloro per i quali sarebbe un po' più complesso è possibile chiedere a ChatGPT un piccolo aiuto. Sì, abbiamo utilizzato un'intelligenza artificiale per utilizzare un'altra intelligenza artificiale...

La risposta di ChatGPT alla domanda: devo scrivere un articolo su dall.e, hai qualche idea di immagini che si possono generare con questo modello AI?

Naturalmente, come modello di generazione di immagini, DALL-E può creare un'ampia varietà di immagini. Ecco alcune idee per le immagini che potresti generare con DALL-E:

  1. Animali fantastici: chiedi a DALL-E di generare immagini di animali immaginari, come un drago con ali di farfalla o un serpente con le gambe.
  2. Cibi strani: chiedi a DALL-E di generare immagini di cibi insoliti, come una pizza al cioccolato o un hamburger con fette di anguria.
  3. Abbigliamento insolito: chiedi a DALL-E di generare immagini di abiti strani, come un cappello a forma di Torre Eiffel o scarpe con le ali.
  4. Paesaggi immaginari: chiedi a DALL-E di generare immagini di paesaggi fantastici, come una città che galleggia tra le nuvole o una foresta di funghi giganti.
  5. Oggetti ibridi: chiedi a DALL-E di generare immagini di oggetti che sono un mix di due cose diverse, come un letto che sembra un'amaca o un'auto con ali di uccello.
  6. Ritratti di celebrità: chiedi a DALL-E di generare immagini di ritratti di celebrità che non esistono, come una versione alternativa di Marilyn Monroe con tatuaggi.
  7. Auto futuristiche: chiedi a DALL-E di generare immagini di auto futuristiche, come un'auto che può trasformarsi in un aeroplano o un'auto che può volare.
  8. Architettura fantasy: chiedi a DALL-E di generare immagini di architettura fantasy, come un grattacielo a forma di drago o una casa che sembra un albero.

Queste idee sono solo suggerimenti per darti un'idea di cosa può fare DALL-E. Ci sono migliaia di altre idee di immagini che potresti generare con questo modello AI.

Ogni IA ha il suo stile

Con questo elenco, vediamo insieme come generare le nostre immagini, e quale dei diversi software scelti fa meglio.

Leggi anche:  Migrazione verso un nuovo forum phpBB 2.0.x su phpBB 3.1!

Per la nostra prima immagine abbiamo scelto di rappresentare il drago con ali di farfalla. Per aggiungere un po' di contesto, chiediamo anche che questo venga rappresentato in "una foresta fantasy da favola". A seconda degli IA, la lingua della richiesta può influire sul risultato. Quindi l'abbiamo trovato rapidamente per DALL-E e Stable Diffusion L'inglese è stata la lingua che ha dato i migliori risultati. Al contrario, l'applicazione di testo in immagine di Canva generalmente funziona meglio in francese.

1. DALL-E ha generato immagini di un drago con ali di farfalla

2. Draghi generati da Diffusione Stabile

3. E infine quello che abbiamo scelto di mantenere per lo strumento Canva

La prima cosa che possiamo vedere molto velocemente: per la stessa richiesta, ogni IA ha il suo stile!

  • DALL-E ha un lato "fantasioso", sebbene la foresta "da favola" sia un po' buia per le fate, le ali delle farfalle sono ben rappresentate e ordinate. È di moda Arte digitale.
  • A Stable Diffusion lo stile è più "gioioso", un po' infantile. Immaginiamo molto bene queste immagini che illustrano una storia per bambini. Qui i draghi sono ben visibili e richiamano la Cina, di cui è l'emblema. L'IA, invece, ha completamente oscurato le ali delle farfalle e ha scelto la facile soluzione facendo apparire delle vere farfalle accanto ai nostri draghi.
  • Infine, per lo strumento Canva, abbiamo selezionato l'unica immagine corrispondente alla nostra richiesta dalla selezione. Tuttavia, i due elementi (drago e ali sono qui presenti). Sebbene tutte le immagini siano in tema e utilizzabili, Canva fa del suo meglio per eseguire fedelmente la richiesta e quindi guadagna un primo punto qui.

Quali sono le possibilità di stile artistico dell'immagine richiesta?

Se non vengono richiesti dettagli sullo stile artistico, le IA li sceglieranno per te come nell'esempio dei draghi.

Tuttavia, su Dall-e ad esempio, è possibile definire i seguenti stili:

  • Pittura ad olio : Dall-e può generare dipinti ad olio da una descrizione dei colori e delle trame che vuoi vedere nel dipinto.
  • Fotografia : Dall-e può generare foto in base ai colori, alle trame e ai dettagli che vuoi vedere nella foto.
  • Arte digitale : Dall-e può produrre grafica digitale da un modello pre-progettato o da una descrizione dei colori e dei dettagli che vuoi vedere nella grafica.
  • Arte astratta : Dall-e può produrre opere astratte basate sui movimenti, i colori e le forme che vuoi vedere nell'opera.
  • Immagine : Dall-e può generare disegni basati sui colori e sulle forme che vuoi vedere nel disegno.
  • Arte vettoriale : Dall-e può generare immagini vettoriali da un modello predefinito o da una descrizione dei colori e dei dettagli che vuoi vedere nell'immagine.

Gli esempi di Dragon sono stati a priori realizzati in stile Digital Art. Lo stile influenzerà fortemente l'immagine finale generata.

Più forte ancora, è possibile richiedere stili di alcuni artisti famosi. Quindi abbiamo generato una chat nello stile Picasso, Van Gogh e Dalì ! E i risultati sono... piuttosto sbalorditivi!

Il nostro gatto disegnato dall'IA negli stili di 3 grandi maestri della pittura

  1. Gatto in stile Picasso
  2. Gatto in stile Van Gogh
  3. Gatto in stile Dali

Meglio, abbiamo poi chiesto un “ Gatto in stile Picasso e Dalì e Van Gogh e abbiamo ottenuto questo:

Abbiamo anche richiesto "Maiale in stile Picasso" e il risultato è stato altrettanto, se non di più, impressionante...

È probabile che le IA rivoluzioneranno il campo dell'arte e di Internet nei prossimi anni, come già accade con gli NFT speculativi.

Leggi anche:  Res legale: i dati legali e di energia elettrica da fonti rinnovabili in Europa

Comprendiamo il diffidenza dei professionisti dell'arte nei confronti di queste IA artistiche, le loro paure sono le stesse di quelle dell'editoria e della creazione letteraria nei confronti di chatbot come ChatGPT! Hanno ragione, tutti questi timori sono, a nostro avviso, giustificati!

Quali sono i diversi metodi per richiedere la creazione di un'immagine con Dall-e?

Diversi metodi possono essere utilizzati per indicare la creazione di un'immagine con Dalle-e, inclusi metodi grafici per un risultato più rapido corrispondente alle tue esigenze:

  • Generazione di immagini da parole chiave : puoi inserire una parola chiave e Dall-e produrrà un'immagine basata sulle parole chiave che hai inserito.
  • Generazione di immagini da frasi : puoi inserire una frase completa e Dall-e produrrà un'immagine basata sulla frase che hai inserito.
  • Generazione di immagini dalle descrizioni delle immagini : Dall-e può generare immagini da una descrizione dettagliata dei colori, delle forme e degli oggetti che vuoi vedere nell'immagine.
  • Generazione di immagini da scene : Dall-e può generare immagini 3D da una descrizione completa di una scena.
  • Generazione di immagini da modelli : Dall-e può generare immagini dai modelli inseriti.
  • Generazione di immagini da modelli : puoi fornire a Dall-e un modello predefinito e produrrà immagini basate sul modello che hai fornito.
  • Generazione di immagini da sequenze animate : Dall-e può generare sequenze animate dalla descrizione di movimenti, colori e suoni che vuoi vedere nella sequenza.

Immagini realistiche ma improbabili

Abbiamo quindi chiesto ai nostri generatori di immagini AI di disegnarci un'insalata con gli occhi : due elementi che a prima vista non vanno d'accordo. Eppure, in questa fase, i nostri 3 generatori sono passati senza alcuna apparente difficoltà.

1. Le quattro immagini, di un'insalata con gli occhi, proposte da DALL-E

2. Le due immagini corrispondenti alla nostra richiesta generata da Stable Diffusion

3. E le due immagini corrispondenti per lo strumento Canva

Anche in questo caso ogni immagine ha il suo stile, ma ciò che colpisce particolarmente è il realismo delle diverse immagini: le IA hanno utilizzato lo stile fotografico.

Riconosciamo particolarmente bene i cibi, al punto che potremmo voler riprodurre le diverse idee proposte in cucina. Se Canva si distingue per originalità proponendo comunque un'immagine con ispirazioni "emoticon", è qui DALL-E che vince il punto con quattro immagini diverse e tutte nel tema richiesto.

Tra i flop di Stable Diffusion, vale ancora la pena tornare su una delle immagini

Infatti, su questa immagine eliminata perché priva di occhi, si vede invece lo sforzo di realismo dell'IA nella rappresentazione del piano di lavoro.

Le nostre IA sono infatti in grado di collegare la parola “insalata” all'ambiente corrispondente. Questo era già il caso delle immagini sopra con la rappresentazione di piatti, forchette e altri elementi legati al campo culinario.

Flop che restano comunque regolari

Nonostante la loro efficienza generale, le nostre IA generano ancora una buona quantità immagini mediocri e errate vede totalmente al passo con la domanda. Questo è stato il caso del nostro Cappello a forma di Torre Eiffel.

DALL-E vince il punto con la sua unica immagine che si avvicina alla nostra richiesta: un cappello bianco, sormontato da una Torre in miniatura che immagineremmo perfettamente sulla capo di Geneviève de Fontenay !

A parte questa risatina offerta dall'IA di Open AI, le altre immagini erano o troppo realistiche, rappresentando semplicemente uno degli elementi oscurando l'altro:

Nella prima immagine Stable Diffusion rappresenta la Torre, mentre nella seconda DALL-E ha scelto di inviarci una pila di cappelli, oscurando anche la seconda parte della nostra richiesta.

O avevano un'interpretazione errata della richiesta come in queste due immagini in cui DALL-E rappresenta piuttosto delle statuette ricordo della Torre Eiffel:

Leggi anche:  Ma-Bonne-Action.com, la solidarietà di marketing, umanitario e caritatevole

Infine, alcune immagini sono a volte del tutto insolite, come nel caso di questa immagine che doveva rappresentare una "persona dell'immaginazione di IA Stable Diffusion" che poi ha scelto di aggiungere spontaneamente una citazione in una lingua sconosciuta...vicino all'inglese...

Una sensibilità che a volte varia parola per parola

Effettuando i test, ci rendiamo presto conto che a volte è sufficiente che la nostra IA corregga la situazione in caso di risultati insoddisfacenti. Quindi, quando chiediamo per la prima volta alla nostra IA "una città fluttuante in un cielo nuvoloso" selezionando l'immagine migliore per ognuna di esse, otteniamo il seguente risultato:

Rispettivamente dall'alto verso il basso, i risultati di Stable Diffusion, DALL-E e Canva

Immagini molto belle, ma che non rispecchiano proprio la connotazione "irreale" della nostra richiesta intesa dagli umani ma apparentemente non dai nostri generatori. Basta un sottile cambiamento nella domanda per ottenere risultati completamente diversi.

Quindi con la frase "una fantastica città che galleggia in un cielo nuvoloso" otteniamo questa volta:

1. Immagini molto più fantasiose di DALL-E

2. Città fantastiche molto carine da Stable Diffusion che però omette completamente la parte “fluttuare in un cielo nuvoloso”

3. Alcune scene che potrebbero essere tratte da un videogioco (Minecraft o Lego Worlds per esempio) di Canva

Qui possiamo assegnare un punto a DALL-E e Canva che sono riusciti entrambi, attraverso l'una o l'altra delle nostre richieste, a far fluttuare la nostra città tra le nuvole.

Ma allora, quale futuro per la generazione di immagini?

Di fronte a una soluzione che nel complesso funziona abbastanza bene, viene da chiedersi quali possano essere gli usi futuri della generazione di immagini da parte dell'intelligenza artificiale. Naturalmente si è tentati di citare qui la creazione di fallimenti su internet, non esitate a venire posta sul nostro forum quelli che potresti aver già incontrato online.

Ma possiamo anche immaginare usi più seri. Quindi i risultati ottenuti chiedendo allo strumento Canva di creare un'immagine di un "albero che in realtà è una casa" potrebbero facilmente dare idee a un architetto incaricato di creare habitat che possano fondersi con la natura!

Ma allora, quale dei nostri 3 generatori di immagini sta facendo meglio?

Per l'albero che sarebbe anche una casa, diamo facilmente un punto a ogni attrezzo!

Esempi di immagini proposte rispettivamente da DALL-E, Stable Diffusion e poi dallo strumento Canva

L'auto con le ali di uccello aveva sfidato tutte le nostre IA, ma l'auto che può volare ha permesso a Canva e Stable Diffusion di distinguersi con alcuni rendering futuristici piuttosto realistici:

Rispettivamente Diffusione stabile in alto e Canva in basso.

Finalmente DALL-E si è dimostrato abbastanza efficiente con il suo edificio a forma di drago (che rimane però in costruzione), e Canva ha saputo soddisfare al meglio la richiesta di un ritratto che avevamo un po' modificato sostituendo la celebrità con "una persona dall'immaginazione dell'IA".

Nonostante alcuni elementi suggeriscano la generazione dell'immagine dietro i due ritratti di Canva, il realismo è ancora sorprendente.

Nel conteggio finale, questi sono quindi DALL-E e lo strumento di Canva che vincono rispettivamente 5 punti ciascuno.

Sono generalmente in grado di fornire risultati in linea con la maggior parte delle richieste degli utenti.

Canva si distingue per il suo realismo mentre DALL-E sembra più rilevante non appena la richiesta richiede l'immaginazione o il campo della pittura.

Tuttavia, nonostante solo 2 punti, Stable Diffusion non fallisce nella qualità dell'immagine che è in grado di fornire! Lo svantaggio sta nella sua comprensione delle richieste degli utenti poiché spesso tende a rimanere molto con i piedi per terra. Tuttavia, rimane anche molto interessante da scoprire.

Ad ogni modo, negli anni a venire possiamo aspettarci di vedere l'intelligenza artificiale rivoluzionare molti settori di attività. E sicuramente più veloce di quanto alcuni pensino da allora libri scritti, in parte o per intero, da AI sono già in vendita su Amazon…Ne ha parlato qualche giorno fa questo breve video report di BFMTV:

Per eventuali commenti o domande, visitare l'oggetto del forum dedicato all'IA.

Lascia un commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *