
Nel panorama dell’intelligenza artificiale, la generazione di immagini si profila come un settore in rapida evoluzione, e OpenAI, con il suo ultimo modello DALL-E 3, sembra aver raggiunto un nuovo apice tecnologico, spingendo ulteriormente i confini tra descrizione testuale e rappresentazione visiva. La capacità di trasformare descrizioni verbali in immagini visive coerenti e dettagliate rappresenta un salto qualitativo non indifferente nel campo della sintesi di immagini con l’AI.
Il modello DALL-E 3, evoluzione dei suoi predecessori, si distingue per l’abilità nel creare immagini seguendo con precisione descrizioni complesse e gestendo la generazione di testo all’interno delle immagini, una capacità difficile (per non dire impossibile) da ottenere nei modelli precedenti. La tecnologia alla base di DALL-E utilizza una tecnica denominata diffusione latente, ormai la più usata nella generazione di immagini con l’AI, che fa emergere il risultato riducendo progressivamente il rumore gaussiano (come ho cercato di spiegare qui in occasione di DALL-E 2).
Il modello, per evitare controversie legate ai diritti d’autore, è stato progettato per rifiutare richieste che chiedono un’immagine nello stile di un artista vivente e OpenAI ha previsto un modulo attraverso il quale i creatori possono scegliere di non avere le loro immagini utilizzate per addestrare futuri modelli. La politica attuale degli Stati Uniti afferma che le opere d’arte generate interamente dall’intelligenza artificiale non possono ricevere protezione di copyright, lasciando quindi tecnicamente qualsiasi immagine creata con DALL-E 3 nel pubblico dominio.
Nel frattempo, Microsoft ha introdotto DALL-E 3 nei suoi servizi Bing Chat e Bing Image Creator, rendendo il modello disponibile gratuitamente a un pubblico più ampio, non senza incontrare sfide iniziali legate alla gestione della domanda degli utenti e ai problemi di sovraccarico del server. (In effetti, l’immagine a corredo di questo articolo, generata con il prompt “un computer che genera immagini” è stata creata con il concorrente Midjourney perché DALL-E 3 dopo più di un’ora ancora non aveva prodotto niente.)
La disponibilità di DALL-E 3 al grande pubblico e la sua integrazione in piattaforme accessibili come Bing Chat aprono scenari interessanti, ma anche complessi, in termini di gestione della domanda, sicurezza e questioni etiche.
Per provare DALL-E 3 da Bing Chat fate clic qui.