DALL-E 3 di OpenAI ora disponibile su Bing

Un computer che crea immagini, immaginato con Stable diffusion

Nel panorama dell’intelligenza artificiale, la generazione di immagini si profila come un settore in rapida evoluzione, e OpenAI, con il suo ultimo modello DALL-E 3, sembra aver raggiunto un nuovo apice tecnologico, spingendo ulteriormente i confini tra descrizione testuale e rappresentazione visiva. La capacità di trasformare descrizioni verbali in immagini visive coerenti e dettagliate rappresenta un salto qualitativo non indifferente nel campo della sintesi di immagini con l’AI.

Il modello DALL-E 3, evoluzione dei suoi predecessori, si distingue per l’abilità nel creare immagini seguendo con precisione descrizioni complesse e gestendo la generazione di testo all’interno delle immagini, una capacità difficile (per non dire impossibile) da ottenere nei modelli precedenti. La tecnologia alla base di DALL-E utilizza una tecnica denominata diffusione latente, ormai la più usata nella generazione di immagini con l’AI, che fa emergere il risultato riducendo progressivamente il rumore gaussiano (come ho cercato di spiegare qui in occasione di DALL-E 2).

Il modello, per evitare controversie legate ai diritti d’autore, è stato progettato per rifiutare richieste che chiedono un’immagine nello stile di un artista vivente e OpenAI ha previsto un modulo attraverso il quale i creatori possono scegliere di non avere le loro immagini utilizzate per addestrare futuri modelli. La politica attuale degli Stati Uniti afferma che le opere d’arte generate interamente dall’intelligenza artificiale non possono ricevere protezione di copyright, lasciando quindi tecnicamente qualsiasi immagine creata con DALL-E 3 nel pubblico dominio.

Nel frattempo, Microsoft ha introdotto DALL-E 3 nei suoi servizi Bing Chat e Bing Image Creator, rendendo il modello disponibile gratuitamente a un pubblico più ampio, non senza incontrare sfide iniziali legate alla gestione della domanda degli utenti e ai problemi di sovraccarico del server. (In effetti, l’immagine a corredo di questo articolo, generata con il prompt “un computer che genera immagini” è stata creata con il concorrente Midjourney perché DALL-E 3 dopo più di un’ora ancora non aveva prodotto niente.)

La disponibilità di DALL-E 3 al grande pubblico e la sua integrazione in piattaforme accessibili come Bing Chat aprono scenari interessanti, ma anche complessi, in termini di gestione della domanda, sicurezza e questioni etiche.

Per provare DALL-E 3 da Bing Chat fate clic qui.

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.