Da DALL-E 2 a Imagen: quando i computer sfidano i migliori pittori surrealisti

Variazioni su una sedia a forma di avocado

Un’altra gatta da pelare per la società americana OpenAI. A poche settimane dalla celebrazione in pompa magna del generatore automatico di immagini DALL-E 2 (nome da leggere “dall-i”, non troppo diversamente dal surrealista Salvador Dalì), Google Brain ha rilasciato Imagen, un modello neurale capace anch’esso di creare immagini, ma con una migliore qualità rispetto al prodotto di OpenAI, come dimostrano sia le metriche standard di valutazione utilizzate nel settore e sia l’opinione di diversi giudici umani.

È la seconda volta nell’arco di qualche mese che il lancio di un modello premium di OpenAI viene sfidato da un’altra big tech. È, infatti, ancora bollente la notizia che Meta AI (la società madre di Facebook) ha rilasciato OPT (Open Pretrained Transformer), un language model in grado di generare testi di qualità comparabile a GPT-3 (Generative Pretrained Transformer) di OpenAI.

Queste sfide sono l’emblema di un’accelerazione nella creazione di prodotti di intelligenza artificiale, sia per soddisfare la crescente domanda dell’industria, sia per accaparrarsi nuovi mercati, con applicazioni che non sono state finora nemmeno immaginate. I generatori sono infatti modelli versatili, che oltre allo scopo ludico (creare testi o immagini per divertimento) possono essere sfruttati per centinaia – se non migliaia – di applicazioni, in campi diversissimi, come il marketing, l’informazione, le risorse umane, la finanza, la sanità, etc.

Questi sistemi sono infatti in grado di raccogliere un input (ad esempio una descrizione) e generare un output (ad esempio, un’immagine o una storia) che risulterebbe potenzialmente sensato a un essere umano. Esempi di possibili applicazioni sono la risposta a domande, l’identificazione di informazioni in documenti, la generazione di slogan, il supporto alla scrittura, l’abbozzo di storie, la valutazione comunicativa, la produzione automatica di articoli giornalistici, il design, l’architettura, il riconoscimento di eventi o oggetti nelle immagini, la generazione di identikit, etc.

La potenza dei modelli come DALL-E 2 e Imagen è illimitata, al punto da poter sfidare i più grandi surrealisti, come Dalì. In un esperimento con la prima versione di DALL-E, OpenAI aveva chiesto al generatore di creare una poltrona a forma di avocado e il sistema ne aveva generata una altamente plausibile. Si tratta di una capacità estrema, perché significa che il sistema riesce a riconoscere quali sono gli elementi costituenti e identificativi sia dell’avocado (la forma arrotondata, il colore, etc.) che della poltrona stessa (i piedi, gli appoggiabraccia, etc.), e trova il modo per fonderli in maniera armoniosa.

Per ottenere tali capacità, questi modelli sono allenati ad associare migliaia di immagini (a colori, in bianco e nero, intere, tagliate, ruotate) per ogni categoria, riuscendo ad astrarre man mano le caratteristiche comuni tra i concetti.

Da quest’esposizione ai dati, i generatori imparano sia gli aspetti positivi che quelli negativi della realtà. E sebbene sia OpenAI che Google Brain pubblicizzino i loro modelli con cagnolini e gattini in situazioni divertenti, i loro modelli DALL-E 2 e Imagen – poiché privi di una coscienza morale – sono potenzialmente pericolosi, perché potrebbero sfruttare in qualsiasi momento pregiudizi (come quelli sociali, etnici o di sesso).

Quando nel 2020 questo rischio venne sollevato a Google dal gruppo etico interno, la discussione terminò col licenziamento di due ricercatrici. Ma questo non è bastato a cancellare lo scetticismo riguardo l’uso di queste tecnologie in domini o applicazioni che possono avere un impatto sulla vita umana, come ad esempio le risorse umane o la medicina.

La recente pubblicazione per la comunità scientifica del generatore di testi OPT da parte di Meta AI fa sperare che maggiore ricerca nel settore porterà a modelli non solo più potenti, ma anche più giusti. Un simile passo è auspicabile anche per i generatori di immagini.

Enrico Santus è Direttore di Intelligenza Artificiale e Machine Learning a Bayer. Nato in Sardegna nel 1986, Enrico si è laureato in Lettere e Linguistica Computazionale all’Università di Pisa, trasferendosi poi in Asia per continuare le sue ricerche nel settore dell’AI. Durante gli studi, Enrico ha lavorato come Lead per Lionbridge, curando progetti per Microsoft. Nel 2016, dopo aver ottenuto il dottorato in Natural Language Processing (NLP) all’Hong Kong Polytechnic University, Enrico si è trasferito a Singapore, dove ha condotto ricerche nel campo del sentiment analysis e della predizione del mercato finanziario al SUTD. Da circa cinque anni, Enrico vive negli Stati Uniti, dove ha lavorato al MIT di Boston, con focus sul campo medico e farmaceutico. In questo periodo, Enrico ha sviluppato sistemi di AI per aziende quali Bayer, Amgen e per cliniche quali Dana Farber e il Massachusetts General Hospital. Nel 2019, Enrico è stato invitato a parlare di intelligenza artificiale alla Casa Bianca. Nello stesso anno, è anche stato co-autore dell’AI Factsheet voluto dal Belfer Center for Science and International Affairs per supportare organismi regolamentatori come il Congresso Americano.