
Un’altra gatta da pelare per la società americana OpenAI. A poche settimane dalla celebrazione in pompa magna del generatore automatico di immagini DALL-E 2 (nome da leggere “dall-i”, non troppo diversamente dal surrealista Salvador Dalì), Google Brain ha rilasciato Imagen, un modello neurale capace anch’esso di creare immagini, ma con una migliore qualità rispetto al prodotto di OpenAI, come dimostrano sia le metriche standard di valutazione utilizzate nel settore e sia l’opinione di diversi giudici umani.
È la seconda volta nell’arco di qualche mese che il lancio di un modello premium di OpenAI viene sfidato da un’altra big tech. È, infatti, ancora bollente la notizia che Meta AI (la società madre di Facebook) ha rilasciato OPT (Open Pretrained Transformer), un language model in grado di generare testi di qualità comparabile a GPT-3 (Generative Pretrained Transformer) di OpenAI.
Queste sfide sono l’emblema di un’accelerazione nella creazione di prodotti di intelligenza artificiale, sia per soddisfare la crescente domanda dell’industria, sia per accaparrarsi nuovi mercati, con applicazioni che non sono state finora nemmeno immaginate. I generatori sono infatti modelli versatili, che oltre allo scopo ludico (creare testi o immagini per divertimento) possono essere sfruttati per centinaia – se non migliaia – di applicazioni, in campi diversissimi, come il marketing, l’informazione, le risorse umane, la finanza, la sanità, etc.
Questi sistemi sono infatti in grado di raccogliere un input (ad esempio una descrizione) e generare un output (ad esempio, un’immagine o una storia) che risulterebbe potenzialmente sensato a un essere umano. Esempi di possibili applicazioni sono la risposta a domande, l’identificazione di informazioni in documenti, la generazione di slogan, il supporto alla scrittura, l’abbozzo di storie, la valutazione comunicativa, la produzione automatica di articoli giornalistici, il design, l’architettura, il riconoscimento di eventi o oggetti nelle immagini, la generazione di identikit, etc.
La potenza dei modelli come DALL-E 2 e Imagen è illimitata, al punto da poter sfidare i più grandi surrealisti, come Dalì. In un esperimento con la prima versione di DALL-E, OpenAI aveva chiesto al generatore di creare una poltrona a forma di avocado e il sistema ne aveva generata una altamente plausibile. Si tratta di una capacità estrema, perché significa che il sistema riesce a riconoscere quali sono gli elementi costituenti e identificativi sia dell’avocado (la forma arrotondata, il colore, etc.) che della poltrona stessa (i piedi, gli appoggiabraccia, etc.), e trova il modo per fonderli in maniera armoniosa.
Per ottenere tali capacità, questi modelli sono allenati ad associare migliaia di immagini (a colori, in bianco e nero, intere, tagliate, ruotate) per ogni categoria, riuscendo ad astrarre man mano le caratteristiche comuni tra i concetti.
Da quest’esposizione ai dati, i generatori imparano sia gli aspetti positivi che quelli negativi della realtà. E sebbene sia OpenAI che Google Brain pubblicizzino i loro modelli con cagnolini e gattini in situazioni divertenti, i loro modelli DALL-E 2 e Imagen – poiché privi di una coscienza morale – sono potenzialmente pericolosi, perché potrebbero sfruttare in qualsiasi momento pregiudizi (come quelli sociali, etnici o di sesso).
Quando nel 2020 questo rischio venne sollevato a Google dal gruppo etico interno, la discussione terminò col licenziamento di due ricercatrici. Ma questo non è bastato a cancellare lo scetticismo riguardo l’uso di queste tecnologie in domini o applicazioni che possono avere un impatto sulla vita umana, come ad esempio le risorse umane o la medicina.
La recente pubblicazione per la comunità scientifica del generatore di testi OPT da parte di Meta AI fa sperare che maggiore ricerca nel settore porterà a modelli non solo più potenti, ma anche più giusti. Un simile passo è auspicabile anche per i generatori di immagini.