Foundation Models: cambio di paradigma per l’AI o semplice rebranding?

Biblioteca

Ad agosto numerosi ricercatori dello Stanford Institute for Human-Centered Artificial Intelligence (HAI), un laboratorio molto importante noto anche per la pubblicazione annuale dello AI Index Report, hanno pubblicato uno studio intitolato On the Opportunities and Risks of Foundation Models. Con l’occasione è stato presentato anche il neonato Center for Research on Foundation Models (CRFM), un centro nato proprio per condurre ricerca su questi modelli.

Ma cosa sono esattamente i Foundation Model?

I Foundation Model, come chiariscono subito i ricercatori, non sono altro che i Large Language Model (LLM), come ad esempio GPT-3 di OpenAI, DALL-E della stessa azienda, o BERT di Google. Tuttavia, secondo gli esponenti di Stanford, questi modelli sono così vasti e così importanti che definirli semplicemente LLM non basta più. Essi sono critici ma, come si legge nella presentazione dello studio, ancora incompleti.

Un altro dei motivi che ha spinto i ricercatori a distanziarsi dalla definizione di Large Language Model consiste nel fatto che i Foundation Model non si limitano a una semplice elaborazione del linguaggio. Essi possono estendersi alla visione (come fa DALL-E), all’audio, ai segnali più strutturati. I loro effetti, poi, non si esauriscono con una banale rielaborazione dell’input: questi enormi modelli possono generare contenuti, rispondere a domande, analizzare le emozioni, riconoscere oggetti, interagire con gli esseri umani in task complessi. Aggiungendo una architettura multimodale, poi, consentirebbe loro di integrare queste disparate funzioni in un unico ambiente, contribuendo a creare nuovi casi d’uso e nuovi modi di interagire con gli esseri umani.

Infine, i Foundation Model possono determinare la comparsa di proprietà emergenti, ovvero comportamenti “implicitamente indotti piuttosto che esplicitamente costruiti” (basti pensare alla capacità di GPT-3 di imparare dal contesto, adattando i suoi output in base ai suggerimenti offerti dagli utenti, proprietà che non era stata prevista dagli sviluppatori), e incoraggiano quella che nel testo viene chiamata omogeneizzazione, che noi potremmo anche definire armonizzazione delle tecniche: sviluppatori terzi tendono a creare modelli AI e approcci simili fra loro, ispirati dal Foundation Model, applicandoli a una grande varietà di compiti diversi.

In poche parole essi sarebbero, per usare l’espressione impegnativa usata dagli stessi ricercatori di Stanford, un cambio di paradigma per l’intelligenza artificiale.

Input e output di un foundation model
Input e output di un foundation model, da On the Opportunities and Risks of Foundation Models

Il lungo rapporto di circa 200 pagine fa una disamina approfondita delle opportunità e dei rischi dei Foundation Model, dalle loro capacità (linguaggio, visione, robotica, ragionamento, interazione umana) e principi tecnici (architetture, procedure di formazione, dati, sistemi, sicurezza, valutazione, teoria) fino alle loro applicazioni (sanità, istruzione, giurisprudenza) e all’impatto sociale (bias, pregiudizi, uso improprio, impatto economico, impatto ambientale, considerazioni legali ed etiche).

Ma l’iniziativa di Stanford ha attirato numerose critiche. La più “dietrologa” è stata Meredith Whittaker, direttrice dello AI Now Institute, che ha commentato questa mossa come “un tentativo di cancellazione” del termine Large Language Model, visto che in questi ultimi anni i LLM sono stati colpevoli di molti dei passi falsi etici attribuiti all’intelligenza artificiale. “Se qualcuno cerca su Google ‘foundation model’ non troverà la storia che include il licenziamento di Timnit [Gebru, n.d.r.] per aver criticato i grandi modelli linguistici. Questo rebrand fa qualcosa di molto concreto in un universo dominato dal SEO. Serve a disconnettere gli LLM dalle critiche che hanno fin qui raccolto” ha proseguito Whittaker.

Ugualmente caustico è stato Jitendra Malik, professore alla University of California, Berkeley, nonché preminente esperto di visione artificiale, che in un workshop sui Foundation Models (workshop che vi consiglio di seguire su Youtube, se vi interessa la materia) ha dichiarato “Io credo che il termine ‘foundation’ sia spaventosamente sbagliato. Questi modelli in realtà sono castelli in aria. Non hanno alcun tipo di fondamenta.”

Nella polemica si è inserito anche Judea Pearl, premio Turing 2011 e uno dei massimi esperti di inferenza causale, che attraverso Twitter si è domandato, polemicamente, che cosa sia un Foundation Model. Secondo Pearl manca il principio fondamentale che conferisca a questi modelli l’appellativo di “fondanti”.

C’è poi una preoccupazione da parte di molti ricercatori, anche di discipline attigue, riassunta dalla linguista Emily Bender che sempre su Twitter ha scritto “i LLM e le troppe promesse a essi associate tolgono ossigeno a tutti gli altri tipi di ricerca”.

Ed è questa forse l’inquietudine più grande – che, per inciso, sento anche io – quando qualcuno conferisce la palma di “fondante” o “fondamentale” a dei modelli che anzitutto hanno dimostrato limiti preoccupanti (non solo bias, ma anche l’incapacità di eseguire compiti semplicissimi come le operazioni aritmetiche) e dall’altra non possono certo rappresentare tutta la ricerca espressa oggi dalla moltitudine di discipline che compongono l’intelligenza artificiale. Il deep learning, su cui si basano i Foundation Model, è sì intelligenza artificiale, ma non tutta l’intelligenza artificiale è deep learning. Inoltre, anche restando nell’area del deep learning, i Foundation Model non coprono certo tutta la ricerca e tutte le applicazioni di DL, molti esempi di successo come i modelli di DeepMind si basano su architetture specifiche e specializzate. AlphaGo o AlphaFold non sono dei Foundation Model.

Quello che sembra, e qui prendo in prestito il cappello di dietrologo dalla Whittaker, è che le motivazioni che hanno spinto Stanford e l’HAI a “inventarsi” i Foundation Model e a creare un intero centro di studio attorno a essi siano più di natura opportunistica. Ricordiamo che i LLM sono stati sviluppati dall’industria (Google con BERT, Microsoft e OpenAI con GPT-3 e DALL-E, AI21Labs con Jurassic-1) anche perché le risorse necessarie per addestrarli sono proibitive per chiunque fuorché per le grandi aziende. Il mondo accademico quindi è stato per lo più a guardare, sorpassato a gran velocità dalle Big tech che realizzavano reti neurali gigantesche e costosissime, dovendosi accontentare di studiare questi modelli soprattutto dall’esterno.

Aprire un centro specializzato in LLM e imporre loro un cambio di nome (nome che coincide con quello del centro) mi sembra un tentativo da parte di Stanford di afferrare questa bandiera e strattonarla verso di sé. Magari non arrivando a rubarla poiché l’università, per quanto blasonata, non ha le risorse di una Google o di una Microsoft, ma reclamando da ora in poi un posto al ‘tavolo dei grandi’ quando si parla di questo tipo di modelli.

Quindi, dove per qualcuno c’è prevalentemente uno sfrontato regalo a Google e OpenAI, che vedrebbero così ripulita la “fedina penale” dei loro molto criticati LLM, io vedo una più ampia opera di riposizionamento strategico all’interno del settore da parte di un polo accademico che ha senz’altro le menti e le competenze per farlo (e sicuramente anche i fondi), che ha il sentore delle prossime dirompenti rivoluzioni sul commercio e sulla società che questi modelli sembrano promettere, e che non vuole stare in seconda fila quando tutto questo accadrà.

Sono partner e fondatore di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti l'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI), della Association for Computing Machinery (ACM) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.