I sistemi multimodali saranno il prossimo grande passo dell’AI

Androide AGI

Immaginate di avere a casa vostra un robo-assistente. Meccanico e goffo come C-3PO oppure un androide avanzato come nelle serie TV moderne, per questo esempio non fa differenza. L’assistente vi guarda, vede che vi siete vestiti bene e vi chiede “hai un abito professionale, stai andando in ufficio?”

Per ora questa semplice osservazione è ancora fuori della portata dei più diffusi sistemi di intelligenza artificiale in commercio. Può sembrare strano, ma nessun prodotto AI oggi in circolazione è in grado di fare una semplice associazione linguistico-visuale come quella di guardare come vi siete vestiti ed esprimere, con parole normali, un concetto collegato alla situazione. Magari formulando una domanda correlata come quella dell’esempio.

I sistemi di intelligenza artificiale, come non smettiamo mai di ripetere, in genere fanno una sola cosa e cercano di farla bene. Per questo motivo la categoria di soluzioni viene chiamata AI “stretta”, poiché non esce fuori dai binari operativi e funzionali che le vengono dati. Molti sono gli sforzi di ricerca finalizzati a dare ai sistemi di intelligenza artificiale maggiore ampiezza, per farli generalizzare verso altri compiti, ma i risultati sono spesso deludenti. Un sistema di visione artificiale sarà senz’altro in grado di guardare mille persone diverse e categorizzarle in base agli abiti indossati, e i sistemi di elaborazione del linguaggio naturale sono sempre più performanti nel chiacchierare con gli esseri umani, ma far confluire queste due caratteristiche in un unico sistema AI è un compito per ora molto arduo.

Negli ultimi anni, tuttavia, si è aperto un filone di ricerca promettente, che mira a far collaborare insieme queste due diverse modalità non solo per ottenere risultati più simili all’emulazione dell’intelligenza (un assistente che commenta ciò che vede sicuramente potrà sembrare un’entità intelligente), ma anche per migliorare le performance dei singoli sistemi.

Su quest’ultimo aspetto è utile citare lo studio di due ricercatori della University of North Carolina, che hanno sperimentato la “vokenization”, ovvero l’associazione di token linguistici (un token è un singolo elemento di un linguaggio) a immagini visive contestuali, dette “voken”. L’appaiamento fra token testuale e voken visivo aiuta il modello a districarsi fra testo e significato, affinando inoltre le prestazioni in caso di termini ambigui. Per fare un esempio, il termine “riso” può indicare il cereale così come una reazione di ilarità. I modelli di elaborazione del linguaggio non sempre sono in grado di distinguere il contesto, ma l’associazione del termine utilizzato a un’immagine visiva permette al modello di indovinare più spesso il riferimento corretto. Alcuni test dimostrano che i modelli di linguaggio potenziati dai voken offrono performance migliori rispetto agli stessi modelli senza voken.

Vokenization

Associare immagini e parlato non è altro che un’ispirazione presa dallo sviluppo di noi esseri umani: da bambini impariamo a conoscere il mondo circostante guardandolo e commentandolo, associando i suoni alle cose che vediamo. Man mano che cresciamo, la capacità di descrivere immagini e suoni ci consente di comprendere fenomeni sempre più complessi e profondi. La strada che sta prendendo la ricerca AI oggi è far interagire sistemi diversi per tentare di far germogliare quella comprensione del contesto che oggi all’intelligenza artificiale ancora manca, i cosiddetti sistemi multimodali. Ne è un altro esempio DALL-E, il sistema descritto qualche settimana fa su queste stesse pagine, che si serve del testo per generare immagini realistiche e creative. Linguaggio e visione insieme possono ottenere risultati per certi versi maggiori della somma delle loro parti, ed è per questo che in futuro vedremo molti più tentativi di farli coabitare, se non in un unico sistema, perlomeno in un framework condiviso.

Ma la ricerca non si fermerà con testo e immagini, la direzione dei sistemi multimodali è quella di usare più modelli per migliorare le performance complessive sia sul piano della versatilità, sia su quello dell’emulazione dell’intelligenza generale. Per questo motivo aspettiamoci sistemi che integrino anche l’audio, la ricerca, le decisioni, per non parlare ovviamente della robotica. Non sarà ancora intelligenza artificiale forte, ma potrebbe gettare le basi per una comprensione più profonda da parte dei sistemi AI del nesso causale e della comprensione del senso comune, due dei molti gradini che ancora ci separano dalla nascita dell’intelligenza artificiale generale.

Sono partner e fondatore di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti l'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI), della Association for Computing Machinery (ACM) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.