
Immaginate di avere a casa vostra un robo-assistente. Meccanico e goffo come C-3PO oppure un androide avanzato come nelle serie TV moderne, per questo esempio non fa differenza. L’assistente vi guarda, vede che vi siete vestiti bene e vi chiede “hai un abito professionale, stai andando in ufficio?”
Per ora questa semplice osservazione è ancora fuori della portata dei più diffusi sistemi di intelligenza artificiale in commercio. Può sembrare strano, ma nessun prodotto AI oggi in circolazione è in grado di fare una semplice associazione linguistico-visuale come quella di guardare come vi siete vestiti ed esprimere, con parole normali, un concetto collegato alla situazione. Magari formulando una domanda correlata come quella dell’esempio.
I sistemi di intelligenza artificiale, come non smettiamo mai di ripetere, in genere fanno una sola cosa e cercano di farla bene. Per questo motivo la categoria di soluzioni viene chiamata AI “stretta”, poiché non esce fuori dai binari operativi e funzionali che le vengono dati. Molti sono gli sforzi di ricerca finalizzati a dare ai sistemi di intelligenza artificiale maggiore ampiezza, per farli generalizzare verso altri compiti, ma i risultati sono spesso deludenti. Un sistema di visione artificiale sarà senz’altro in grado di guardare mille persone diverse e categorizzarle in base agli abiti indossati, e i sistemi di elaborazione del linguaggio naturale sono sempre più performanti nel chiacchierare con gli esseri umani, ma far confluire queste due caratteristiche in un unico sistema AI è un compito per ora molto arduo.
Negli ultimi anni, tuttavia, si è aperto un filone di ricerca promettente, che mira a far collaborare insieme queste due diverse modalità non solo per ottenere risultati più simili all’emulazione dell’intelligenza (un assistente che commenta ciò che vede sicuramente potrà sembrare un’entità intelligente), ma anche per migliorare le performance dei singoli sistemi.
Su quest’ultimo aspetto è utile citare lo studio di due ricercatori della University of North Carolina, che hanno sperimentato la “vokenization”, ovvero l’associazione di token linguistici (un token è un singolo elemento di un linguaggio) a immagini visive contestuali, dette “voken”. L’appaiamento fra token testuale e voken visivo aiuta il modello a districarsi fra testo e significato, affinando inoltre le prestazioni in caso di termini ambigui. Per fare un esempio, il termine “riso” può indicare il cereale così come una reazione di ilarità. I modelli di elaborazione del linguaggio non sempre sono in grado di distinguere il contesto, ma l’associazione del termine utilizzato a un’immagine visiva permette al modello di indovinare più spesso il riferimento corretto. Alcuni test dimostrano che i modelli di linguaggio potenziati dai voken offrono performance migliori rispetto agli stessi modelli senza voken.
Associare immagini e parlato non è altro che un’ispirazione presa dallo sviluppo di noi esseri umani: da bambini impariamo a conoscere il mondo circostante guardandolo e commentandolo, associando i suoni alle cose che vediamo. Man mano che cresciamo, la capacità di descrivere immagini e suoni ci consente di comprendere fenomeni sempre più complessi e profondi. La strada che sta prendendo la ricerca AI oggi è far interagire sistemi diversi per tentare di far germogliare quella comprensione del contesto che oggi all’intelligenza artificiale ancora manca, i cosiddetti sistemi multimodali. Ne è un altro esempio DALL-E, il sistema descritto qualche settimana fa su queste stesse pagine, che si serve del testo per generare immagini realistiche e creative. Linguaggio e visione insieme possono ottenere risultati per certi versi maggiori della somma delle loro parti, ed è per questo che in futuro vedremo molti più tentativi di farli coabitare, se non in un unico sistema, perlomeno in un framework condiviso.
Ma la ricerca non si fermerà con testo e immagini, la direzione dei sistemi multimodali è quella di usare più modelli per migliorare le performance complessive sia sul piano della versatilità, sia su quello dell’emulazione dell’intelligenza generale. Per questo motivo aspettiamoci sistemi che integrino anche l’audio, la ricerca, le decisioni, per non parlare ovviamente della robotica. Non sarà ancora intelligenza artificiale forte, ma potrebbe gettare le basi per una comprensione più profonda da parte dei sistemi AI del nesso causale e della comprensione del senso comune, due dei molti gradini che ancora ci separano dalla nascita dell’intelligenza artificiale generale.