Il numero dell’AI: la ricerca di una metrica universale

Rete neurale

Vita e lavoro sono spesso scandite da alcune metriche che, giuste o sbagliate che siano, misurano la progressione, la crescita (o decrescita) rispetto a un determinato periodo. Pensiamo ad esempio a indicatori come il PIL per misurare la ricchezza di un Paese o alle emissioni di CO2 per determinare il livello di inquinamento. Singoli numeri dai quali, per semplicità, cerchiamo di derivare lo stato delle cose in un ambito molto più ampio.

Anche l’intelligenza artificiale ha bisogno del suo numero, del suo indicatore statistico dal quale derivare la velocità del progresso tecnologico. Ma mentre indicatori come il PIL sono stati adottati per convenzione (nel caso del PIL persino il suo creatore ne sconsigliò l’uso come misura del welfare di una nazione), la metrica dell’AI dovrà essere decisa a tavolino e dovrà mettere d’accordo (quasi) tutti.

Per quanto riguarda le reti neurali (che non rappresentano tutta l’AI, ma che sono comunque una parte essenziale) ci hanno provato due ricercatori di OpenAI, Danny Hernandez e Tom B. Brown, che in un recente paper propongono l’efficienza degli algoritmi come la misura principale da tenere in considerazione.

Fra i tre fattori che sostengono la crescita dell’intelligenza artificiale vi sono l’innovazione degli algoritmi, i dati e le risorse computazionali disponibili per il training. Di questi tre, il primo è sempre stato il più difficile da quantificare. Per farlo quindi i ricercatori propongono di guardare a un traguardo del passato e calcolare quante risorse computazionali sarebbero necessarie oggi per raggiungerlo. Minori risorse equivalgono a una maggiore efficienza dell’algoritmo.

Un po’ come dire, e i lettori più tecnici mi perdoneranno l’iper-semplificazione, che se negli anni sessanta del secolo scorso per eseguire un determinato calcolo in un certo periodo di tempo avevamo bisogno di un computer grande come una stanza, oggi il medesimo calcolo si esegue nello stesso tempo con un chip più piccolo di un’unghia. Questa differenza, misurabile, ci permette di capire quanto è aumentata l’efficienza.

In maniera analoga i ricercatori di OpenAI hanno usato come benchmark il training necessario per portare un classificatore a raggiungere i risultati di AlexNet su ImageNet (nel 2012 una rete CNN chiamata AlexNet vinse la gara “ImageNet Large Scale Visual Recognition Challenge” e diede inizio alla rivoluzione del deep learning). Come risultato di AlexNet (“AlexNet-level” nel paper) si intende un tasso di successo del 79,1% in una serie di compiti di classificazione.

Una volta stabilito questo traguardo, i ricercatori hanno calcolato le operazioni in virgola mobile necessarie per eseguire un training tale da far raggiungere a una rete neurale lo stesso risultato, stabilendo così che dal 2012 al 2019 esse sono diminuite di 44 volte. In altre parole, gli algoritmi del 2019 sono 44 volte più efficienti rispetto a quelli del 2012, con un raddoppio medio dell’efficienza ogni 16 mesi.

Il raddoppio dell’efficienza ha ovviamente richiamato similitudini con l’agonizzante legge di Moore, citata più volte nella ricerca. Ma lo studio è molto cauto nell’ipotizzare una simile legge anche per l’intelligenza artificiale, lasciando l’esistenza o meno di una “legge di Moore per l’AI” come una domanda aperta.

Come tutte le metriche con l’ambizione di essere “universali” anche questa presenta limiti non indifferenti, come viene peraltro spiegato dagli stessi ricercatori nel post sul blog di OpenAI. Ad esempio, calcolare quanto gli algoritmi siano diventati efficienti a svolgere un training molto specifico è una misura che non tiene conto dei molti altri ambiti di applicazione, visto che l’AI non è solo computer vision. In teoria sarebbe possibile applicare a ogni “dominio” dell’AI un trend di efficienza, i risultati però sarebbero molto diversi fra loro, con buona pace dell’indicatore unico. Un esempio sul blog infatti rileva come un trend di efficienza applicato a un benchmark di traduzione dall’inglese al francese (WMT’14) abbia portato il modello Transformer a sorpassare di ben 61 volte l’efficienza di seq2seq in soli 3 anni.

Nonostante ciò gli sforzi dei ricercatori di OpenAI sono da seguire con interesse, anche perché trovare una metrica condivisa e affidabile per l’AI sarebbe un grande passo in avanti che consentirebbe di seguirne e misurarne gli sviluppi, permettendo anche ai non esperti (come i decisori politici e le aziende) di modulare e ottimizzare gli investimenti. In mancanza di un indicatore affidabile si rischia di lasciare i non esperti in preda a momenti di hype seguiti da periodi di disincanto, “montagne russe” che potrebbero favorire quel ritorno all’inverno che nessuno vuole.

Mi sono appassionato all'intelligenza artificiale da quando ho potuto vedere all'opera i primi sistemi esperti negli anni '80. Già dal 1989 mi occupavo di cybersecurity (analizzando i primi virus informatici) ma non ho mai smesso di seguire gli sviluppi dell'AI. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.