GPT-3 delude nei compiti matematici

Robot col pallottoliere

Un’altra conferma che GPT-3, lo stato dell’arte dei modelli di elaborazione del linguaggio, non capisce davvero quello che legge: un gruppo di ricercatori della University of California, Berkeley ha testato il modello su MATH, un dataset di 12.500 problemi matematici.

Problemi tipo questo: Il numero a tre cifre “ab5” è divisibile per 3. Quanti diversi numeri a tre cifre può rappresentare “ab5”?

Dai test fatti sugli esseri umani il peggior risultato è stato del 40%, mentre un campione di matematica ha raggiunto un punteggio del 90%. Per fare un confronto, il modello GPT-3 ha conseguito a malapena il 5,2% di risultati corretti. Addirittura leggermente meglio ha fatto il modello precedente, GPT-2, con il 6,9% di risultati esatti.

Punteggi dei modelli GPT-2 e GPT-3 sul dataset MATH
Punteggi sul dataset MATH ottenuti dai modelli GPT-2 e GPT-3 con diverso numero parametri. Il carattere ‘B’ denota il numero di parametri in miliardi. Il testo grigio indica il miglioramento relativo rispetto alla baseline di 0.1B.

Curiosamente, la correlazione fra numero di parametri e prestazioni – di solito molto forte su compiti linguistici – in ambito matematico non aiuta: il passaggio da 2,7 miliardi a 175 miliardi di parametri (un aumento di ampiezza del 6.480%) ha migliorato i risultati solo dell’80% relativo.

Per approfondire: Measuring Mathematical Problem Solving With the MATH Dataset

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.