GPT-3 delude nei compiti matematici

Robot col pallottoliere

Un’altra conferma che GPT-3, lo stato dell’arte dei modelli di elaborazione del linguaggio, non capisce davvero quello che legge: un gruppo di ricercatori della University of California, Berkeley ha testato il modello su MATH, un dataset di 12.500 problemi matematici.

Problemi tipo questo: Il numero a tre cifre “ab5” è divisibile per 3. Quanti diversi numeri a tre cifre può rappresentare “ab5”?

Dai test fatti sugli esseri umani il peggior risultato è stato del 40%, mentre un campione di matematica ha raggiunto un punteggio del 90%. Per fare un confronto, il modello GPT-3 ha conseguito a malapena il 5,2% di risultati corretti. Addirittura leggermente meglio ha fatto il modello precedente, GPT-2, con il 6,9% di risultati esatti.

Punteggi dei modelli GPT-2 e GPT-3 sul dataset MATH
Punteggi sul dataset MATH ottenuti dai modelli GPT-2 e GPT-3 con diverso numero parametri. Il carattere ‘B’ denota il numero di parametri in miliardi. Il testo grigio indica il miglioramento relativo rispetto alla baseline di 0.1B.

Curiosamente, la correlazione fra numero di parametri e prestazioni – di solito molto forte su compiti linguistici – in ambito matematico non aiuta: il passaggio da 2,7 miliardi a 175 miliardi di parametri (un aumento di ampiezza del 6.480%) ha migliorato i risultati solo dell’80% relativo.

Per approfondire: Measuring Mathematical Problem Solving With the MATH Dataset

Sono Head of Artificial Intelligence di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti all'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, con consulenze sull'AI presso aziende private e per la Commissione Europea, dove collaboro con la European Defence Agency e il Joint Research Centre. Questo blog è personale.