GPT-3 delude nei compiti matematici

Robot col pallottoliere

Un’altra conferma che GPT-3, lo stato dell’arte dei modelli di elaborazione del linguaggio, non capisce davvero quello che legge: un gruppo di ricercatori della University of California, Berkeley ha testato il modello su MATH, un dataset di 12.500 problemi matematici.

Problemi tipo questo: Il numero a tre cifre “ab5” è divisibile per 3. Quanti diversi numeri a tre cifre può rappresentare “ab5”?

Dai test fatti sugli esseri umani il peggior risultato è stato del 40%, mentre un campione di matematica ha raggiunto un punteggio del 90%. Per fare un confronto, il modello GPT-3 ha conseguito a malapena il 5,2% di risultati corretti. Addirittura leggermente meglio ha fatto il modello precedente, GPT-2, con il 6,9% di risultati esatti.

Punteggi dei modelli GPT-2 e GPT-3 sul dataset MATH
Punteggi sul dataset MATH ottenuti dai modelli GPT-2 e GPT-3 con diverso numero parametri. Il carattere ‘B’ denota il numero di parametri in miliardi. Il testo grigio indica il miglioramento relativo rispetto alla baseline di 0.1B.

Curiosamente, la correlazione fra numero di parametri e prestazioni – di solito molto forte su compiti linguistici – in ambito matematico non aiuta: il passaggio da 2,7 miliardi a 175 miliardi di parametri (un aumento di ampiezza del 6.480%) ha migliorato i risultati solo dell’80% relativo.

Per approfondire: Measuring Mathematical Problem Solving With the MATH Dataset

Sono partner e fondatore di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti l'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI), della Association for Computing Machinery (ACM) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.