
Un’altra conferma che GPT-3, lo stato dell’arte dei modelli di elaborazione del linguaggio, non capisce davvero quello che legge: un gruppo di ricercatori della University of California, Berkeley ha testato il modello su MATH, un dataset di 12.500 problemi matematici.
Problemi tipo questo: Il numero a tre cifre “ab5” è divisibile per 3. Quanti diversi numeri a tre cifre può rappresentare “ab5”?
Dai test fatti sugli esseri umani il peggior risultato è stato del 40%, mentre un campione di matematica ha raggiunto un punteggio del 90%. Per fare un confronto, il modello GPT-3 ha conseguito a malapena il 5,2% di risultati corretti. Addirittura leggermente meglio ha fatto il modello precedente, GPT-2, con il 6,9% di risultati esatti.

Curiosamente, la correlazione fra numero di parametri e prestazioni – di solito molto forte su compiti linguistici – in ambito matematico non aiuta: il passaggio da 2,7 miliardi a 175 miliardi di parametri (un aumento di ampiezza del 6.480%) ha migliorato i risultati solo dell’80% relativo.
Per approfondire: Measuring Mathematical Problem Solving With the MATH Dataset