Un modello NLP di Google Brain ottiene 90 punti al benchmark SuperGLUE

Conoscenza dai libri

Un modello NLP di Google Brain ha ottenuto un punteggio di 90.0 al benchmark SuperGLUE, creato appena un anno fa per rimpiazzare l’ormai superato GLUE.

SuperGLUE serve per determinare l’accuratezza dei modelli di elaborazione del linguaggio naturale, o NLP, che vengono sottoposti a diverse sfide linguistiche per vedere come si comportano. La baseline umana su SuperGLUE si assesta a un punteggio di 89.8, quindi con 90.0 si può dire che il modello di Google – ottenuto attraverso una combinazione di T5 e di Meena – è stato più bravo dell’essere umano medio.

A onor di cronaca negli stessi giorni un team di Microsoft, con il modello DeBERTa / TuringNLRv4 otteneva un punteggio di 89.9, quindi molto vicino al risultato di Google e comunque superiore alla baseline umana.

Le sfide del benchmark sono molteplici. Vi è ad esempio quella nota come schema di Winograd, che presenta una frase ambigua e chiede al modello NLP di capire a chi si riferisce un dato pronome. Ad esempio:

Ho messo la torta nel frigorifero. Ha tanto burro.
(“I put the cake away in the refrigerator. It has a lot of butter in it.”)

Un umano capirebbe senza troppi problemi che il burro si riferisce alla composizione della torta, ma un modello NLP riesce a capire a cosa si riferisce il pronome “it”?

Questa e altre sfide compongono il benchmark SuperGLUE, che oggi si può dire sia stato “sconfitto” dopo un solo anno di esistenza. Ciò significa anzitutto che i nuovi modelli NLP, con i loro miliardi di parametri, stanno arrivando ad approssimare con buoni risultati i livelli di comprensione umana, e poi che al settore servono urgentemente nuovi benchmark più duri da battere.

Sono partner e fondatore di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti l'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI), della Association for Computing Machinery (ACM) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.