Nuovo sistema di parallelizzazione migliora l’efficienza dell’addestramento NLP

I grandi modelli linguistici basati sull’architettura Transformer (quella, per intenderci, di GPT-3) hanno fatto fare un salto di qualità all’elaborazione del linguaggio naturale (NLP), ma addestrarli richiede risorse enormi (un trend in linea con il settore).

Ora nel documento Efficient Large-Scale Language Model Training on GPU Clusters, un team di ricerca di NVIDIA, Stanford University e Microsoft Research presenta un nuovo sistema di parallelizzazione che migliora il throughput di oltre il 10% con lo stesso ingombro di memoria, dimostrando che tali strategie possono essere composte per ottenere un throughput aggregato elevato (502 petaFLOP/s) con modelli di grandi dimensioni.

Per approfondire: NVIDIA, Stanford & Microsoft Propose Efficient Trillion-Parameter Language Model Training on GPU Clusters

Sono partner e fondatore di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti l'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI), della Association for Computing Machinery (ACM) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.