Nuovo sistema di parallelizzazione migliora l’efficienza dell’addestramento NLP

I grandi modelli linguistici basati sull’architettura Transformer (quella, per intenderci, di GPT-3) hanno fatto fare un salto di qualità all’elaborazione del linguaggio naturale (NLP), ma addestrarli richiede risorse enormi (un trend in linea con il settore).

Ora nel documento Efficient Large-Scale Language Model Training on GPU Clusters, un team di ricerca di NVIDIA, Stanford University e Microsoft Research presenta un nuovo sistema di parallelizzazione che migliora il throughput di oltre il 10% con lo stesso ingombro di memoria, dimostrando che tali strategie possono essere composte per ottenere un throughput aggregato elevato (502 petaFLOP/s) con modelli di grandi dimensioni.

Per approfondire: NVIDIA, Stanford & Microsoft Propose Efficient Trillion-Parameter Language Model Training on GPU Clusters

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.