I grandi modelli linguistici basati sull’architettura Transformer (quella, per intenderci, di GPT-3) hanno fatto fare un salto di qualità all’elaborazione del linguaggio naturale (NLP), ma addestrarli richiede risorse enormi (un trend in linea con il settore).
Ora nel documento Efficient Large-Scale Language Model Training on GPU Clusters, un team di ricerca di NVIDIA, Stanford University e Microsoft Research presenta un nuovo sistema di parallelizzazione che migliora il throughput di oltre il 10% con lo stesso ingombro di memoria, dimostrando che tali strategie possono essere composte per ottenere un throughput aggregato elevato (502 petaFLOP/s) con modelli di grandi dimensioni.
Per approfondire: NVIDIA, Stanford & Microsoft Propose Efficient Trillion-Parameter Language Model Training on GPU Clusters