
È stato rilasciato Cedille, il più grande modello di linguaggio NLP in lingua francese, realizzato nella Svizzera romanda. I ricercatori di Coteries, un’azienda dell’EPFL Innovation Park a Losanna, hanno realizzato Cedille partendo da GPT-J, un modello open source sviluppato da Eleuther.ai.
Cedille ha 6 miliardi di parametri ed è stato addestrato grazie alla donazione di risorse di Google TRC (TPU Research Cloud), il programma di Google che consente ai ricercatori di accedere a un cluster con più di mille TPU (Tensor Processing Unit, chip specifici per operazioni AI) nel cloud.
Un potente modello in lingua francese consente ovviamente all’ecosistema francofono di ottenere servizi di elaborazione del linguaggio naturale di qualità superiore, considerando che finora la grandezza e la complessità dei sistemi – comunemente misurata in parametri – è sempre stata fortemente correlata all’aumento della qualità dei risultati.
Da questo punto di vista con i suoi sei miliardi di parametri Cedille è a tutti gli effetti il modello di linguaggio francese più grande, superando PAGnol, rilasciato nel maggio di quest’anno, che si ferma a 1,5 miliardi. Prima di allora i modelli di linguaggio francesi più rilevanti erano CamemBERT, con 335 milioni di parametri, e FlauBERT con 138 milioni nella sua versione base e 373 milioni di parametri nella versione estesa.
E in Italia? Anche noi abbiamo i nostri modelli di linguaggio, a cominciare da Tint del 2016, AlBERTo del 2019 con 110 milioni di parametri, come GilBERTo del 2019, oltre che UmBERTo e GePpeTto del 2020, rispettivamente con 110 milioni e 117 milioni di parametri.
(se vi state domandando il perché di certi nomi, tenete presente che i modelli il cui nome è un gioco di parole con “BERT” si basano su BERT di Google o su RoBERTa di Facebook, ma se in generale vi incuriosisce la scelta dei nomi leggete qui)
Tuttavia, nessuno di questi sforzi riesce a raggiungere il traguardo di GPT-3, con 175 miliardi di parametri, di Switch Transformer con 1 bilione di parametri o del cinese Wu Dao 2.0 con ben 1,75 bilioni (1750 miliardi) di parametri. Numeri inarrivabili senza investimenti pluri-miliardari, che per lingue “regionali” come la nostra difficilmente arriveranno presto.