Meta pubblica il suo modello linguistico OPT, concorrente di GPT-3

Libro, linguaggio

A metà del ‘900, il matematico inglese Alan Turing formulò il Turing Test, ovvero un esperimento per stabilire se una macchina fosse intelligente. Esso consisteva nel far dialogare un essere umano con due interlocutori nascosti, un uomo e una macchina. Se l’essere umano non fosse riuscito a riconoscere quale dei due fosse l’uomo, la macchina poteva essere considerata intelligente.

Ebbene, nei prossimi mesi i ricercatori di tutto il mondo avranno la possibilità di far passare il Turing test ai loro sistemi. Infatti, il laboratorio di Intelligenza Artificiale di Meta – la società madre di Facebook, WhatsApp e Instagram – ha appena reso pubblico OPT (Open Pretrained Transformer), un modello linguistico con 175 miliardi di parametri che è in grado di produrre testi e dialoghi che sono quasi indistinguibili da quelli scritti dagli esseri umani (sotto vi spieghiamo come funziona).

Si tratta della prima volta che un modello linguistico con tali potenzialità viene reso disponibile al pubblico (persino con i dettagli di implementazione) per scopi non commerciali, visti gli enormi costi di sviluppo – quantificabili in centinaia di migliaia di dollari. Fino ad oggi, gli sviluppatori si erano dovuti accontentare di lavorare su sistemi oltre dieci volte più piccoli, come T5 (Text-To-Text Transfer Transformer, 11 miliardi di parametri), rilasciato da Google nell’ottobre 2019.

I modelli linguistici erano entrati nelle cronache qualche mese prima della pubblicazione di T5, quando OpenAI lanciò GPT-2 (Generative Pretrained Transformer). In quell’occasione, però, il modello venne rilasciato solo in versione dimostrativa, con la motivazione ufficiale che fosse troppo pericoloso nella versione integrale (ad esempio, avrebbe potuto essere usato per la generazione automatica di fake news). Le malelingue sostengono però che si trattasse di una mossa commerciale, visto che GPT-2 (così come il suo fratello maggiore GPT-3) fu comunque reso disponibile a pagamento.

Diversa la posizione di Meta AI, che sembra aver separato i propri interessi commerciali da quelli scientifici, forse anche nel tentativo di riconquistare la fiducia nella comunità scientifica dopo gli scandali di Cambridge Analytica. Il laboratorio ha suggerito che pubblicare questo modello dovrebbe aiutare non solo a potenziarlo, ma anche a ridurre i suoi difetti, quali la possibilità di propagare disinformazione, pregiudizi e linguaggio tossico.

Secondo quanto si apprende dall’articolo dei ricercatori, OPT – che ha lo stesso numero di parametri di GPT-3 – performerebbe in maniera totalmente comparabile al prodotto premium di OpenAI in numerosi compiti, incluso il dialogo. Nell’articolo, i ricercatori di Meta AI sottolineano anche come OPT abbia avuto un impatto ambientale pari a solo un settimo di quello avuto da GPT-3. I modelli linguistici, infatti, richiedono di essere addestrati su enormi quantità di testi e su computer molto costosi, sia in termini economici che ambientali. Si stima che le emissioni per sviluppare OPT siano state di 75 tonnellate di CO2, contro le 500 tonnellate emesse per GPT-3.

Ma come possono i modelli linguistici generare testi? La risposta va cercata nell’architettura e nella tipologia di addestramento. L’architettura è fondata su reti neurali artificiali (neural networks) ispirate alle reti biologiche che sono alla base della nostra intelligenza, in cui miliardi di neuroni si accendono quando stimolati. L’addestramento è organizzato come predizione di parole mascherate in miliardi di frasi. In questo modo, i modelli linguistici imparano le relazioni tre le parole (ad esempio: il poliziotto arresta il ladro, ma non viceversa), e con esse il loro significato, grazie al principio formulato da John Rupert Firth nel 1957 secondo cui conosciamo il significato delle parole dalla loro compagnia.

Questi sistemi, una volta imparato il linguaggio, possono poi essere adattati, tramite un processo chiamato fine-tuning (“ritocco”) per svolgere numerosi compiti, come le traduzioni, l’identificazione del sentimento nei testi, l’estrazione di particolari tipi di informazione o il dialogo.

Enrico Santus è Direttore di Intelligenza Artificiale e Machine Learning a Bayer. Nato in Sardegna nel 1986, Enrico si è laureato in Lettere e Linguistica Computazionale all’Università di Pisa, trasferendosi poi in Asia per continuare le sue ricerche nel settore dell’AI. Durante gli studi, Enrico ha lavorato come Lead per Lionbridge, curando progetti per Microsoft. Nel 2016, dopo aver ottenuto il dottorato in Natural Language Processing (NLP) all’Hong Kong Polytechnic University, Enrico si è trasferito a Singapore, dove ha condotto ricerche nel campo del sentiment analysis e della predizione del mercato finanziario al SUTD. Da circa cinque anni, Enrico vive negli Stati Uniti, dove ha lavorato al MIT di Boston, con focus sul campo medico e farmaceutico. In questo periodo, Enrico ha sviluppato sistemi di AI per aziende quali Bayer, Amgen e per cliniche quali Dana Farber e il Massachusetts General Hospital. Nel 2019, Enrico è stato invitato a parlare di intelligenza artificiale alla Casa Bianca. Nello stesso anno, è anche stato co-autore dell’AI Factsheet voluto dal Belfer Center for Science and International Affairs per supportare organismi regolamentatori come il Congresso Americano.