
Una delle più importanti capacità della specie umana è la comunicazione, ovvero la capacità di comprendere e generare il linguaggio. Tale abilità è talmente rilevante per la nostra sopravvivenza (ad esempio per lanciare segnali di pericolo o per scambiare conoscenza) che, come dimostrato da diversi studi, durante l’evoluzione gli esseri umani hanno persino sacrificato delle capacità respiratorie per migliorare il tratto vocale.
Negli ultimi anni, grazie all’avvento dei modelli linguistici (in inglese: Language Models, LM), anche le macchine hanno imparato a generare linguaggio in base all’input ricevuto. Con tale abilità, questi sistemi possono essere sfruttati per numerosissime applicazioni, quali la creazione automatica di post, commenti, notizie, o persino il dialogo, in domini che coprono qualsiasi settore del sapere, dalla scienza alla legge, dalla medicina alla finanza.
I modelli linguistici sono basati su architetture neurali (neural networks) che sono addestrate a predire parole mascherate in miliardi di frasi. Durante questo esercizio di predizione, le reti neurali regolano i propri parametri interni così da rappresentare nella propria struttura profonda sia le relazioni tra le parole che il loro significato.
Ed è proprio attraverso il linguaggio che i modelli linguistici imparano aspetti importanti della realtà. Infatti, il linguaggio codifica – oltre agli aspetti grammaticali – le relazioni concettuali, come per esempio il fatto che le tigri sono carnivore mentre gli elefanti no.
Un esempio di modello linguistico famoso è GPT-3 di OpenAI, che è entrato nelle cronache per la qualità dei testi prodotti, i quali sono spesso indistinguibili da quelli umani. Nonostante il grande hype generato, però, i modelli linguistici hanno ancora serie limitazioni, al punto che difficilmente sarebbero in grado di superare un Turing test, se adeguatamente testati (ovvero, un test in cui l’obiettivo è far credere a un essere umano di dialogare con un altro interlocutore, mentre sta invece dialogando con una macchina).
AI21 Labs ha recentemente pubblicato un articolo per dimostrare alcuni epic fail di GPT-3, non tanto per criticare il potente modello di OpenAI quanto per suggerire una possibile soluzione, che vi presentiamo di seguito. Nell’articolo, gli autori evidenziano come GPT-3 risponda correttamente 32 alla domanda “Quanti denti ha una persona?” ma 47 alla domanda “Quanti denti ha un insegnante di matematica?”. Questo perché il modello linguistico non comprende a fondo che un insegnante di matematica è un essere umano. Altri epic fail riguardano i calcoli matematici, che riescono con numeri a una o due cifre ma falliscono miseramente in condizioni appena più complicate.
Nel settore dell’elaborazione automatica del linguaggio esistono due principali correnti di pensiero. Una sostiene che più aumenta la dimensione di un modello linguistico (ovvero il numero di parametri, che per GPT-3 è 175 miliardi) e la quantità di dati su cui è addestrato (ovvero il numero di parole, che per GPT-3 è mezzo bilione, ovvero oltre dieci mila anni di chiacchiere), più aumentano il sapere e le capacità di ragionamento del sistema (incluso ragionamento logico e matematico). L’altra sostiene che sebbene la prima corrente in linea di principio abbia ragione (come dimostrato da numerosi esperimenti), la quantità di parametri e dati necessari per raggiungere un livello di affidabilità del sistema sarebbe troppo alto, ben oltre gli attuali limiti di dati e tecnologici, per non parlare dei costi ad esso legati. Si pensi che, nonostante i problemi sopra riportati, GPT-3 per essere addestrato ha richiesto cifre quantificabili in decine di milioni di dollari, con un’impronta ambientale di 552 tonnellate di CO2, ovvero quanto un aereo emette in oltre 2000 ore di volo.
AI21 Labs appartiene alla seconda linea di pensiero e slega la capacità del modello dal numero dei parametri introducendo MRKL (Modular Reasoning Knowledge and Language, letto come l’inglese “miracle”, miracolo), un sistema di moduli esperti controllati da un router, che distribuisce i compiti in base alle abilità richieste. Questi moduli possono essere di due tipi, ovvero neurali (sia modelli linguistici a uso generico o specializzato) e simbolici (ovvero calcolatori matematici, convertitori di valuta o funzioni per la gestione di database). Secondo l’azienda di Tel Aviv, in Israele, questo approccio permetterà di sfruttare tutta la potenza dei LM, senza però ereditarne le limitazioni (ad esempio, quelle matematiche descritte sopra).
In particolare, l’approccio – descritto nel dettaglio nell’articolo citato sopra, pubblicato su ArXiv l’1 Maggio 2022 – è più scalabile (i moduli esperti possono essere aggiunti o rimossi a piacimento, semplicemente aggiornando il router) e più robusto (ogni modulo esperto è più affidabile in un dato compito).
In un’intervista a VentureBeat, uno dei co-fondatori di AI21 Labs, Yoav Shoham (anche professore a Stanford), ha sottolineato come i moduli possano elaborare ragionamento specialistico e lavorare con sapere esterno, come database o Wikidata. Questo incrementa l’interpretabilità delle decisioni e l’interazione con dati dinamici (come predizioni meteo, e cambio valute) e proprietari.
Ma cosa succede se nessuno degli esperti ha le abilità per risolvere il compito? Ebbene, in questo caso, MRKL lascerà che sia un comune – comunissimo – language model a rispondere, con buona pace dei gli insegnanti di matematica a 47 denti.