
Transformer è un modello di machine learning, usato soprattutto nel Natural Language Processing, per eseguire traduzioni o riassunti di un testo. Presentato nel 2017, Transformer ha sostituito architetture basate su reti neurali ricorrenti, come ad esempio Long short-term memory (LSTM). La limitazione di queste ultime era l’incapacità di tenere in memoria abbastanza informazioni per “gestire” (tradurre, riassumere) interi testi, in genere la loro utilità era limitata a singole frasi.
Per riassumere o tradurre adeguatamente un testo serve capire il contesto, e questo lo si può fare solo conservando il significato delle frasi precedenti. Ma se i LSTM possono tradurre solo frase-per-frase, Transformer può generare interi articoli di Wikipedia attraverso la sintesi di molteplici documenti. Ciò è possibile perché la finestra di contesto utilizzata da Transformer si estende a migliaia di parole.
Tuttavia, l’estensione di Transformer a finestre di contesto ancora più grandi comporta limitazioni. Il potere di Transformer deriva dall’attenzione, il processo attraverso il quale il modello considera tutte le possibili coppie di parole all’interno della finestra di contesto per comprendere le connessioni tra di loro. Per le applicazioni che utilizzano finestre di contesto di grandi dimensioni – ad esempio lunghi testi – i requisiti di memoria per la memorizzazione dell’output di più livelli sono proibitivi (svariati terabyte per i modelli con migliaia di livelli).
In questi giorni però Google ha introdotto Reformer, un modello Transformer progettato per gestire finestre di contesto fino a 1 milione di parole, il tutto su un singolo acceleratore e utilizzando solo 16 GB di memoria. Combinando le tecniche del locality-sensitive-hashing (LSH) e dei livelli reversibili è possibile ridurre la memoria necessaria utilizzandola in maniera più efficiente.
Reformer può quindi comprendere un testo molto lungo e molto complesso, cosa che finora era possibile solo a costo di impegnare risorse eccessive, spianando la strada ad applicazioni di intelligenza artificiale in grado di capire i testi più efficacemente e senza mai perdere di vista il contesto.
Per approfondire: Reformer: The Efficient Transformer