
In un settore dove la corsa all’innovazione non conosce soste, la ricerca nel campo dell’intelligenza artificiale segna un passo potenzialmente rivoluzionario. A muovere il confine delle possibilità ci pensa un team di ricercatori, tra cui un dottorando dell’Università della California a Berkeley, Hao Liu, in collaborazione con il CTO di Databricks Matei Zaharia e il professor Pieter Abbeel, che hanno recentemente presentato un paper intitolato “Ring Attention with Blockwise Transformers for Near-Infinite Context“. La ricerca descrive un nuovo metodo, il Ring Attention, che promette di superare le limitazioni di memoria degli attuali modelli di intelligenza artificiale basati sull’architettura Transformer, ampliando enormemente la capacità di analisi dei dati.
Con Ring Attention, Transformer senza limiti
L’architettura Transformer è quella su cui si basano gli attuali grandi modelli linguistici (LLM), come GPT-4 di OpenAI, Bard di Google o Claude di Anthropic. Tale architettura si scontra con il problema della crescita quadratica dei requisiti di memoria all’aumentare della lunghezza delle sequenze di input. Una sfida che si traduce in un collo di bottiglia per il training e l’esecuzione dei modelli su GPU tradizionali, limitando la quantità di dati che possono essere elaborati e, di conseguenza, la lunghezza del contesto che i modelli possono considerare.
In altre parole, se GPT-4 può gestire al massimo ~6.000 parole per volta, o Claude 2 di Anthropic 75.000, ciò è dovuto alle limitazioni di come finora è stata implementata l’architettura Transformer, una capacità vincolata dalla memoria disponibile sui dispositivi GPU utilizzati per il training e l’esecuzione dei modelli.
Il nuovo metodo Ring Attention arriva in aiuto distribuendo il calcolo dell’auto-attenzione, un processo chiave all’interno dei Transformer, su più dispositivi. Questo approccio permette di elaborare sequenze estremamente lunghe – teoricamente senza limiti – poiché la memoria utilizzata su ogni dispositivo è proporzionale solo alla dimensione del blocco di dati a lui assegnato, indipendentemente dalla lunghezza totale della sequenza di input. Il vero salto di qualità sta nella sovrapposizione del trasferimento dei blocchi chiave-valore con il calcolo dell’auto-attenzione, ottimizzando l’uso della memoria e incrementando le prestazioni.
Leggere tutti i libri, tutti insieme
Per comprendere meglio come funziona, immaginiamo un vasto archivio di testi digitali, una biblioteca che si estende per migliaia di volumi, da trattati scientifici a romanzi epici. Fino ad ora, un modello di intelligenza artificiale, anche il più avanzato, sarebbe stato in grado di “leggere” e “comprendere” solo una porzione limitata di questi testi in un’unica sessione, dovendo selezionare frammenti specifici in base alla sua capacità di memoria, definita dalla lunghezza del contesto. Tale limitazione era dettata dalla quantità di dati che i modelli AI potevano elaborare contemporaneamente, vincolati dalla memoria delle GPU che eseguivano il calcolo.
La tecnologia Ring Attention cambia lo scenario: invece di lavorare su un singolo blocco di dati, il sistema distribuisce il carico di lavoro tra molteplici GPU connesse in una struttura ad anello. Ogni GPU si occupa di un blocco di dati e mentre procede con il calcolo, passa informazioni – i blocchi chiave-valore – alla GPU successiva. Questa continua circolazione di informazioni attorno all’anello permette ad ogni GPU di lavorare con una porzione di memoria ottimale senza che l’intera sequenza debba essere presente su una singola GPU.
In termini ancora più semplici, è come se invece di leggere un libro capitolo per capitolo, potessimo avere una visione d’insieme di tutta l’opera, comprese le relazioni tra eventi all’inizio e alla fine della narrazione, migliorando così la nostra comprensione generale del testo.
Questa nuova architettura, dunque, non solo espande la memoria effettiva a disposizione dei modelli AI ma permette anche un’analisi più olistica e integrata dei dati, aprendo nuovi orizzonti nell’elaborazione del linguaggio naturale, nell’analisi di immagini e video e in molte altre applicazioni che richiedono la gestione di grandi volumi di informazioni.
Le applicazioni possibili
Le implicazioni pratiche sono sostanziose: i modelli AI potrebbero, in teoria, analizzare contesti costituiti da milioni di parole – equivalenti a intere biblioteche – o complessi database di codice e lunghi video, in un unico processo. L’applicazione di tale tecnologia potrebbe trasformare radicalmente i sistemi di chatbot, la programmazione assistita da AI, l’analisi di dati scientifici e altre aree dove l’elaborazione di grandi volumi di informazioni è critico.
Per fornire un esempio concreto, consideriamo un modello AI che debba analizzare il codice sorgente di un intero sistema operativo per identificare vulnerabilità o errori di programmazione. Con i sistemi precedenti sarebbe stato necessario dividere il codice in parti più piccole e analizzarle separatamente, perdendo la visione d’insieme e il contesto globale. Con il metodo Ring Attention, invece, il modello può analizzare il codice come un unico flusso continuo di dati, passando da una GPU all’altra, mantenendo la coerenza e l’integrità del contesto e consentendo di cogliere interazioni complesse tra parti distanti del codice che altrimenti sarebbero andate probabilmente perse.
I risultati di questa ricerca sono ancora da tradurre in applicazioni concrete sul mercato, ma il futuro delineato dal Ring Attention è uno scenario in cui i limiti attuali dei più avanzati modelli di intelligenza artificiale potrebbero essere superati, con benefici tangibili sia per il settore tecnologico sia per l’utente finale.
Per approfondire: Ring Attention with Blockwise Transformers for Near-Infinite Context