Chinchilla 70B: un LLM riscrive le regole della compressione dati

Flussi di dati, immaginati con Stable diffusion

Nel mondo della tecnologia, la compressione dei dati è un argomento che ha sempre suscitato un interesse particolare, soprattutto quando si tratta di conservare o trasmettere informazioni in modo efficiente e senza perdite. Recentemente, una ricerca condotta da DeepMind, la nota azienda di Google specializzata in intelligenza artificiale, ha portato alla luce risultati sorprendenti riguardo alle capacità di compressione dei Large Language Models (LLM), e in particolare del modello Chinchilla 70B.

Questo modello, sebbene sia stato originariamente progettato e ottimizzato per lavorare con i testi, ha dimostrato una notevole abilità nel comprimere anche altri tipi di dati, come immagini e audio, spesso ottenendo risultati superiori rispetto a programmi specificamente progettati per tali scopi. Per fare un paio di esempi, Chinchilla 70B ha ridotto le dimensioni delle patch di immagini dal database ImageNet a solamente il 43.4% delle loro dimensioni originali, e i dati audio da LibriSpeech al 16.4% delle loro dimensioni effettive, superando rispettivamente gli algoritmi PNG e FLAC.

Questi risultati, oltre a essere impressionanti di per sé, aprono una serie di riflessioni interessanti sulle potenzialità degli LLM nel mondo della compressione dati. La ricerca ha infatti suggerito che la capacità di prevedere e comprimere i dati sono concetti interconnessi: un buon strumento per rendere i dati più piccoli, come gzip, può anche essere utilizzato per creare nuove informazioni basate su ciò che ha imparato durante il processo di compressione dei dati.

Tuttavia, nonostante i risultati promettenti, gli LLM non sono ancora strumenti pratici per la compressione dei dati rispetto ai modelli esistenti, a causa delle loro dimensioni e della lentezza nell’esecuzione su dispositivi consumer. Gli algoritmi di compressione classici, come gzip, sono molto più piccoli e rapidi. Ad esempio, gzip può comprimere 1GB di testo in meno di un minuto su una CPU, mentre un LLM con 3.2 milioni di parametri richiede un’ora per comprimere la stessa quantità di dati.

Un altro punto cruciale della ricerca è che, sebbene si possa pensare che modelli più grandi siano sempre migliori, i ricercatori hanno scoperto che, mentre i modelli più grandi raggiungono tassi di compressione superiori su set di dati più grandi, le loro prestazioni diminuiscono su set di dati più piccoli. Questo suggerisce che non sempre “più grande” è sinonimo di “meglio” e che le leggi di scala sono dipendenti dalle dimensioni del set di dati. La compressione può quindi servire come indicatore di quanto bene il modello apprende le informazioni del suo set di dati.

Inoltre, la ricerca ha offerto nuove prospettive su come la scala influisce sulle prestazioni di questi modelli. La compressione fornisce un approccio basato su principi per ragionare sulla scala, offrendo una metrica quantificabile per valutare se il modello ha la dimensione giusta osservando il rapporto di compressione. Questo potrebbe avere implicazioni significative per la valutazione degli LLM in futuro, specialmente in un’epoca in cui la ricerca nel campo dell’apprendimento automatico si sta spostando da benchmark accademici curati a dati estesi forniti dall’utente o raccolti dal web.

Infine, una curiosità. Uno dei componenti del team di ricerca è Marcus Hutter, lo stesso del “premio Hutter” di cui avevamo parlato qualche anno fa. Il ricercatore ritiene che la compressione dei dati sia una strada per arrivare all’AGI, l’intelligenza artificiale generale, e ha offerto un premio per gli algoritmi che miglioreranno lo stato dell’arte.

Per approfondire: LLMs are surprisingly great at compressing images and audio, DeepMind researchers find

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.