MM1, il nuovo modello multimodale di Apple

Modello multimodale, immaginato da L. Sambucci e Opus, disegnato da Midjourney

Apple ha recentemente presentato MM1, un innovativo modello di intelligenza artificiale multimodale basato su 30 miliardi di parametri, in grado di comprendere ed elaborare testo, immagini e codice in modo integrato. Questo importante traguardo pone MM1 ai vertici della tecnologia AI multimodale, grazie alle sue avanzate capacità di apprendimento e ragionamento.

Architettura e processo di training

Il nucleo di MM1 è costituito da un decoder di tipo transformer, simile a GPT, specializzato nell’elaborazione del linguaggio naturale. A questo si affianca un encoder visivo ViT-H che opera su immagini a 378×378 pixel, pre-addestrato su un dataset di 5 miliardi di immagini annotate (DFN-5B) tramite una funzione di loss contrastiva stile CLIP.

Un modulo chiave dell’architettura è il “C-Abstractor”, che funge da ponte tra le rappresentazioni visive e linguistiche, mappando i token delle immagini nello spazio testuale e consentendo una fusione efficace delle diverse modalità.

Il pre-training di MM1 è avvenuto su un vasto corpus di dati misti, includendo un 45% di documenti contenenti immagini e testo intervallati, un 45% di coppie immagine-didascalia e un 10% di puro testo. Questa combinazione bilanciata si è dimostrata ottimale per l’apprendimento di robuste capacità di ragionamento cross-modale, sia in contesti zero-shot che few-shot. In totale, MM1 ha elaborato circa 100 miliardi di token testuali e 2 miliardi di immagini durante il pre-training.

Un ulteriore fine-tuning supervisionato (SFT) su circa un milione di coppie istruzione-risposta ha poi conferito a MM1 la capacità di comprendere e seguire direttive testuali, abilitandolo a svolgere complessi task di visione e linguaggio.

Risultati e confronto con altri modelli

Nei benchmark che valutano la comprensione di immagini e testo e il visual question answering, MM1 ha ottenuto risultati al vertice dello stato dell’arte, sia dopo il pre-training sia in seguito a SFT. In particolare, sui task di image captioning COCO, NoCaps e TextCaps, e sul dataset VizWiz-QA, la versione da 30B di parametri di MM1 ha superato nettamente modelli open-source di taglia maggiore come IDEFICS-80B, Flamingo-80B ed Emu2-37B. Sugli altri dataset (VQAv2, TextVQA, OKVQA) si è attestato su livelli paragonabili ad Emu2.

Notevole anche la capacità di MM1 di eseguire ragionamenti few-shot su input multi-immagine e di applicare strategie di “chain-of-thought”, abilità ereditate dalla fase di pre-training e mantenute dopo SFT. Ciò apre la strada allo sviluppo di applicazioni avanzate che richiedono capacità di inferenza e decision-making basate su molteplici sorgenti di informazione visiva e testuale.

MM1 si pone come un nuovo riferimento nel campo dei modelli di fondazione multimodali, combinando capacità di comprensione del linguaggio quasi a livello umano con avanzate abilità di ragionamento visivo e few-shot. Con questo contributo, Apple alza l’asticella della ricerca sull’intelligenza artificiale multimodale, gettando le basi per una nuova generazione di applicazioni più “intelligenti” in molteplici domini.

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.