RFM-1: il transformer per i robot

Robot di Covariant

Covariant, azienda specializzata in robotica avanzata, ha recentemente presentato RFM-1, un modello di intelligenza artificiale progettato per migliorare le capacità di ragionamento fisico e di interazione linguistica dei robot.

RFM-1 è un transformer con 8 miliardi di parametri, pre-addestrato su un ampio dataset multimodale che include testi, immagini, video e dati sensoriali provenienti sia da fonti generiche sia dai robot industriali di Covariant. Questo approccio consente al modello di acquisire una solida comprensione della fisica del mondo reale e delle dinamiche tipiche delle interazioni robot-ambiente.

Una delle sue caratteristiche distintive è la capacità di generare “world model”, ovvero simulazioni di come un ambiente evolverà in seguito alle azioni di un robot. Questa abilità emerge dal processo di addestramento del modello sul task di video prediction condizionata all’azione, senza richiedere una programmazione esplicita.

Inoltre, il modello ha un’interfaccia di controllo basata sul linguaggio naturale, consentendo di istruire i robot usando frasi semplici e intuitive. RFM-1 è in grado di mappare questi comandi in sequenze di azioni robotiche di alto e basso livello, rendendo la programmazione dei robot accessibile anche a utenti non esperti.

Un altro aspetto interessante è la sua capacità di attivare un problem solving collaborativo quando il robot incontra difficoltà nell’esecuzione di un task. In questi casi, il modello può richiedere suggerimenti a un operatore umano, incorporando il feedback ricevuto nei suoi successivi tentativi e imparando potenzialmente nuove strategie.

Covariant vede in RFM-1 e nei modelli “fondazionali” come questo un passaggio chiave verso l’adozione dell’intelligenza artificiale in contesti robotici reali, con il potenziale di abilitare robot più autonomi, versatili e capaci di interagire in modo naturale con gli esseri umani.

Allo stato attuale, il modello presenta ancora alcune limitazioni, come la bassa risoluzione delle immagini generate e la necessità di una validazione estensiva in scenari applicativi reali. In altre parole, deve ancora essere adeguatamente testato in produzione. Tuttavia, Covariant prevede di far evolvere rapidamente il modello aumentando la scala dei dati di addestramento e la capacità computazionale.

In prospettiva RFM-1 rappresenta un importante passo avanti verso lo sviluppo di robot in grado di ragionare in modo flessibile e di collaborare con gli umani usando il linguaggio naturale, aprendo la strada a una nuova generazione di sistemi robotici adattabili e user-friendly.

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.