
Allineando l’intelligenza artificiale ai processi cognitivi umani, Meta ha creato ImageBind, un modello di intelligenza artificiale open-source in grado di apprendere simultaneamente e in modo olistico da sei diverse modalità: testo, immagini/video, audio, profondità (3D), radiazioni termiche (infrarosse) e unità di misura inerziale (IMU).
L’unicità di ImageBind risiede nella creazione di un unico spazio di incorporazione per diverse modalità. Fornisce una comprensione completa dei dati creando connessioni tra i diversi aspetti di un oggetto, come l’aspetto, il suono, la forma 3D, la temperatura e il movimento.
ImageBind va oltre i modelli precedenti, addestrati per gestire una sola modalità. Come spiegano i ricercatori di Meta nel loro studio, ImageBind supera questi modelli grazie all’integrazione di più modalità, con un’analisi superiore delle informazioni. I vantaggi sono molteplici. Ad esempio, Make-A-Scene di Meta potrebbe generare immagini basate su dati audio, creando un’interpretazione visiva di un mercato in fermento a partire unicamente dai suoni generati.
L’importanza di ImageBind risiede nelle sue potenziali applicazioni. Potrebbe migliorare notevolmente il riconoscimento e la moderazione dei contenuti, stimolare il design creativo generando media più complessi e coinvolgenti e consentire funzioni di ricerca multimodale più estese. Inoltre, con l’aumento del numero di modalità, ImageBind offre ai ricercatori una piattaforma per sviluppare sistemi di intelligenza artificiale più sofisticati. Ad esempio, la combinazione di sensori 3D e IMU potrebbe consentire la creazione o la simulazione di mondi virtuali più coinvolgenti.
Inoltre, ImageBind elimina la necessità di addestramento su ogni diversa combinazione di modalità. Sfruttando la potenza delle immagini per “legare” insieme intere esperienze sensoriali, ImageBind supera la limitazione della necessità di dati sensoriali multipli che tradizionalmente ha ostacolato l’apprendimento multimodale.
Per approfondire: ImageBind: Holistic AI learning across six modalities