VidTr, Transformer per classificare video senza convoluzioni

Non solo NLP: l’architettura Transformer viene sempre più utilizzata anche per l’imaging, e ora cerca di mandare in soffitta le reti neurali a convoluzioni.

Il paper VidTr: Video Transformer Without Convolutions introduce un nuovo sistema basato su Transformer per la classificazione dei video, senza fare uso di convoluzioni. Il sistema, chiamato VidTr, aggrega le informazioni spazio-temporali attraverso attenzioni sovrapposte e fornisce prestazioni migliori con una maggiore efficienza, raggiungendo prestazioni allo stato dell’arte su cinque dataset usando minori risorse computazionali.

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.