VidTr, Transformer per classificare video senza convoluzioni

Non solo NLP: l’architettura Transformer viene sempre più utilizzata anche per l’imaging, e ora cerca di mandare in soffitta le reti neurali a convoluzioni.

Il paper VidTr: Video Transformer Without Convolutions introduce un nuovo sistema basato su Transformer per la classificazione dei video, senza fare uso di convoluzioni. Il sistema, chiamato VidTr, aggrega le informazioni spazio-temporali attraverso attenzioni sovrapposte e fornisce prestazioni migliori con una maggiore efficienza, raggiungendo prestazioni allo stato dell’arte su cinque dataset usando minori risorse computazionali.

Sono partner e fondatore di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti l'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI), della Association for Computing Machinery (ACM) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.