Non solo NLP: l’architettura Transformer viene sempre più utilizzata anche per l’imaging, e ora cerca di mandare in soffitta le reti neurali a convoluzioni.
Il paper VidTr: Video Transformer Without Convolutions introduce un nuovo sistema basato su Transformer per la classificazione dei video, senza fare uso di convoluzioni. Il sistema, chiamato VidTr, aggrega le informazioni spazio-temporali attraverso attenzioni sovrapposte e fornisce prestazioni migliori con una maggiore efficienza, raggiungendo prestazioni allo stato dell’arte su cinque dataset usando minori risorse computazionali.