Modello AI ricostruisce il volto da video molto compressi

Qualche mese fa vi avevo parlato di un modello di Nvidia, Maxine, che trasmetteva in videoconferenza solo le modifiche al volto (ad esempio mentre ci si muove o si parla), facendo risparmiare traffico e consentendo quindi di avere video di qualità anche con poca banda a disposizione.

Ora Nvidia ha presentato Face-vid2vid, un modello AI generativo che ricostruisce il volto partendo da un’immagine a bassissima risoluzione, come dimostrato da queste immagini:

Dimostrazione di Face-vid2vid

Il codice è basato su Imaginaire, una libreria PyTorch con implementazioni di diversi metodi di sintesi immagini e video sviluppati dall’azienda, dalla quale apparentemente ha attinto anche Maxine. Il paper sarà presentato alla conferenza CVPR21, Conference on Computer Vision and Pattern Recognition.

Per approfondire: One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing

Sono partner e fondatore di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti l'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI), della Association for Computing Machinery (ACM) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.