Qualche mese fa vi avevo parlato di un modello di Nvidia, Maxine, che trasmetteva in videoconferenza solo le modifiche al volto (ad esempio mentre ci si muove o si parla), facendo risparmiare traffico e consentendo quindi di avere video di qualità anche con poca banda a disposizione.
Ora Nvidia ha presentato Face-vid2vid, un modello AI generativo che ricostruisce il volto partendo da un’immagine a bassissima risoluzione, come dimostrato da queste immagini:
Il codice è basato su Imaginaire, una libreria PyTorch con implementazioni di diversi metodi di sintesi immagini e video sviluppati dall’azienda, dalla quale apparentemente ha attinto anche Maxine. Il paper sarà presentato alla conferenza CVPR21, Conference on Computer Vision and Pattern Recognition.
Per approfondire: One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing