Una rete generativa corregge le parole incomplete durante le chiamate disturbate

Voce generata artificialmente

Il mondo fa sempre più ricorso a video-chiamate, dove la voce dell’interlocutore viene spezzettata, chiusa tanti piccoli pacchetti e inviata dall’altro capo della chiamata, a volte a decine di migliaia di chilometri di distanza. Spesso succede che molti di questi pacchetti non arrivino a destinazione, in quel caso avremo la chiamata disturbata, parole spezzate, problemi a comprendere quello che viene detto.

Per cercare di migliorare l’esperienza di chiamata, un team di Google ha sviluppato un software di intelligenza artificiale in grado di generare il contenuto mancante in una parola, imitando alla perfezione la voce dell’interlocutore. Per realizzare il programma ci si è basati sulla rete neurale WaveNetEQ sviluppata da DeepMind (azienda di Google che tratto spesso) in grado di generare un parlato realistico partendo dal testo. La rete è stata quindi addestrata su un dataset di oltre 100 voci in 48 lingue diverse, che ha consentito all’algoritmo di imparare le caratteristiche dell’espressione vocale umana piuttosto che quelle di una lingua specifica. Il team di Google durante il training ha anche pensato di aggiungere sfondi rumorosi – come una stazione ferroviaria o un bar – per assicurarsi che la rete neurale imparasse a distinguere la voce dai rumori di fondo, visto che il servizio sarà usato anche quando gli utenti si trovano all’aperto.

Il software non sostituisce intere parole, bensì si limita a inserire le sillabe e i fonemi più plausibili basandosi sul training ricevuto e su un sistema basato su due reti, che imparano durante la chiamata. La prima è una rete neurale autoregressiva, che fornisce una struttura a breve e medio termine basandosi sugli output precedenti, la seconda è una rete condizionante che informa il network autoregressivo sulle caratteristiche più stabili degli input (ad esempio il timbro della voce), in un certo senso “guidandolo” verso i corretti fonemi da produrre. Il risultato è un sistema che riesce a completare in modo convincente le parole spezzate imitando la voce di chi parla in maniera indistinguibile dall’originale.

La tecnologia può funzionare per interruzioni fino a 120 millisecondi, ed è già stata messa in produzione nell’app Duo sui telefoni Google Pixel 4, ma poiché l’app è crittografata end-to-end (non è possibile intercettare le chiamate nei nodi di passaggio) l’AI deve essere per forza eseguita direttamente sul dispositivo anziché sul Cloud.

Sul blog di Google è possibile ascoltare alcuni esempi di audio “riempito” dall’intelligenza artificiale, che prevede correttamente i termini e li pronuncia con la voce degli oratori senza differenze percettibili.

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.