Una rete generativa corregge le parole incomplete durante le chiamate disturbate

Voce generata artificialmente

Il mondo fa sempre più ricorso a video-chiamate, dove la voce dell’interlocutore viene spezzettata, chiusa tanti piccoli pacchetti e inviata dall’altro capo della chiamata, a volte a decine di migliaia di chilometri di distanza. Spesso succede che molti di questi pacchetti non arrivino a destinazione, in quel caso avremo la chiamata disturbata, parole spezzate, problemi a comprendere quello che viene detto.

Per cercare di migliorare l’esperienza di chiamata, un team di Google ha sviluppato un software di intelligenza artificiale in grado di generare il contenuto mancante in una parola, imitando alla perfezione la voce dell’interlocutore. Per realizzare il programma ci si è basati sulla rete neurale WaveNetEQ sviluppata da DeepMind (azienda di Google che tratto spesso) in grado di generare un parlato realistico partendo dal testo. La rete è stata quindi addestrata su un dataset di oltre 100 voci in 48 lingue diverse, che ha consentito all’algoritmo di imparare le caratteristiche dell’espressione vocale umana piuttosto che quelle di una lingua specifica. Il team di Google durante il training ha anche pensato di aggiungere sfondi rumorosi – come una stazione ferroviaria o un bar – per assicurarsi che la rete neurale imparasse a distinguere la voce dai rumori di fondo, visto che il servizio sarà usato anche quando gli utenti si trovano all’aperto.

Il software non sostituisce intere parole, bensì si limita a inserire le sillabe e i fonemi più plausibili basandosi sul training ricevuto e su un sistema basato su due reti, che imparano durante la chiamata. La prima è una rete neurale autoregressiva, che fornisce una struttura a breve e medio termine basandosi sugli output precedenti, la seconda è una rete condizionante che informa il network autoregressivo sulle caratteristiche più stabili degli input (ad esempio il timbro della voce), in un certo senso “guidandolo” verso i corretti fonemi da produrre. Il risultato è un sistema che riesce a completare in modo convincente le parole spezzate imitando la voce di chi parla in maniera indistinguibile dall’originale.

La tecnologia può funzionare per interruzioni fino a 120 millisecondi, ed è già stata messa in produzione nell’app Duo sui telefoni Google Pixel 4, ma poiché l’app è crittografata end-to-end (non è possibile intercettare le chiamate nei nodi di passaggio) l’AI deve essere per forza eseguita direttamente sul dispositivo anziché sul Cloud.

Sul blog di Google è possibile ascoltare alcuni esempi di audio “riempito” dall’intelligenza artificiale, che prevede correttamente i termini e li pronuncia con la voce degli oratori senza differenze percettibili.

Mi sono appassionato all'intelligenza artificiale da quando ho potuto vedere all'opera i primi sistemi esperti negli anni '80. Già dal 1989 mi occupavo di cybersecurity (analizzando i primi virus informatici) ma non ho mai smesso di seguire gli sviluppi dell'AI. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton e una certificazione Artificial Intelligence Professional da IBM. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Partecipo ai lavori della European AI Alliance della Commissione Europea e del Consultation Forum for Sustainable Energy in the Defence and Security Sector della European Defence Agency. Questo blog è personale.