
Ricercatori di Microsoft hanno recentemente sviluppato un nuovo modello di intelligenza artificiale per la sintesi vocale chiamato VALL-E. L’approccio di modellazione linguistica, derivato dalla tecnologia EnCodec di Meta, ha consentito l’addestramento di un modello linguistico che utilizza codici audio discreti, consentendogli di analizzare il modo particolare in cui una persona parla e quindi di sintetizzare i corrispondenti token audio acustici.
Durante la fase di pre-addestramento, il modello VALL-E è stato addestrato con 60.000 ore di parlato inglese da oltre 7.000 persone. I risultati degli esperimenti dimostrano che VALL-E supera in modo significativo lo stato dell’arte dei sistemi TTS zero-shot in termini di naturalezza del parlato e di somiglianza con la persona. Inoltre, VALL-E è in grado di preservare il tono emotivo di chi parla e l’ambiente acustico in cui si trova. Ad esempio, se il campione audio proviene da una telefonata, l’output simulerà le proprietà acustiche di una telefonata.
Il modello può essere utilizzato per applicazioni text-to-speech di alta qualità, per l’editing del parlato e per la creazione di contenuti audio.
Oltre alle sue impressionanti capacità di sintesi vocale, tuttavia, il modello VALL-E solleva anche alcune preoccupazioni relative alla sicurezza e alla privacy. Grazie alla sua capacità di imitare fedelmente la voce di una persona, VALL-E ha il potenziale per essere utilizzato per scopi dannosi, come la creazione di deepfake audio, dove un attaccante simula la voce di qualcuno per ottenere benefici illeciti.
Riconoscendo questi potenziali rischi, i ricercatori di Microsoft hanno preso provvedimenti per garantire che il modello VALL-E non venga utilizzato in modo improprio. Anzitutto, non hanno reso pubblico il codice di VALL-E, il che significa che solo un gruppo selezionato di ricercatori di Microsoft avrà accesso al modello. Inoltre, hanno ipotizzato la possibilità di costruire un modello di rilevamento che riconosca se un clip audio è stato sintetizzato da VALL-E, il che potrebbe in qualche modo mitigare tali rischi.
Vale la pena notare che questa tecnologia è ancora nuova e in fase di ricerca e sarà importante monitorarne lo sviluppo e ogni potenziale uso o abuso in futuro.
Per approfondire: VALL-E – Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers