Se avete a che fare con strumenti vocali multilingua noterete come per lingue diverse lo strumento usi generalmente voci diverse. Ora un team di Amazon Science, lavorando su Alexa, lo smart speaker dell’azienda, è riuscito a trasferire alla voce inglese la capacità di parlare spagnolo con l’accento e la velocità di un madrelingua.
Il text-to-speech neurale (neural text-to-speech, o NTTS) usa le reti neurali per generare il discorso direttamente dai rendering fonetici dei testi di input. Negli ultimi anni il team di Amazon TTS ha usato NTTS per trasferire le inflessioni vocali (prosodia) da una voce registrata a una voce sintetizzata o per cambiare lo stile del parlato di una voce sintetizzata, per farla sembrare più simile a un giornalista o a un DJ. Allo stesso modo il TTS neurale consente di insegnare a una voce già esistente una lingua diversa.
Per approfondire i dettagli tecnici consiglio direttamente il blog di Amazon science: English-language Alexa voice learns to speak Spanish