Gli assistenti vocali e il problema della pronuncia

Assistente vocale

A Stanford hanno provato a vedere come si comportano gli algoritmi di riconoscimento vocale quando la pronuncia, la cadenza, l’inflessione delle parole non è perfettamente corrispondente alla lingua ufficiale. Per lo studio hanno raccolto spezzoni audio da diversi gruppi di donne e uomini provenienti da varie parti degli Stati Uniti. Fra gli altri hanno anche raccolto pezzi audio da una comunità di afroamericani nel North Carolina e altri da una comunità di bianchi nel nord della California per confrontare i risultati.

Per comprendere con quale efficacia gli algoritmi di riconoscimento vocale riuscissero a capire l’audio i ricercatori hanno usato una metrica chiamata word error rate (WER), che si ottiene mettendo a confronto una trascrizione manuale fedele all’audio e la trascrizione fornita dall’algoritmo. Dai risultati è apparso chiaro che tutti i sistemi hanno problemi con l’audio pronunciato dagli uomini afroamericani, con tassi di errore generalmente doppi rispetto a quelli riscontrati con uomini e donne bianchi. Più comprensibili degli uomini sono risultate le donne di colore, con un tasso d’errore comunque superiore alla media dello studio.

Con uomini e donne bianchi gli algoritmi hanno restituito tassi di errore rispettivamente dello 0,21 e dello 0,17 – differenze statisticamente irrilevanti – mentre il WER con le donne afroamericane è arrivato a 0,30 e con gli uomini afroamericani addirittura allo 0,41. All’atto pratico queste differenze vogliono dire che i software non riconoscono, non capiscono, sbagliano le parole il doppio delle volte con gli uomini di colore rispetto ai bianchi.

Il motivo ovviamente non è razzismo, bensì semplicemente un training delle reti neurali dove il dataset era composto più da spezzoni audio di persone bianche rispetto a persone di colore. Tutti i maggiori produttori di software di riconoscimento vocale, parliamo di Amazon, Apple, Google, IBM e Microsoft, hanno avuto problemi simili nel test. Questo significa che in tutti quei casi il training set non era opportunamente bilanciato, cosa che ha fatto nascere il bias dell’algoritmo.

Sbaglieremmo a pensare che il problema è solo americano. Tutte le lingue hanno dialetti, accenti, pronunce diverse. In Italia ne sappiamo qualcosa, con la molteplicità di lingue e soprattutto di dialetti parlati nel nostro Paese. Ma anche altri Paesi, penso ad esempio all’India, hanno le stesse difficoltà.

Una soluzione sarebbe consentire alle reti neurali degli assistenti vocali di imparare in continuazione, adeguandosi al parlato di chi li usa. Sarebbe triste veder accelerare la scomparsa di lingue e dialetti solo perché le macchine non li capiscono. O perché i maggiori produttori di assistenti digitali usano dataset troppo selettivi.

Sono Head of Artificial Intelligence di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti all'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, con consulenze sull'AI presso aziende private e per la Commissione Europea, dove collaboro con la European Defence Agency e il Joint Research Centre. Questo blog è personale.