Eliminare l’odio dai dataset per mitigare i bias dei modelli linguistici

Conoscenza dai libri

Una delle piaghe dei grandi modelli linguistici sono i bias, i pregiudizi, che nascono dai dati su cui sono stati addestrati: immense collezioni di testi che possono contenere anche razzismo, odio, ecc. Un gruppo di ricercatori in Canada ha creato un sistema che identifica e filtra questi testi “indesiderati”, consentendo quindi di addestrare i modelli linguistici con dataset meno pericolosi.

Per approfondire: Mitigating harm in language models with conditional-likelihood filtration

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.