Eliminare l’odio dai dataset per mitigare i bias dei modelli linguistici

Conoscenza dai libri

Una delle piaghe dei grandi modelli linguistici sono i bias, i pregiudizi, che nascono dai dati su cui sono stati addestrati: immense collezioni di testi che possono contenere anche razzismo, odio, ecc. Un gruppo di ricercatori in Canada ha creato un sistema che identifica e filtra questi testi “indesiderati”, consentendo quindi di addestrare i modelli linguistici con dataset meno pericolosi.

Per approfondire: Mitigating harm in language models with conditional-likelihood filtration

Sono Head of Artificial Intelligence di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti all'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, con consulenze sull'AI presso aziende private e per la Commissione Europea, dove collaboro con la European Defence Agency e il Joint Research Centre. Questo blog è personale.