
Una delle piaghe dei grandi modelli linguistici sono i bias, i pregiudizi, che nascono dai dati su cui sono stati addestrati: immense collezioni di testi che possono contenere anche razzismo, odio, ecc. Un gruppo di ricercatori in Canada ha creato un sistema che identifica e filtra questi testi “indesiderati”, consentendo quindi di addestrare i modelli linguistici con dataset meno pericolosi.
Per approfondire: Mitigating harm in language models with conditional-likelihood filtration