Bias geografico per la maggior parte dei modelli diagnostici USA

Dati medici

Tre professori di Stanford, fra cui un medico, hanno esaminato cinque anni di articoli sottoposti a peer-review dove i modelli di deep learning erano stati addestrati al fine di eseguire compiti diagnostici per la cura dei pazienti. Tra gli studi statunitensi in cui è stato possibile caratterizzare l’origine geografica, i tre professori hanno trovato che la maggior parte di questi studi (71%) ha utilizzato dati di pazienti provenienti da California, Massachusetts o New York per addestrare gli algoritmi. Circa il 60% si è basato esclusivamente su queste tre località. Trentaquattro stati non erano affatto rappresentati, mentre gli altri 13 stati erano presenti con dati limitati.

L’esclusione dei pazienti di certe aree geografiche dal training degli algoritmi rende questi ultimi sbilanciati e potenzialmente dannosi per le tipologie sotto-rappresentate. Il problema è che dataset ampi e rappresentativi sono spesso difficili da trovare, e se esistono possono essere molto costosi. È comunque vitale, soprattutto in ambito medico, che i pazienti sappiano quanto il dispositivo o software AI che viene usato per curarli sia effettivamente adatto a loro.

Ricordo che qualche mese fa due importanti ospedali italiani si sono dotati di software AI per la diagnosi da Covid-19 usando le TAC toraciche: il Campus Bio-Medico di Roma con un software apparentemente cinese e il San Raffaele di Milano con un software indiano. Con quanta efficacia si sono adattati alla popolazione italiana? Non lo sappiamo, perché pur avendo provato a contattare i rispettivi uffici stampa nessuno ha saputo o voluto fornire spiegazioni.

Mi sono appassionato all'intelligenza artificiale da quando ho potuto vedere all'opera i primi sistemi esperti negli anni '80. Già dal 1989 mi occupavo di cybersecurity (analizzando i primi virus informatici) ma non ho mai smesso di seguire gli sviluppi dell'AI. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.