Ricerca conferma le perplessità sull’AI per la diagnosi Covid dalle TAC

Scan polmoni

Stimolate anche dalla pandemia, molte aziende e startup hanno rilasciato modelli di intelligenza artificiale per individuare la Covid-19 dalle TAC al torace. Si trattava anzitutto di una soluzione alla mancanza di test veloci (ricordate quando per attendere un responso, anche preliminare, dal tampone bisognava attendere diversi giorni?) e un modo per comprendere la gravità della compromissione ai polmoni. L’ho inizialmente riportato proprio un anno fa riguardo a un ospedale di Roma, e qualche giorno dopo segnalavo in una breve notizia le perplessità di alcuni esperti.

Ora che si hanno a disposizione più dati e sono state pubblicate diverse ricerche, alcuni studiosi hanno voluto vederci chiaro. Essi hanno passato al setaccio 320 articoli scientifici sottoponendoli a una revisione del testo per valutarne la qualità. Dopo questa scrematura 62 articoli sono stati ritenuti idonei a far parte di quella che gli autori definiscono una revisione sistematica sia della ricerca pubblicata, sia dei preprint condivisi su archivi di ricerca aperti come arXiv, bioRxiv e medRxiv.

In circa la metà degli studi analizzati gli autori non hanno fatto alcun tentativo di eseguire la convalida esterna dei dati di addestramento, non hanno valutato la sensibilità o la robustezza del modello o non hanno riportato i dati demografici delle persone incluse nei dati di addestramento. Inoltre nessuno di quei documenti soddisfa tutti i seguenti requisiti: (1) un testo sufficientemente documentato che descriva un metodo riproducibile; (2) un metodo che segua le migliori pratiche per sviluppare un modello di apprendimento automatico; e (3) una convalida esterna sufficiente a giustificare l’applicabilità più ampia del metodo.

Il responso non è tenero: “Nella loro forma attuale, nessuno dei modelli di apprendimento automatico inclusi in questa revisione sono probabili candidati alla traduzione clinica per la diagnosi/prognosi della COVID-19“, si legge nel loro documento pubblicato su Nature. “Nonostante gli enormi sforzi dei ricercatori per sviluppare modelli di apprendimento automatico per la diagnosi e la prognosi da COVID-19, abbiamo trovato difetti metodologici e molte distorsioni in tutta la letteratura, che portano a prestazioni riportate molto ottimistiche.

Va specificato che la bacchettata dei ricercatori è soprattutto su come sono state condotte e presentate queste ricerche, cosa che però getta inevitabilmente un’ombra sull’effettiva qualità dei sistemi AI per la diagnosi da Covid-19 tramite TAC o radiografia. Avrete notato come, nella dichiarazione che ho riportato in alto, i ricercatori facciano capire in maniera neanche troppo velata che le prestazioni sbandierate dai venditori di questi sistemi AI sono probabilmente esagerate.

Non è la prima volta che la ricerca AI viene accusata di essere poco trasparente, soprattutto in ambito medico. Passi ovviamente la necessità di pubblicare ricerche in fretta a causa dell’urgenza della pandemia, ma se si vuole conquistare la fiducia del settore medico sarà necessario che i ricercatori AI pongano maggiore attenzione alla qualità delle loro pubblicazioni.

Per approfondire: Major flaws found in machine learning for COVID-19 diagnosis

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, con consulenze sull'AI presso aziende private e per la Commissione Europea, dove collaboro con la European Defence Agency e il Joint Research Centre. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.