
Stimolate anche dalla pandemia, molte aziende e startup hanno rilasciato modelli di intelligenza artificiale per individuare la Covid-19 dalle TAC al torace. Si trattava anzitutto di una soluzione alla mancanza di test veloci (ricordate quando per attendere un responso, anche preliminare, dal tampone bisognava attendere diversi giorni?) e un modo per comprendere la gravità della compromissione ai polmoni. L’ho inizialmente riportato proprio un anno fa riguardo a un ospedale di Roma, e qualche giorno dopo segnalavo in una breve notizia le perplessità di alcuni esperti.
Ora che si hanno a disposizione più dati e sono state pubblicate diverse ricerche, alcuni studiosi hanno voluto vederci chiaro. Essi hanno passato al setaccio 320 articoli scientifici sottoponendoli a una revisione del testo per valutarne la qualità. Dopo questa scrematura 62 articoli sono stati ritenuti idonei a far parte di quella che gli autori definiscono una revisione sistematica sia della ricerca pubblicata, sia dei preprint condivisi su archivi di ricerca aperti come arXiv, bioRxiv e medRxiv.
In circa la metà degli studi analizzati gli autori non hanno fatto alcun tentativo di eseguire la convalida esterna dei dati di addestramento, non hanno valutato la sensibilità o la robustezza del modello o non hanno riportato i dati demografici delle persone incluse nei dati di addestramento. Inoltre nessuno di quei documenti soddisfa tutti i seguenti requisiti: (1) un testo sufficientemente documentato che descriva un metodo riproducibile; (2) un metodo che segua le migliori pratiche per sviluppare un modello di apprendimento automatico; e (3) una convalida esterna sufficiente a giustificare l’applicabilità più ampia del metodo.
Il responso non è tenero: “Nella loro forma attuale, nessuno dei modelli di apprendimento automatico inclusi in questa revisione sono probabili candidati alla traduzione clinica per la diagnosi/prognosi della COVID-19“, si legge nel loro documento pubblicato su Nature. “Nonostante gli enormi sforzi dei ricercatori per sviluppare modelli di apprendimento automatico per la diagnosi e la prognosi da COVID-19, abbiamo trovato difetti metodologici e molte distorsioni in tutta la letteratura, che portano a prestazioni riportate molto ottimistiche.“
Va specificato che la bacchettata dei ricercatori è soprattutto su come sono state condotte e presentate queste ricerche, cosa che però getta inevitabilmente un’ombra sull’effettiva qualità dei sistemi AI per la diagnosi da Covid-19 tramite TAC o radiografia. Avrete notato come, nella dichiarazione che ho riportato in alto, i ricercatori facciano capire in maniera neanche troppo velata che le prestazioni sbandierate dai venditori di questi sistemi AI sono probabilmente esagerate.
Non è la prima volta che la ricerca AI viene accusata di essere poco trasparente, soprattutto in ambito medico. Passi ovviamente la necessità di pubblicare ricerche in fretta a causa dell’urgenza della pandemia, ma se si vuole conquistare la fiducia del settore medico sarà necessario che i ricercatori AI pongano maggiore attenzione alla qualità delle loro pubblicazioni.
Per approfondire: Major flaws found in machine learning for COVID-19 diagnosis