Ricerca conferma le perplessità sull’AI per la diagnosi Covid dalle TAC

Scan polmoni

Stimolate anche dalla pandemia, molte aziende e startup hanno rilasciato modelli di intelligenza artificiale per individuare la Covid-19 dalle TAC al torace. Si trattava anzitutto di una soluzione alla mancanza di test veloci (ricordate quando per attendere un responso, anche preliminare, dal tampone bisognava attendere diversi giorni?) e un modo per comprendere la gravità della compromissione ai polmoni. L’ho inizialmente riportato proprio un anno fa riguardo a un ospedale di Roma, e qualche giorno dopo segnalavo in una breve notizia le perplessità di alcuni esperti.

Ora che si hanno a disposizione più dati e sono state pubblicate diverse ricerche, alcuni studiosi hanno voluto vederci chiaro. Essi hanno passato al setaccio 320 articoli scientifici sottoponendoli a una revisione del testo per valutarne la qualità. Dopo questa scrematura 62 articoli sono stati ritenuti idonei a far parte di quella che gli autori definiscono una revisione sistematica sia della ricerca pubblicata, sia dei preprint condivisi su archivi di ricerca aperti come arXiv, bioRxiv e medRxiv.

In circa la metà degli studi analizzati gli autori non hanno fatto alcun tentativo di eseguire la convalida esterna dei dati di addestramento, non hanno valutato la sensibilità o la robustezza del modello o non hanno riportato i dati demografici delle persone incluse nei dati di addestramento. Inoltre nessuno di quei documenti soddisfa tutti i seguenti requisiti: (1) un testo sufficientemente documentato che descriva un metodo riproducibile; (2) un metodo che segua le migliori pratiche per sviluppare un modello di apprendimento automatico; e (3) una convalida esterna sufficiente a giustificare l’applicabilità più ampia del metodo.

Il responso non è tenero: “Nella loro forma attuale, nessuno dei modelli di apprendimento automatico inclusi in questa revisione sono probabili candidati alla traduzione clinica per la diagnosi/prognosi della COVID-19“, si legge nel loro documento pubblicato su Nature. “Nonostante gli enormi sforzi dei ricercatori per sviluppare modelli di apprendimento automatico per la diagnosi e la prognosi da COVID-19, abbiamo trovato difetti metodologici e molte distorsioni in tutta la letteratura, che portano a prestazioni riportate molto ottimistiche.

Va specificato che la bacchettata dei ricercatori è soprattutto su come sono state condotte e presentate queste ricerche, cosa che però getta inevitabilmente un’ombra sull’effettiva qualità dei sistemi AI per la diagnosi da Covid-19 tramite TAC o radiografia. Avrete notato come, nella dichiarazione che ho riportato in alto, i ricercatori facciano capire in maniera neanche troppo velata che le prestazioni sbandierate dai venditori di questi sistemi AI sono probabilmente esagerate.

Non è la prima volta che la ricerca AI viene accusata di essere poco trasparente, soprattutto in ambito medico. Passi ovviamente la necessità di pubblicare ricerche in fretta a causa dell’urgenza della pandemia, ma se si vuole conquistare la fiducia del settore medico sarà necessario che i ricercatori AI pongano maggiore attenzione alla qualità delle loro pubblicazioni.

Per approfondire: Major flaws found in machine learning for COVID-19 diagnosis

Sono partner e fondatore di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti l'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI), della Association for Computing Machinery (ACM) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.