AI e bioinformatica, cosa cambia dopo AlphaFold? Intervista a Massimo Sammito

Proteina

Il co-fondatore e CEO di DeepMind, Demis Hassabis, ha dichiarato senza mezze misure che questo è il motivo per cui ha fondato l’azienda: portare avanti la ricerca scientifica che dia benefici all’umanità. Non stupisce quindi l’orgoglio con cui a luglio ha presentato il nuovo “regalo” dell’azienda alla comunità scientifica: l’AlphaFold Protein Structure Database, una banca dati che offre l’immagine più completa e accurata del proteoma umano, raddoppiando la conoscenza che finora i ricercatori erano riusciti ad accumulare in merito alle strutture proteiche umane.

L’AlphaFold Protein Structure Database è stato generato da AlphaFold2, il sistema di intelligenza artificiale di cui abbiamo ampiamente scritto alla fine dell’anno scorso. Il database di strutture proteiche, che in futuro dovrebbe arrivare a contenere anche le proteine di organismi non umani, fino a contenere oltre 100 milioni di strutture, viene offerto gratuitamente per consentire ai ricercatori di tutto il mondo di portare avanti le loro ricerche in ambito medico e biologico.

Ma qual è l’impatto di questa tecnologia, e in generale dell’intelligenza artificiale, sul settore della biologia? Riesce davvero a scalzare gli attuali metodi usati per la ricerca del ripiegamento proteico? A riguardo ho voluto sentire il Dott. Massimo Domenico Sammito, Senior Bioinformatics Scientist presso Phoremost Ltd a Cambridge, nel Regno Unito.

D: Dott. Sammito, lei di cosa si occupa?
Sono Senior Bioinformatics Scientist in Phoremost Ltd, Cambridge, UK. Phoremost sviluppa una tecnologia di screening che permette d’identificare nuove molecole attive contro target coinvolti in processi tumorali. L’obiettivo è la creazione di farmaci che esplorino meccanismi biologici fino adesso inesplorati. Prima di questo lavoro ho lavorato a lungo come Ricercatore in diverse università europee: Barcellona, Goettingen e infine Cambridge dove mi sono occupato di sviluppare metodi statistici e bioinformatici per la determinazione di strutture macromolecolari (proteine, enzimi ecc).

D: Quali sono le applicazioni di intelligenza artificiale nel suo campo?
Sia nel mondo accademico che nell’industria, l’intelligenza artificiale è considerata una tecnologia ad alto impatto. In Biologia Strutturale i successi riportati da Google DeepMind presentati nelle ultime edizioni di CASP sono ormai noti a tutti. In generale l’intelligenza artificiale offre un vantaggio evidente in tutte quelle branche della scienza biomedica per cui i meccanismi biofisici sono troppo complessi, o talvolta persino sconosciuti, per poter essere modellati con delle funzioni matematiche a soluzioni chiuse. In questi contesti l’apprendimento automatico di quei pattern, impercettibili eppure esistenti, si è dimostrato efficace.

D: Parliamo di AlphaFold2, è davvero così rivoluzionario come si dice?
Sì. Senza ombra di dubbio. Ricordo che quando ero uno studente universitario alle prime armi si parlava di predizione di strutture di proteine come il Santo Graal della Biologia Strutturale. Non solo era il sogno ambito di qualsiasi studente sognatore, com’ero io, ma era anche certamente uno dei problemi più difficili da affrontare sotto ogni punto di vista. AlphaFold2 ha certamente cambiato radicalmente la prospettiva, la qualità dei modelli prodotti è talmente alta da essere molte volte comparabile ai dati sperimentali. In alcune occasioni i modelli previsti hanno permesso di correggere i dati sperimentali precedentemente ottenuti. Ma non è tutto oro ciò che luccica. Nonostante l’enorme balzo in avanti resta moltissimo da esplorare. Finora siamo in grado di predire singoli monomeri (singole unità di molecole di proteine) ma sappiamo che nella maggior parte dei casi le proteine assumono delle forme dette quaternarie complesse. In questi arrangiamenti diverse proteine interagiscono simultaneamente formando macchinari molecolari che eseguono specifiche funzioni nelle cellule. Questa rete d’interazioni non è ancora possibile prevederla, così come la dinamicità strutturale stessa delle proteine che è alla chiave della loro funzione. Certamente, poter prevedere con accuratezza uno degli stati del monomero è un vantaggio fondamentale per tutte quelle tecniche sperimentali (NMR, Cryo-EM e X-Ray Crystallography) che da oggi potranno contare con dei modelli accurati dai quali possono partire.

D: Riflettendo sul suo lavoro, quali sono gli ambiti o i task dove secondo lei l’intelligenza artificiale non riuscirà a raggiungere lo stato dell’arte?
È difficile da predire, l’intelligenza artificiale, in tutte le sue forme, si basa sul fatto che si abbia a disposizione un’enorme quantità di dati accurati che possano formare quello che in gergo si chiama training set. Ciò non è sempre possibile, ancora oggi nella ricerca, tanto accademica quanto industriale, moltissime scoperte e innovazioni sono dovute alla forte intuizione dei ricercatori. Per rispondere ad alcune delle più importanti domande biologiche a volte non abbiamo sufficienti dati o spesso siamo limitati dai fondi. Altre volte invece il problema è esattamente l’opposto. Nella creazione di un farmaco, per esempio, sono coinvolti quantità immense di dati, persone e specializzazioni in studi che richiedono decenni. Trovo inimmaginabile pensare oggi a un unico metodo computazionale che sia capace di prevedere end-to-end il miglior farmaco validato e testato pronto per essere venduto in farmacia.

D: Come si vive l’avvento dell’AI nel vostro settore, come un aiuto in più o una minaccia?
Si vive certamente positivamente, è ben visto e apprezzato. Tuttavia per molti è ancora una scatola nera (black box) un tool accattivante ma che non si sa bene come usare ed in che modo. L’AI come qualsiasi altra tecnologia computazionale richiede preparazione, studio, impegno e molta, moltissima pratica. Richiede anche molta potenza di calcolo, cosa che a volte limita alcuni gruppi di ricerca o il singolo studente ma che non necessariamente spaventa le imprese.

D: Ora che un gruppo di ricercatori indipendenti ha rilasciato RoseTTAFold, che ottiene una precisione simile ad AlphaFold2 ma usando molte meno risorse computazionali, sembra che sia iniziata la gara a chi offre il miglior modello predittivo a voi scienziati bioinformatici. Come si aspetta che evolveranno i modelli nei prossimi anni?

L’approccio proposto da Baker è basato su AlphaFold2 (o almeno su quello che all’epoca si sapeva in merito). I risultati sono molto buoni ma non sono allo stesso livello di AlphaFold2. RoseTTAFold è certamente una soluzione adeguata per il mondo accademico dove le risorse sono limitate così come i fondi a disposizione. I modelli strutturali prodotti sono perfetti come template iniziali per studi sperimentali classici (X-Ray, Cryo-EM). Gli stessi autori nell’articolo presentano questa come una delle applicazioni principali. In rete nei vari Github ci sono stati diversi tentativi di simulare i risultati presentati da DeepMind ma senza successo. Baker certamente è il gruppo che ci è andato più vicino e che ha le competenze tecniche e l’esperienza necessaria. In un paio di anni risolveremo strutture sui nostri cellulari probabilmente. Ma se mi chiedi se il tempo di calcolo è cruciale nel processo di sviluppo di un farmaco, personalmente non ne sono convinto. L’intera macchina biofarmaceutica richiede anni di lavoro, studi e risorse, la struttura di una proteina deve solo essere trovata una volta. Se questa operazione richiede un’ora, o due giorni di calcolo non credo possa essere un bottleneck. In generale comunque la competizione scientifica è sempre sana e produce nel tempo software, metodi e risultati sempre migliori ed efficaci. Baker ha cercato di introdurre nel suo software la possibilità di prevedere complessi di proteine, credo che si lavorerà molto in questa direzione nel futuro dell’AI applicata alla Biologia Strutturale.

D: Quindi ora il ripiegamento proteico si può prevedere più rapidamente e con minori risorse. Quali saranno i vantaggi concreti per le persone?

L’intera comunità scientifica beneficia di questi tool dal potere predittivo e con alta precisione. Inizieranno ad essere provati su famiglie di proteine completamente sconosciute (resta da vedere se saranno capaci di produrre modelli della stessa qualità). Ci sarà la possibilità di studiare sistemi biologici prima inesplorati. Tutto questo porterà ovviamente a un riscontro in termini di produzione di nuovi farmaci. Dal punto di vista accademico saremo in grado di studiare e comprendere molto di più di ciò che accade nelle nostre cellule. E nel caso di una prossima pandemia, per esempio, saremo in grado di prevedere la struttura del virus coinvolto rapidamente accelerando tutti gli studi sperimentali necessari alla creazione di un vaccino.

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.