Pulizia “by design” per i dataset usati dal machine learning

Database - Dataset

Un giorno questo periodo potrebbe essere ricordato come l’era dei dataset sporchi, o dei dataset scadenti. Un’epoca dove la cura del dato – per quanto già da diversi anni molte aziende si affannino a reperire sul mercato professionisti di data science – è tenuta in secondo piano, sia dal management sia dagli stessi tecnici che addestrano modelli di deep learning.

Un certo tasso di sporcizia, per non parlare dei bias, viene spesso accettato come fisiologico, fintanto che il modello in qualche modo arriva a fare quello che ci aspettiamo o risponde bene ai benchmark. Il problema si crea quando scalabilità, leggere variazioni di scopo o anche la semplice messa in produzione fanno emergere errori che fin lì erano ancora ignoti o considerati innocue spurie. A quel punto si inizia a capire quanto la sporcizia del dataset abbia influito sugli sbagli del modello o addirittura sull’eventuale fallimento del progetto.

Non è un caso che il governo statunitense, nel suo programma di sviluppo e potenziamento della ricerca sull’intelligenza artificiale, riponga molta importanza su un progetto nazionale che metta a disposizione dei ricercatori dataset pubblici puliti e realizzati seguendo tutti i crismi.

Cinque ricercatori, convinti della rilevanza che rivestono le modalità in cui si raccolgono, si costruiscono e si condividono i dataset, hanno rilasciato uno studio dove descrivono gli errori che si possono compiere in questo importante passaggio del ciclo di vita di un modello di machine learning.

Nello studio i ricercatori pongono particolare enfasi sullo sviluppo di dataset puliti fin dall’inizio, bocciando quelle situazioni dove prima si prende un dataset sporco, quindi si procede a correggerne gli errori in corsa: “Attempts to rehabilitate datasets and/or models starting from the flawed datasets themselves further reinforce the problems outlined in the critiques of dataset design and development.”

A me – che provengo dal mondo della cybersecurity – ricorda molto il concetto di “security by design“, dove la sicurezza deve essere pensata già in fase di progettazione, per non dover poi applicare patch su patch quando il prodotto sarà in produzione.

In maniera simile si cerca di inserire nella “dataset culture” un concetto che potremmo chiamare pulizia “by design”, dove piuttosto che far ingerire al modello tutto ciò che si trova su Internet, per poi correggere gli errori in un secondo tempo, si presta fin da subito particolare cura alla costruzione e allo sviluppo dei dataset.

Dataset che magari risulteranno più piccoli e dispendiosi in termini di tempo, ma che offriranno ai modelli di intelligenza artificiale maggiore stabilità e robustezza.

Per approfondire: Data and its (dis)contents: A survey of dataset development and use in machine learning research

Sono partner e fondatore di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti l'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI), della Association for Computing Machinery (ACM) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.