
Nella realizzazione di un sistema basato sul machine learning il dataset è un elemento fondamentale per il successo del modello. Spesso si sente dire che i dataset non siano protetti dal diritto d’autore. Questo non è del tutto corretto e l’attuale status in Europa è riassunto bene qui; è vero però che le aziende che hanno dovuto realizzare, organizzare, annotare e pulire un dataset, si trovano a dover fare i conti con una giurisprudenza che non tutela i loro sforzi come esse vorrebbero.
Questo spiega le iniziative per creare sistemi che proteggano i dataset dagli usi non autorizzati, come quello recentemente pubblicato da alcuni ricercatori della University of Aeronautics and Astronautics di Nanchino, in Cina, nel loro studio Protect the Intellectual Property of Dataset against Unauthorized Use.
Il metodo consiste nel proteggere un dataset di immagini inserendo delle perturbazioni (una specie di watermark, anche se il termine in questo caso è improprio) che lo rendono inutilizzabile: nei test con alcuni dataset pubblici, dopo aver applicato le perturbazioni per “sporcare” i dataset, l’accuratezza dei modelli è crollata di 50~60 punti percentuali (ad es. da 74% a 16,2%). Questi speciali disturbi possono essere eliminati attraverso una procedura che prevede l’utilizzo di una chiave segreta AES.
In questo modo il proprietario trasforma il dataset pulito nel dataset protetto attraverso l’aggiunta di perturbazioni in ogni immagine. Il dataset “sporco” può quindi essere rilasciato al pubblico senza timore di utilizzi indebiti, poiché la chiave segreta che ne consentirebbe la “pulizia” è conservata in modo sicuro in una piattaforma cloud, che i ricercatori chiamano Dataset Management Cloud Platform (DMCP).

Un utente che venisse in possesso del dataset non potrebbe usarlo per addestrare il suo modello a causa delle perturbazioni che ne comprometterebbero irrimediabilmente l’accuratezza. Invece, un utente autorizzato si potrà anzitutto collegare al DMCP attraverso i canali forniti dal proprietario del dataset, dopodiché la piattaforma ripristinerà il dataset con la chiave segreta. Le performance sul dataset ripristinato sono paragonabili a quelle ottenute sul dataset originale.

Finora gran parte degli sforzi si erano concentrati sulla protezione della proprietà intellettuale degli algoritmi, come ad esempio lo studio di alcuni ricercatori IBM sull’applicazione di watermark all’interno di una rete neurale (Protecting Intellectual Property of Deep Neural Networks with Watermarking), ora però la protezione dei dataset inizia a diventare fondamentale per le aziende, sia per il pericolo dei furti di dati, sia per alcune iniziative di governance che imporranno alle aziende di fornire i dataset dietro richiesta delle autorità (la proposta europea di regolamento dell’intelligenza artificiale è forse l’esempio più rilevante).
Il rischio è che questo metodo, se adottato, possa contribuire ad aumentare il problema della riproducibilità, a cui ho già accennato in passato e che coinvolge anche i grandi centri di ricerca: se chi fa ricerca sull’intelligenza artificiale non rende disponibili i dataset, i risultati che pubblicherà non saranno verificabili, creando un problema non indifferente di trasparenza e di robustezza dei sistemi.
Si potrebbe osservare che con questo metodo i ricercatori potrebbero finalmente mettere a disposizione, selettivamente, dataset che in passato avrebbero dovuto tenere riservati. Questo in parte è vero. Tuttavia, il fatto che gli accessi dovranno comunque essere autorizzati rischia di creare distorsioni dove studiosi di terze parti potrebbero essere soggetti a potenziali vincoli di trasparenza (immaginiamo una clausola che vieti loro di pubblicare risultati negativi per il proprietario del dataset), condizioni che di certo non aiuteranno la ricerca in questo settore.