Una delle questioni più spinose che circondano la pratica del machine learning riguarda la privacy dei dati utilizzati per addestrare gli algoritmi, pensiamo ad esempio a quelli del settore sanitario.
Fra le opzioni che si possono usare la privacy differenziale è attualmente una delle migliori, in quanto offre una garanzia matematicamente misurabile per salvaguardare la privacy degli individui. Una delle tecniche usate nella privacy differenziale è l’inserimento di “rumore” controllato, sporcando quindi il dataset in maniera da non pregiudicare i risultati, ma allo stesso tempo impedendo ad attaccanti esterni di risalire ai dati individuali utilizzati nel modello.
Microsoft e Harvard hanno sviluppato congiuntamente SmartNoise, una piattaforma di privacy differenziale che aggiunge una quantità accuratamente calibrata di rumore statistico ai dati sensibili. La piattaforma consente di generare un dataset “sintetico” attraverso un modello statistico basato sul dataset originale. Il dataset sintetico rappresenterà quindi un campione falsificato, che però deriva dai dati originali e che manterrà il maggior numero possibile di caratteristiche statistiche, consentendo quindi di ottenere gli stessi risultati ma rendendo inutile qualsiasi analisi per risalire alle informazioni originali.
Per approfondire: Create privacy-preserving synthetic data for machine learning with SmartNoise