La difesa della privacy ai tempi dell’intelligenza artificiale

La capacità di individuare pattern e portare alla luce elementi nascosti è uno dei punti di forza del machine learning, che tuttavia in mani sbagliate (o semplicemente poco attente) potrebbe mettere in risalto informazioni personali, riservate, che gli interessati hanno tutto il diritto di mantenere tali.

È il caso ad esempio delle inclinazioni politiche, come ha fatto emergere lo scandalo di Cambridge Analytica, dove un algoritmo è in grado di capire per chi votiamo semplicemente analizzando il nostro comportamento sui social. Ma anche la città dove abitiamo, pure se non l’abbiamo mai dichiarata da nessuna parte, è un dato che alcuni ricercatori riscono a derivare ad esempio dalle attività su Google Play. O, per continuare con gli esempi, un algoritmo potrebbe indovinare il sesso di un individuo basandosi unicamente sui punteggi dati ai film.

In questi casi assistiamo a ciò che viene definito attribute inference, dove il machine learning – opportunamente addestrato – deriva una determinata caratteristica (implicitamente riservata) partendo da dati disponibili pubblicamente.

La forza del machine learning sembra inarrestabile, eppure anche l’intelligenza artificiale ha il suo punto debole, e questo è rappresentato dagli attacchi che “inquinando” i dati casualmente o secondo precise istruzioni riescono a portare fuori strada l’algoritmo. Tutti questi attacchi sono genericamente noti come “adversarial” AI (qui una corposa reading list).

Un attacco adversarial, ad esempio, consiste nel modificare alcuni pixel di una foto – non pixel a caso bensì derivati da un’apposita analisi – per indurre un errore di classificazione, come dimostra questa immagine:

È bastato aggiungere un “rumore” con pixel ben calibrati per far credere all’algoritmo che quello a destra, invece di un maiale, fosse un aereo di linea. Analogamente agli attacchi alle immagini, è possibile aggiungere “rumore” anche ad altri tipi di dati per impedire che l’algoritmo individui i pattern giusti.

Alcuni ricercatori presso il Rochester Institute of Technology e la Duke University, guidati da Neil Gong, stanno pensando proprio a questo: usare l’adversarial per consentire agli utenti di riprendersi, almeno in parte, la propria privacy.

Il loro framework di difesa (o meglio, di “attacco difensivo”) si chiama AttriGuard e consiste essenzialmente nella creazione di “rumore” nei dati dell’utente. Nel loro studio (pdf) i ricercatori propongono la modifica, la variazione, l’aggiunta e la cancellazione di determinati parametri per portare l’algoritmo a derivare risultati sbagliati.

È ovviamente tutta da capire – al di là della curiosità accademica – la fattibilità di un sistema del genere, che dovrebbe anzitutto essere pacchettizzato e distribuito, addestrato su una miriade di algoritmi (quello che funziona contro il recommendation system di Netflix non necessariamente funziona contro l’image recognition di Facebook) e che soprattutto dovrebbe trovare il supporto dell’utenza: quanti sarebbero davvero disposti a “sporcare” le proprie attività sui social pur di mandare fuori strada il machine learning dei vari siti?

Questa soluzione dovrebbe infine fare i conti con un’industria agguerrita, che migliora continuamente i propri algoritmi e che sta investendo molto pur di neutralizzare gli attacchi adversarial ai propri sistemi di intelligenza artificiale.

Nonostante tutto resta valido il grido di allarme contro l’attribute inference selvaggio: solo perché sofisticati algoritmi riescono a derivare con sufficiente precisione una o più informazioni riservate degli utenti, non vuol dire che questo debba essere consentito. L’etica dell’AI dovrà occuparsi anche di questo tema.

Mi sono appassionato all'intelligenza artificiale da quando ho potuto vedere all'opera i primi sistemi esperti negli anni '80. Già dal 1989 mi occupavo di cybersecurity (analizzando i primi virus informatici) ma non ho mai smesso di seguire gli sviluppi dell'AI. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.