Avrete visto in passato esempi di come un classificatore di immagini, con solo pochi pixel di disturbo, possa essere indotto a scambiare un oggetto per un altro completamente diverso. In questo esempio l’immagine di una tartaruga viene scambiata per un fucile.
(se vi interessa trovate molti altri esempi in questa presentazione)
Una delle soluzioni maggiormente utilizzate è sottoporre il classificatore a un nuovo round di addestramento specifico per aumentarne la robustezza. Ora però Microsoft Research ha pubblicato una ricerca che introduce una tecnica chiamata denoised smoothing, per migliorare la robustezza dei classificatori contro gli attacchi adversarial fin dall’inizio.
Questo approccio, scalabile anche su reti e dataset di grandi dimensioni, stabilizza una funzione aiutando a garantire che le previsioni per gli input nelle vicinanze di uno specifico data point siano costanti.
Il risultato garantisce che un classificatore esca dal training iniziale con una robustezza implicita, rendendolo meno suscettibile ad attacchi adversarial e quindi più sicuro.
Per approfondire la tecnica: Denoised smoothing: Provably defending pretrained classifiers against adversarial examples