Deepfake audio: la nuova frontiera delle truffe telefoniche

Audio deepfake, immaginato da L. Sambucci con Stable Diffusion

Con l’evoluzione dell’AI generativa emergono nuovi rischi di sicurezza, in particolare l’emergere dei deepfake audio. Queste simulazioni vocali sono ora in grado di imitare con precisione l’intonazione, il ritmo e le sfumature di una voce umana, rendendole praticamente indistinguibili dalla realtà e offrendo così ai criminali un potente strumento per truffare persone e aziende.

Un esempio recente, riportato dal New York Times, riguarda Clive Kabatznik, un investitore della Florida. Dopo che la vittima aveva chiamato la sua banca per discutere un trasferimento di denaro, un truffatore ha utilizzato un deepfake vocale per imitare la sua voce in una chiamata successiva, tentando di ingannare il consulente bancario.

Società specializzate come Pindrop e Nuance hanno segnalato un incremento significativo dei tentativi di truffa basati sui deepfake, registrando una maggiore sofisticazione nell’approccio dei truffatori. I sistemi di verifica vocale automatica, che una volta si basavano su caratteristiche uniche e identificabili della voce di un individuo, sono ora messi a dura prova dalla precisione delle voci sintetizzate.

Le banche sono particolarmente esposte, dato che i dettagli dei conti bancari, spesso rubati e venduti sul mercato nero, vengono utilizzati dai truffatori come punto di partenza. E non sono solo i clienti facoltosi ad essere a rischio; anche le registrazioni audio di clienti comuni sono facilmente reperibili attraverso ricerche online.

Nell’ultimo decennio, Pindrop ha analizzato oltre cinque miliardi di chiamate a centri di assistenza di enti finanziari, rilevando migliaia di tentativi di truffa ogni anno. I deepfake vocali rappresentano per ora solo una piccola percentuale di questi tentativi, ma sono destinati ad aumentare.

Un elemento chiave nella lotta contro queste truffe è l’identificazione delle caratteristiche uniche del discorso sintetico. La “parlata” generata dai computer lascia tracce che possono essere individuate da algoritmi anti-spoofing. Ma con l’evoluzione delle tecnologie, come dimostrato da VALL-E di Microsoft, la creazione di deepfake vocali sta diventando sempre più semplice e convincente.

Il fatto che Microsoft’s VALL-E (ne abbiamo parlato a gennaio) possa creare una deepfake vocale utilizzando soli tre secondi di audio campionato sottolinea la sofisticazione raggiunta dai sistemi di generazione. L’architettura di queste reti, combinata con algoritmi di ottimizzazione, ha ridotto significativamente la quantità di dati necessari per produrre imitazioni realistiche.

Ora, come spesso accade, la sfida è diventata una corsa ai continui aggiornamenti tecnologici: ogni miglioramento nelle tecniche di difesa porta a un’evoluzione nelle tattiche di attacco. La creazione di modelli di deepfake sempre più convincenti e la capacità di generare rapidamente tali voci da input testuali o vocali brevi stanno cambiando il campo di gioco.

L’importanza della minaccia è stata sottolineata da un episodio di “60 Minutes” in cui è stata utilizzata una registrazione deepfake, realizzata in pochi minuti, per ingannare un membro dello staff di una giornalista della trasmissione.

Brett Beranek di Nuance, sentito dal NY Times, esprime preoccupazione non solo per le chiamate ai centri di assistenza, ma anche per i tentativi di attacco diretti ai singoli, come nel caso di Kabatznik. Un truffatore che chiama il CEO di un’azienda direttamente sul suo cellulare potrebbe causare danni significativi se riuscisse a convincerlo della sua identità, grazie magari allo spoofing del numero telefonico (per far sembrare la telefonata proveniente da una persona di cui ci si fida) e all’assenza di sistemi di sicurezza multi-fattore.

Nonostante i rapidi progressi nella tecnologia delle truffe, l’origine di queste minacce non è nuova. La causa principale rimane la violazione dei dati personali, con dati di oltre 300 milioni di persone che sono finiti nelle mani dei truffatori tra il 2020 e il 2022, che consente ai criminali di entrare in possesso di informazioni riservate da sfruttare nelle truffe. Oggi, con sistemi AI che consentono di imitare quasi perfettamente la voce di chiunque, essi hanno un nuovo potente strumento a disposizione.