I watermark nei testi scritti dall’AI ancora troppo facili da violare

Hacking watermarks, immaginato da L. Sambucci, realizzato con Midjourney

I watermark digitali introdotti nei testi generati dall’intelligenza artificiale per permettere di rilevarli automaticamente sono vulnerabili ad attacchi informatici che li rendono inutili. Lo dimostrano i ricercatori del Politecnico di Zurigo (ETH) in un nuovo studio che verrà presentato alla conferenza ICLR a maggio.

Il watermarking testuale funziona introducendo pattern nascosti nei testi prodotti dai sistemi di intelligenza artificiale, che possono poi essere identificati per capire se il testo è stato scritto da una macchina. Nonostante sia una tecnologia giovane, è già diventata la soluzione più quotata per combattere fake news e plagi generati dall’intelligenza artificiale. Tanto che l’AI Act, il nuovo regolamento europeo sull’AI, imporrà agli sviluppatori di “marchiare” i contenuti creati dall’intelligenza artificiale.

Peccato che i watermark più avanzati non siano ancora così efficaci come vorrebbe la legge, spiega Robin Staab, dottorando all’ETH e co-autore dello studio. Lui e il suo team sono riusciti a violare ben 5 diversi algoritmi di watermarking che si basano sullo stesso principio: dividere il vocabolario del modello AI in parole “verdi” e “rosse” e far sì che il sistema scelga più spesso le parole verdi.

Tecnicamente, i watermark analizzati usano un generatore di numeri pseudo-casuali che, a partire dalla parola precedente come “seme”, determina una lista di parole verdi tra cui il modello deve scegliere la parola successiva con alta probabilità. Un testo con tante parole verdi avrà quindi più chance di essere stato scritto dall’AI.

Come hanno fatto i ricercatori a trovare l’elenco dei termini da evitare? Sfruttando l’API del modello di linguaggio che applica i watermark, lo hanno “interrogato” migliaia di volte per ottenere tanti testi da analizzare. In questo modo sono riusciti a dedurre quali fossero approssimativamente le parole “verdi” usate dal watermark.

Una volta carpito il segreto, i ricercatori hanno sferrato due tipi di attacchi: lo spoofing, che permette di sfruttare le parole verdi per generare testi che sembrano watermarked anche se in realtà sono scritti da un umano, e lo stripping, che consente di ripulire i testi generati dall’AI dai watermark, facendoli passare per testi scritti da umani.

Nel primo caso il tasso di successo è stato dell’80%. Nell’attacco di “stripping” addirittura dell’85% anche su porzioni di testo lunghe (300 token). Risultati impressionanti, considerando che i testi “depurati” dal watermark subiscono un degrado di qualità minimo in termini di scorrevolezza (perplexity).

Altri studi indipendenti, come quelli del Prof. Soheil Feizi dell’Università del Maryland, hanno confermato queste vulnerabilità anche sui modelli linguistici e chatbot più evoluti, come GPT-3 e ChatGPT. Questo “sottolinea quanto sia importante essere cauti nel diffondere su larga scala meccanismi di rilevamento così fragili”, afferma Feizi.

I watermark restano comunque il metodo più promettente per stanare i contenuti generati dall’AI, precisa Nikola Jovanović, altro co-autore dello studio ETH. Ma bisogna ancora lavorarci parecchio prima di considerarli pronti per un utilizzo su vasta scala. Nel frattempo, meglio non riporre troppa fiducia in questi strumenti e valutarli per quello che sono: un approccio sperimentale che, nella migliore delle ipotesi, è meglio di niente.

Per approfondire: It’s easy to tamper with watermarks from AI-generated text

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.