Nuovo metodo per automatizzare il jailbreak dei LLM

Robust Intelligence - Tree of Attacks with Pruning

Recentemente, un gruppo di ricercatori di Robust Intelligence, in collaborazione con Yale University, ha portato alla luce la fragilità delle difese implementate per proteggere i maggiori LLM. Attraverso una serie di attacchi sistematici, hanno dimostrato come sia possibile manipolare questi modelli per produrre risposte pericolose o eticamente discutibili (il cosiddetto “jailbreak” dei LLM). I ricercatori hanno potuto così indurre questi sistemi a fornire informazioni su come commettere furti, manipolare reti informatiche aziendali, o persino progettare dispositivi pericolosi.

Il metodo utilizzato, denominato “Tree of Attacks with Pruning” (TAP), rappresenta un salto qualitativo negli attacchi ai LLM. TAP funziona attraverso un processo iterativo di affinamento delle istruzioni dannose, rendendo gli attacchi sempre più efficaci. Partendo da una richiesta iniziale, il sistema propone miglioramenti utilizzando un modello LLM aggressore, che si adatta in base al feedback ricevuto nei round precedenti. Ciò comporta la generazione di molteplici prompt candidati ad ogni passaggio, creando un albero di ricerca che esplora diverse vie per il jailbreaking in modo efficiente. Un meccanismo di potatura elimina i percorsi non promettenti, ottimizzando l’attacco.

L’impatto di queste scoperte indica non solo la necessità di un approccio più sofisticato alla sicurezza dei LLM, ma solleva anche interrogativi sulle responsabilità degli sviluppatori di tali tecnologie. OpenAI, Google e altri giganti “BigTech” hanno dedicato notevoli risorse per implementare misure di sicurezza, ma gli attacchi TAP dimostrano che tali misure potrebbero non essere sufficienti.

Se da un lato questa notizia sottolinea l’importanza di una continua vigilanza e aggiornamento dei sistemi di sicurezza che governano l’utilizzo dei LLM, dall’altro, mette in luce la necessità di un dibattito più ampio e profondo sul ruolo e l’impiego etico dell’intelligenza artificiale nella nostra società. La strada verso l’innovazione responsabile e sicura nell’ambito dell’AI è ancora lunga e richiederà un impegno congiunto da parte di sviluppatori, ricercatori e policy maker per procedere con la dovuta cautela.

Per approfondire: These Researchers Broke ChatGPT and Made It Talk About Theft, Weapons and Assassination

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.