PsySafe: un nuovo approccio alla sicurezza dei sistemi multi-agente

Sistema multiagente, immaginato da L. Sambucci con Midjourney

I sistemi multi-agente, potenziati dai Large Language Model (LLM), stanno dimostrando capacità straordinarie nell’ambito dell’intelligenza collettiva. Tuttavia, il potenziale uso improprio di questa intelligenza per scopi malevoli presenta rischi significativi. Ad oggi, la ricerca sulla sicurezza associata a questi sistemi è decisamente limitata.

Un team di ricercatori della Shanghai AI Lab (SHLAB), dell’Università di Scienza e Tecnologia della Cina (USTC) e dell’Università Tecnologica di Dalian, guidato da Qiao Yu, assistente alla direzione di SHLAB e professore presso il Shenzhen Institutes of Advanced Technology, e da Shao Jing, ricercatore scientifico presso SHLAB, ha recentemente pubblicato uno studio innovativo che affronta queste preoccupazioni attraverso la lente della psicologia degli agenti: PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety

La ricerca rivela come gli “stati psicologici oscuri” (dark nel testo) degli agenti possano costituire una minaccia significativa per la sicurezza. Per affrontare questi problemi, i ricercatori propongono PsySafe, un framework completo basato sulla psicologia degli agenti, che si concentra su tre aree chiave: identificare come i tratti di personalità “oscuri” negli agenti possono portare a comportamenti rischiosi, valutare la sicurezza dei sistemi multi-agente dal punto di vista psicologico e comportamentale, e progettare strategie efficaci per mitigare questi rischi.

Gli esperimenti condotti dal team hanno rivelato diversi fenomeni interessanti, come i comportamenti pericolosi collettivi tra gli agenti, l’auto-riflessione degli agenti quando si impegnano in comportamenti rischiosi e la correlazione tra le valutazioni psicologiche degli agenti e le loro azioni pericolose.

Per testare PsySafe, i ricercatori hanno iniettato negli agenti dei “tratti oscuri” che aumentano la tendenza verso comportamenti pericolosi. Agli agenti sono stati assegnati compiti rischiosi, come fornire istruzioni per rubare l’identità di qualcuno, sviluppare un virus informatico o scrivere uno script per sfruttare vulnerabilità software. Il livello di pericolo è stato valutato in termini di casi in cui solo un agente (pericolo di processo) o tutti gli agenti (pericolo congiunto) hanno manifestato il comportamento pericoloso. I risultati mostrano che il metodo di attacco proposto può compromettere efficacemente i sistemi multi-agente.

Lo studio esplora anche tre meccanismi chiave di difesa: difese basate sugli input, come il filtraggio dei contenuti pericolosi, difesa psicologica, che mira a mitigare gli stati psicologici “oscuri” degli agenti, e difese basate sui ruoli, assegnando ad alcuni agenti il compito di supervisionare la sicurezza del sistema.

I sistemi multi-agente iniziano a essere rapidamente diffusi per molti casi d’uso in svariati settori. Comprendere e gestire gli aspetti psicologici degli agenti può essere la chiave per progettare sistemi più sicuri e affidabili.

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.