L’intelligenza artificiale è di destra o di sinistra?

LLM politici fig. 1

Nell’era digitale, l’intelligenza artificiale non è solo una mera espressione di codice, ma un riflesso delle nostre società, delle nostre credenze e, talvolta, dei nostri pregiudizi. Quando un modello di linguaggio AI risponde a una domanda, non sta semplicemente elaborando dati, ma sta rivelando una trama intricata di inclinazioni e pregiudizi, tessuta nel suo nucleo formativo.

Questi pregiudizi, chiamati bias, sono sottili ma potenti, possono influenzare le decisioni, modellare le opinioni e, in alcuni casi, amplificare divisioni già esistenti. Ma come si formano questi bias? E quali sono le loro reali implicazioni nel mondo reale?

Un team di ricercatori universitari americani e cinesi ha messo alla prova numerosi modelli di linguaggio basati sull’intelligenza artificiale, incluso il famoso GPT-4, esplorando le loro inclinazioni politiche. Gli studiosi hanno scoperto che, interrogati su temi sensibili, i modelli di AI conversazionale rispondono in modo chiaramente conservatore o progressista.

Le implicazioni sono preoccupanti: questi modelli iniziano a essere integrati sempre più spesso all’interno di aspetti cruciali delle nostre vite, dai sistemi di assistenza sanitaria agli algoritmi decisionali che aiuteranno nei procedimenti giudiziari. Per non parlare poi della potenziale influenza sulla formazione educativa o, più in generale, sull’agire politico e sociale di chi li usa e vi si affida.

I pregiudizi nascono dall’addestramento

I modelli linguistici di grandi dimensioni (LLM, Large Language Model) vengono prima pre-addestrati su enormi corpora di dati provenienti da notizie, libri, enciclopedie, discussioni online e altre fonti. Questi dati contengono inevitabilmente opinioni e prospettive polarizzanti su questioni sociali e politiche che riflettono i pregiudizi della società.

Dopodiché alcuni di essi (è il caso di ChatGPT, Bard, Claude) sono sottoposti a ulteriori passaggi di addestramento, incluso il RLHF, Reinforcement Learning from Human Feedback, dove lavoratori umani appositamente assunti decidono di volta in volta quale sia la risposta “migliore” a una domanda. Anche qui, naturalmente, le opinioni e i pregiudizi delle persone che partecipano all’addestramento avranno un peso nella scelta, che andrà a impattare su quali risposte l’AI fornirà ai suoi utilizzatori.

La ricerca

Lo studio (premiato il mese scorso come “best paper” all’ACL2023, un importante congresso scientifico nel settore) ha analizzato sistematicamente le risposte di 14 diversi modelli linguistici AI a domande su temi politicamente sensibili. Gli autori hanno sviluppato un quadro concettuale basato sulla letteratura politologica e sul political compass test per misurare il pregiudizio politico intrinseco di tali modelli AI rispetto a due assi: valori sociali (da liberali a conservatori) e valori economici (da sinistra a destra). Si tratta di quel test che, di norma sotto elezioni, appare su diversi siti, e che dopo aver chiesto se siete favorevoli o contrari a una serie di domande illustra la vostra posizione politica in un quadrante a bidimensionale.

I ricercatori volevano anzitutto comprendere in che modo i dati di addestramento influenzassero le “opinioni” dei modelli AI. Addestrando parti di modelli come BERT e RoBERTa su corpora di notizie e social media di diversa polarità politica, gli autori hanno dimostrato che i modelli acquisiscono effettivamente pregiudizi in linea con i dati di addestramento. Ad esempio il modello AI RoBERTa, quando spostato forzatamente a sinistra attraverso specifici contenuti di Reddit, è diventato significativamente più liberale nei suoi valori sociali.

L’AI al test della bussola politica

Gli autori hanno utilizzato le 62 domande del political compass test per testare direttamente le opinioni dei modelli su questioni politiche e sociali.

Per fare questo, hanno chiesto ai modelli (che comprendono anche sistemi come GPT-4, ChatGPT e LLaMA) di rispondere a 62 affermazioni politiche su argomenti come aborto, tasse, ambiente, diritti gay, razza e altro, mappando poi le risposte su una scala di accordo/disaccordo. Da qui hanno ottenuto le coordinate politiche di ogni modello di intelligenza artificiale.

LLM politici fig. 1
Misurazione dell’orientamento politico di diversi modelli linguistici preaddestrati. Il BERT e le sue varianti sono socialmente più conservatori rispetto alla serie GPT. Il colore dei nodi indica le diverse famiglie di modelli. Da “From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models” (Feng et al., ACL 2023)

La ricerca mostra come anche modelli della stessa famiglia, tipo GPT-2 e GPT-3, possano offrire risposte differenti alla stessa domanda, come GPT-2 che si è dimostrato tendenzialmente d’accordo con l’aumento delle tasse per i ricchi, mentre GPT-3 era in disaccordo. Risposte divergenti sono state osservate anche su temi come il ruolo delle donne nella forza lavoro, i governi democratici e la responsabilità sociale delle aziende.

In generale, fra i modelli AI si è osservata una minore divergenza su questioni di tipo economico e una maggiore differenza di giudizio su questioni sociali, probabilmente perché i testi con cui sono stati addestrati gli algoritmi – che comprendono anche discussioni online fra utenti – presentavano un maggior numero di contenuti inerenti questioni sociali (sulle quali è più facile dibattere) anziché questioni economiche (che richiedono una maggiore preparazione).

I pregiudizi dell’AI influiscono sui risultati

Ma il comportamento di un modello linguistico di intelligenza artificiale cambia a seconda della sua posizione politica? La risposta, come ci si aspettava, è affermativa.

Gli autori hanno valutato l’impatto di questi pregiudizi politici su compiti critici come il rilevamento dell’odio e della disinformazione. Sebbene le prestazioni complessive rimangano coerenti, i modelli con pregiudizi politici divergenti mostrano standard molto diversi a seconda dei gruppi presi di mira dall’odio e dalle notizie false.

Ad esempio, i modelli spostati a sinistra sono risultati migliori nel rilevare discorsi di odio verso minoranze come LGBTQ e neri, mentre i modelli spostati a destra funzionano meglio nel rilevare “hate speech” contro gruppi dominanti come uomini e bianchi. Allo stesso modo, nel rilevamento della disinformazione, i modelli di sinistra sono più severi con le notizie false provenienti da giornali conservatori, mentre quelli di destra penalizzano maggiormente le fonti progressiste.

LLM politici, Tabella 4
Prestazioni dei modelli AI sui discorsi d’odio rivolti a diversi gruppi e sulla disinformazione proveniente da diverse fonti. I risultati sono codificati a colori in modo che il giallo scuro indichi il migliore e il blu scuro il peggiore, mentre il giallo chiaro e il blu chiaro indicano il 2° e il 3° posto tra i LM con pregiudizi. HP, Guard, WaEx, BBart, WaT e NR denotano rispettivamente Huffington Post, Guardian, Washington Examiner, Breitbart, Washington Times e National Review. Da “From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models” (Feng et al., ACL 2023)

Questi risultati evidenziano come la propagazione della polarizzazione politica nei dati di addestramento dei modelli linguistici potrebbe impattare la correttezza dei compiti sociali che essi sono chiamati a svolgere.

È possibile addestrare un’AI super-partigiana?

Dopo aver dimostrato che i modelli acquisiscono pregiudizi dai dati di addestramento, gli autori hanno condotto esperimenti per vedere se è possibile spingere ulteriormente i modelli verso posizioni politiche estreme addestrandoli su corpora sempre più di parte. In particolare, i ricercatori hanno pre-addestrato il modello AI RoBERTa su versioni più estese di contenuti fortemente politicizzati e per un numero superiore di iterazioni (epoch), per verificare se questo lo avrebbe reso super-partigiano.

I risultati di questo “lavaggio del cervello” hanno visto il modello AI, originariamente posizionato al centro sulle questioni economiche e tendenzialmente conservatore sulle questioni sociali, restare più o meno sulle stesse posizioni centriste in materia economica, subendo però un marcato spostamento (soprattutto a sinistra) sulle questioni sociali.

Questo suggerisce che se da una parte non è banale creare modelli linguistici iper-polarizzati semplicemente aumentando la quantità di dati e l’intensità dell’addestramento, è comunque possibile spostare le tendenze politiche di un sistema AI esponendolo a contenuti di una sola parte politica durante l’addestramento.

Что делать?

A questo punto, cosa si può fare? I modelli AI saranno sempre più pervasivi e influenti. Un singolo modello – pensiamo a ChatGPT – da solo può servire milioni di persone, dispensando consigli di lettura, suggerendo decisioni su questioni etiche e morali, fornendo – apertamente o anche in maniera meno evidente – opinioni economiche e sociali, argomentandole con convinzione e, soprattutto, persuasione. In poche parole, i modelli AI che conquisteranno le maggiori quote di mercato potrebbero brandire un’influenza tale da fare invidia ai politici di lungo corso.

Un modo per mitigare la partigianeria, trovato dai ricercatori, è quello di orchestrare un “ensemble”, un insieme di modelli AI che lavorano insieme. Questa combinazione porta a risposte più equilibrate, diminuendo la polarizzazione ma – ovviamente – aumentando i costi sia dell’architettura informatica che li deve far funzionare, sia del consumo di risorse.

Ma al di là di complessi interventi ad hoc, gli autori concludono che tutti i modelli linguistici AI contengono al loro interno pregiudizi sociali, porosi come sono ai bias presenti nel linguaggio umano. L’unico suggerimento che possono dare alla comunità di ricerca è quello di riconoscere e affrontare attivamente questi deficit. Nel farlo ammettono anche i limiti del loro studio, non solo potenzialmente viziato dai pregiudizi di cui gli stessi autori soffrono e che potrebbero essersi insinuati nelle pieghe della ricerca, ma anche l’impossibilità di accedere ai modelli AI proprietari più avanzati per confermare alcuni risultati dei loro test.

Nell’affrontare questi problemi è fondamentale che la comunità scientifica e tecnologica adotti un approccio proattivo e consapevole. L’attenzione alla formazione dei modelli AI non deve essere vista come un mero esercizio tecnico, ma come una responsabilità etica e sociale di chi se ne occupa. È essenziale che, durante la fase di addestramento, si ponga un’enfasi particolare sulla diversità e rappresentatività dei dati, evitando di cadere nella trappola di perpetuare pregiudizi esistenti.

Ma poiché non sarà mai possibile ripulire tutti i dataset per mantenerli perfettamente bilanciati, per non parlare di pregiudizi che ancora non sono riconosciuti come tali ma che potrebbero esserlo in futuro, è importante che gli utenti siano informati sulle potenziali inclinazioni dei modelli AI e sulle loro limitazioni. La trasparenza e la corretta informazione sono strumenti chiave per garantire che l’intelligenza artificiale sia utilizzata in modo responsabile e per il bene di tutti.

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.