Claude 3 di Anthropic: promesse e punti interrogativi

Claude Antropic

Anthropic ha lanciato la famiglia di LLM Claude 3, composta dai modelli Haiku, Sonnet e Opus in ordine crescente di capacità computazionale. L’azienda promette prestazioni ai vertici del settore su vari benchmark di intelligenza artificiale.

In particolare, il modello più performante “Opus” vanta punteggi paragonabili agli esseri umani su compiti cognitivi impegnativi come conoscenze specialistiche, ragionamento astratto e problem solving matematico. Anthropic dichiara che tale modello rappresenta oggi lo stato dell’arte dell’AI generalista. Ma oltre a cifre e promesse, cosa rappresenta realmente questa evoluzione per il settore?

Opus, il modello di punta, si distingue per il suo primato nei test di valutazione, affrontando con competenza compiti di livello universitario e mostrando capacità di comprensione e fluidità quasi umane. Mentre le affermazioni sulla “intelligenza superiore” di Opus rispetto ai concorrenti invitano all’ottimismo, è essenziale interrogarsi sulla trasparenza dei benchmark utilizzati e sulla loro rilevanza pratica nel mondo reale.

I modelli Claude 3 promettono miglioramenti significativi anche nella velocità e nella capacità di gestire le lingue diverse dall’inglese, un passo avanti rispetto ai limiti dei predecessori. Inoltre, la rivendicazione di capacità visive multimodali avanzate pone i modelli Claude 3 in competizione diretta con altri giganti del settore. Sebbene queste conquiste rappresentino un progresso, la vera misura del successo sarà la loro efficacia nell’integrazione di tali capacità in applicazioni pratiche.

Un altro aspetto chiave riguarda la riduzione dei cosiddetti “disimpegni” o rifiuti a rispondere, un problema ricorrente per gli attuali LLM, anche per via di guardrails a volte esageratamente stringenti. Infatti, per evitare rischi come jailbreak troppo facili, le aziende che sviluppano i grandi modelli linguistici sono corse ai ripari introducendo dei meccanismi che inibiscono la risposta se le richieste dell’utente appaiono dannose o anche semplicemente frivole (per fare un esempio, Claude 2 a volte si rifiutava di fare un oroscopo). Ora, secondo Anthropic, Claude 3 gestirebbe le richieste in modo più contestualizzato, rifiutando query legittime con minor frequenza.

L’avanzamento tecnologico rappresentato dai nuovi modelli Claude 3 di Anthropic è una buona notizia, viste le prestazioni ai vertici del settore sui benchmark LLM e i miglioramenti significativi in termini di accuratezza, multilingua, capacità visive e riduzione dei “disimpegni”. Ma al di là delle promesse sui numeri e delle affermazioni di superiorità rispetto ai concorrenti, è cruciale mantenere uno sguardo critico sulla reale rilevanza di questi progressi nel mondo reale.

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.