È nato GPT-4

Robot con carrozzina

OpenAI ha annunciato il rilascio di GPT-4, un modello multimodale in grado di elaborare input testuali e immagini e di produrre output testuali. Come i modelli delle generazioni precedenti, anche GPT-4 è stato sviluppato utilizzando i transformer, modelli in grado di prevedere in un testo i token successivi (un token è un frammento di parola), con il fine-tuning effettuato utilizzando il Reinforcement Learning from Human Feedback (RLHF) prima di essere testato su vari benchmark professionali e accademici.

Uno degli obiettivi principali dello sviluppo di questi modelli è migliorare la capacità di comprendere e generare testi in linguaggio naturale all’interno di scenari complessi e ricchi di sfumature. Per testare le sue capacità, GPT-4 è stato valutato su una serie di esami originariamente pensati per gli esseri umani, tra cui un esame di abilitazione alla professione forense simulato, in cui il modello ha ottenuto un punteggio che rientra nel primo 10% dei partecipanti al test. Questo rappresenta un miglioramento significativo rispetto a GPT-3.5, che aveva ottenuto un punteggio nel 10% più basso. GPT-4 supera anche i precedenti modelli linguistici di grandi dimensioni (LLM, o modelli fondazionali) nonché la maggior parte dei sistemi allo stato dell’arte in una serie di benchmark NLP tradizionali, tra cui il MMLU (Multi-task language understanding), che copre 57 argomenti diversi in più lingue.

L'italiano è una delle lingue dove GPT-4 ha le migliori performance nel MMLU.
L’italiano è una delle lingue dove GPT-4 ha le migliori performance nel MMLU.

Una caratteristica distintiva di GPT-4 è il fatto che si tratta di un sistema multimodale. Questo significa che ha la capacità di accettare input di immagini, consentendo agli utenti di impartire qualsiasi compito di visione o di linguaggio. Tale caratteristica permette a GPT-4 di generare output testuali quando gli input sono costituiti da testo e immagini forniti assieme. Questa capacità si estende a input grafici come documenti con testo e foto, diagrammi, schermate.

Lo sviluppo di GPT-4 ha richiesto inoltre sei mesi di allineamento adversarial utilizzando le conoscenze acquisite durante i test su ChatGPT per migliorare elementi come la fattualità, governance e i limiti oltre cui il sistema non dovrebbe spingersi. Questo ha determinato un miglioramento rispetto ai modelli precedenti, anche se GPT-4 è ancora lontano dalla perfezione.

Sebbene GPT-4 abbia molti miglioramenti rispetto ai modelli precedenti, soffre ancora di diversi limiti. Ad esempio, può “allucinare” fatti (inventare di sana pianta informazioni non vere) e commettere errori di ragionamento. OpenAI afferma di aver fatto notevoli progressi nel ridurre queste allucinazioni, considerato che GPT-4 ha ottenuto un punteggio del 40% superiore a GPT-3.5 nelle valutazioni di fattualità avversaria. Tuttavia, GPT-4 può comunque presentare delle distorsioni nei suoi risultati e può esprimere con estrema sicurezza informazioni completamente sbagliate.

Tutto questo nonostante OpenAI abbia coinvolto oltre 50 esperti di vari settori per testare il modello, fornendo feedback che sono andati ad aumentare la robustezza del sistema, oltre che incorporare una speciale ricompensa nell’addestramento RLHF per ridurre gli output pericolosi.

GPT-4 è attualmente disponibile sia tramite ChatGPT Plus sia attraverso le API (con una lista d’attesa). La capacità di inserire immagini non è ancora accessibile direttamente al pubblico poiché limitata a un solo partner, la società “Be my eyes“, che produce un’app per aiutare persone non vedenti e ipovedenti. Per la release di GPT-4 OpenAI ha inoltre reso disponibile OpenAI Evals, il suo framework per la valutazione automatica delle prestazioni dei modelli di intelligenza artificiale.

Gli utenti di ChatGPT Plus possono ora scegliere di usare GPT-4

Nel complesso, GPT-4 dimostra miglioramenti significativi in termini di prestazioni e capacità rispetto ai suoi predecessori, anche se ci sono ancora limitazioni e rischi da mitigare. Nelle prossime settimane vedremo esempi concreti di utilizzo.

Annuncio dell’azienda: GPT-4
Technical report: GPT-4 Technical Report
System card: GPT-4 System Card