
Era una delle caratteristiche fondamentali annunciate al suo rilascio, eppure la sua capacità di GPT-4 di essere multimodale non è mai stata esplorata approfonditamente. Cosa che – per carità – non ha intaccato minimamente il successo del modello e del servizio associato, ChatGPT.
Ora però OpenAI, con la sua ultima iterazione, ha portato la conversazione tra uomo e macchina su un piano per certi aspetti più “umano”. La recente integrazione di capacità visive e vocali in ChatGPT, per i modelli GPT-3.5 e GPT-4, non è solo un passo avanti, ma un balzo verso un futuro dove l’intelligenza artificiale non è solo un assistente, ma un compagno di dialogo capace di comprendere e interagire con il nostro mondo in modo sempre più sofisticato.
La visione computazionale, quella capacità di analizzare e interpretare dati visivi, si fonde ora con le già notevoli competenze linguistiche di ChatGPT, permettendo all’AI di “vedere” e “discutere” immagini fornite dagli utenti. Non un semplice miglioramento, bensì un ampliamento delle potenzialità applicative di questa tecnologia, che ora può assistere gli utenti in una miriade di attività quotidiane, dall’analisi e discussione di immagini, alla pianificazione dei pasti, alla risoluzione di problemi tecnici.
Se da un lato la tecnologia affascina e promette scenari futuri allettanti, dall’altro non si può ignorare l’importanza di scrutare con occhio critico e attento le implicazioni e i rischi che comporta. OpenAI ha sottolineato vari rischi potenziali legati all’uso di GPT-4V(ision), tra cui questioni di privacy, potenziali bias nell’analisi delle immagini e rischi per la sicurezza e la salute degli utenti, delineando un quadro in cui l’innovazione tecnologica deve necessariamente essere bilanciata da un’etica robusta e da pratiche responsabili.
Nel panorama audio, la sintesi vocale di ChatGPT si arricchisce di nuove voci, create in collaborazione con doppiatori professionisti, e si integra con Whisper, il sistema di riconoscimento vocale di OpenAI, per permettere conversazioni completamente verbali con l’assistente AI. Questo non solo apre la porta a nuove interazioni uomo-macchina, ma anche a nuove sfide in termini di autenticità e sicurezza delle comunicazioni vocali (vedi anche: Deepfake audio: la nuova frontiera delle truffe telefoniche).
Le applicazioni di GPT-4V sono tanto affascinanti quanto variegate, spaziando dall’analisi della calligrafia, alla creazione di codice per un sito web a partire da un semplice disegno, all’analisi di meme e immagini varie. La capacità di scrivere descrizioni di prodotti, assistere nella codifica di base per il design di un sito web e generare didascalie creative per i social media sono solo alcune delle applicazioni che potrebbero rivoluzionare diversi settori, dall’e-commerce al marketing digitale.
Tuttavia, la strada verso l’adozione su larga scala di queste tecnologie è ancora lunga e costellata di sfide, non ultima la necessità di bilanciare innovazione e rischio, assicurando che l’uso di tali strumenti sia non solo tecnologicamente avanzato, ma anche sicuro, etico e rispettoso dei diritti e della dignità degli utenti. In questo contesto, il dialogo tra sviluppatori, legislatori, esperti di etica e utenti finali sarà fondamentale per plasmare un futuro in cui l’intelligenza artificiale possa essere veramente al servizio dell’umanità.
Per approfondire: ChatGPT can now see, hear, and speak