OpenAI lancia GPTBot, il nuovo web crawler per arricchire ChatGPT

Rischi alla privacy, immaginati da L. Sambucci con l'aiuto di Midjourney

OpenAI, l’azienda dietro a ChatGPT, ha recentemente presentato GPTBot, un nuovo web crawler progettato per raccogliere dati pubblicamente disponibili online da utilizzare per addestrare i propri modelli di intelligenza artificiale.

GPTBot si propone di essere più trasparente rispetto ad altri web crawler utilizzati in passato, identificandosi chiaramente in modo che i proprietari dei siti web possano consentire o negare l’accesso. Il crawler utilizza infatti il token “GPTBot” nell’user agent e una stringa completa che dichiara la sua provenienza da OpenAI.

Stando a quanto afferma OpenAI, GPTBot accederà solo a siti web che non richiedono login, non raccolgono dati personali degli utenti e non contengono testi che violano le policy. L’azienda sostiene che consentire l’accesso del bot può aiutare a migliorare l’accuratezza e le capacità dei suoi sistemi AI.

I proprietari di siti web possono bloccare completamente GPTBot aggiungendo il suo token user agent al file robots.txt, oppure consentire selettivamente l’accesso a certe directory e non ad altre. OpenAI ha pubblicato gli IP utilizzati dal crawler in modo che i siti possano identificarne il traffico.

Il lancio di GPTBot è una risposta di OpenAI alle recenti polemiche sui modelli linguistici di grandi dimensioni come GPT-4, addestrati su dati di siti web senza un’approvazione esplicita. Anche se i contenuti sono pubblicamente accessibili, la critica sostiene che dovrebbe comunque essere richiesto un opt-in per l’utilizzo AI. C’è anche preoccupazione che i contenuti, quando inseriti nei sistemi di intelligenza artificiale, siano decontestualizzati.

Naturalmente se OpenAI dovesse continuare a prendere i contenuti anche da fornitori terzi, come Common Crawl, bloccare unicamente il crawler dell’azienda non avrebbe molti benefici per i webmaster, poiché i dati verrebbero comunque indicizzati e copiati da altri, per poi essere acquisiti da OpenAI.

Per approfondire: OpenAI’s web scraping GPTBot is under attack – here’s why