Un LLM specifico per analizzare i contenuti nel dark web

Robohacker, immaginato da L. Sambucci con l'aiuto di Midjourney
Robohacker, immaginato da L. Sambucci con l'aiuto di Midjourney

Il Dark Web, spesso caratterizzato dalla possibilità di restare completamente anonimi e dalle numerose attività illecite, rappresenta una sfida per i ricercatori e gli esperti di sicurezza informatica. Le particolari caratteristiche linguistiche di questo spazio contrastano con il normale web, noto anche come surface web, ponendo difficoltà agli strumenti convenzionali di elaborazione del linguaggio naturale (NLP). Ciò ha portato a una crescente necessità di nuovi metodi e strumenti in grado di analizzare in modo efficiente i contenuti del Dark Web.

Per rispondere a questa esigenza, un team di ricercatori sudcoreani ha sviluppato DarkBERT, un nuovo modello linguistico pre-addestrato sui dati del Dark Web. Il modello è stato progettato appositamente per comprendere l’estrema diversità lessicale e strutturale del linguaggio del Dark Web.

Per realizzare DarkBERT, i ricercatori hanno raccolto un grande corpus di dati del Dark Web effettuando il crawling della rete attraverso Tor. Sono stati impiegati filtraggio, deduplicazione e preelaborazione dei dati per perfezionare il corpus di addestramento, affrontando inoltre i potenziali problemi etici associati ai contenuti sensibili del Dark Web.

Le prestazioni di DarkBERT sono state valutate rispetto a due modelli linguistici pre-addestrati già ampiamente utilizzati: BERT, addestrato su dati del Surface Web, e RoBERTa. I confronti sono stati effettuati su compiti relativi all’individuazione di attività clandestine, come l’identificazione di siti contenenti dati estratti attraverso il ransomware e il rilevamento di discussioni considerate “interessanti” nei forum del Dark Web.

I risultati delle valutazioni hanno rivelato che DarkBERT ha ottenuto risultati superiori rispetto a BERT e RoBERTa. Tuttavia, va notato che le differenze di prestazioni non sono drastiche. Anche RoBERTa ha mostrato prestazioni leggermente migliori rispetto a BERT, in linea con gli studi precedenti.

Sono diversi i motivi per cui DarkBERT mostra prestazioni più efficienti nella gestione dei contenuti del Dark Web. Uno dei principali vantaggi è l’addestramento di DarkBERT sui dati del Dark Web, che gli consente di adattarsi alle caratteristiche linguistiche peculiari di questo spazio. Inoltre, la pre-elaborazione del testo per ridurre le informazioni superflue ha migliorato ulteriormente le prestazioni del modello.

L’introduzione di DarkBERT offre una risorsa potenzialmente preziosa per le future ricerche sul Dark Web e per le attivtà di threat intelligence. Tuttavia, sono necessarie ulteriori ricerche per sfruttare appieno le capacità dei modelli linguistici specifici per il Dark Web. I progetti futuri dei ricercatori prevedono l’utilizzo di architetture più recenti per migliorare le prestazioni di DarkBERT e la raccolta di ulteriori dati per costruire un modello linguistico multilingue.

Per approfondire: DarkBERT: A Language Model for the Dark Side of the Internet