Sophos rilascia un dataset con 10 milioni di malware per addestrare i modelli AI

L’azienda di cybersecurity Sophos assieme a ReversingLabs hanno rilasciato SOREL-20M, un dataset con 20 milioni di file Windows Portable Executable fra cui 10 milioni di malware “disarmati” disponibili per il download ai fini di ricerca. I dati sono stati annotati per essere utilizzati per addestrare classificatori di machine learning.

Questo non è il primo dataset di malware rilasciato per addestrare modelli di intelligenza artificiale, ma SOREL-20M contiene annotazioni più accurate, indicando ad esempio se un file è un crypto_miner, un file_infector, un dropper ecc.

Per approfondire: Sophos-ReversingLabs (SOREL) 20 Million sample malware dataset

Mi occupo da molti anni di intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, lavorando con un'azienda leader del settore e partecipando a iniziative della Commissione Europea. Questo blog è personale e le opinioni espresse appartengono ai singoli autori.