Sophos rilascia un dataset con 10 milioni di malware per addestrare i modelli AI

L’azienda di cybersecurity Sophos assieme a ReversingLabs hanno rilasciato SOREL-20M, un dataset con 20 milioni di file Windows Portable Executable fra cui 10 milioni di malware “disarmati” disponibili per il download ai fini di ricerca. I dati sono stati annotati per essere utilizzati per addestrare classificatori di machine learning.

Questo non è il primo dataset di malware rilasciato per addestrare modelli di intelligenza artificiale, ma SOREL-20M contiene annotazioni più accurate, indicando ad esempio se un file è un crypto_miner, un file_infector, un dropper ecc.

Per approfondire: Sophos-ReversingLabs (SOREL) 20 Million sample malware dataset

Sono Head of Artificial Intelligence di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti all'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Ho trascorso la maggior parte della carriera – trent'anni - nel settore della cybersecurity, dove fra le altre cose sono stato consigliere del Ministro delle Comunicazioni e consulente di Telespazio (gruppo Leonardo). Oggi mi occupo prevalentemente di intelligenza artificiale, con consulenze sull'AI presso aziende private e per la Commissione Europea, dove collaboro con la European Defence Agency e il Joint Research Centre. Questo blog è personale.