Sophos rilascia un dataset con 10 milioni di malware per addestrare i modelli AI

L’azienda di cybersecurity Sophos assieme a ReversingLabs hanno rilasciato SOREL-20M, un dataset con 20 milioni di file Windows Portable Executable fra cui 10 milioni di malware “disarmati” disponibili per il download ai fini di ricerca. I dati sono stati annotati per essere utilizzati per addestrare classificatori di machine learning.

Questo non è il primo dataset di malware rilasciato per addestrare modelli di intelligenza artificiale, ma SOREL-20M contiene annotazioni più accurate, indicando ad esempio se un file è un crypto_miner, un file_infector, un dropper ecc.

Per approfondire: Sophos-ReversingLabs (SOREL) 20 Million sample malware dataset

Mi sono appassionato all'intelligenza artificiale da quando ho potuto vedere all'opera i primi sistemi esperti negli anni '80. Già dal 1989 mi occupavo di cybersecurity (analizzando i primi virus informatici) ma non ho mai smesso di seguire gli sviluppi dell'AI. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.