Sophos rilascia un dataset con 10 milioni di malware per addestrare i modelli AI

L’azienda di cybersecurity Sophos assieme a ReversingLabs hanno rilasciato SOREL-20M, un dataset con 20 milioni di file Windows Portable Executable fra cui 10 milioni di malware “disarmati” disponibili per il download ai fini di ricerca. I dati sono stati annotati per essere utilizzati per addestrare classificatori di machine learning.

Questo non è il primo dataset di malware rilasciato per addestrare modelli di intelligenza artificiale, ma SOREL-20M contiene annotazioni più accurate, indicando ad esempio se un file è un crypto_miner, un file_infector, un dropper ecc.

Per approfondire: Sophos-ReversingLabs (SOREL) 20 Million sample malware dataset

Sono partner e fondatore di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti l'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI), della Association for Computing Machinery (ACM) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.