L’azienda di cybersecurity Sophos assieme a ReversingLabs hanno rilasciato SOREL-20M, un dataset con 20 milioni di file Windows Portable Executable fra cui 10 milioni di malware “disarmati” disponibili per il download ai fini di ricerca. I dati sono stati annotati per essere utilizzati per addestrare classificatori di machine learning.
Questo non è il primo dataset di malware rilasciato per addestrare modelli di intelligenza artificiale, ma SOREL-20M contiene annotazioni più accurate, indicando ad esempio se un file è un crypto_miner, un file_infector, un dropper ecc.
Per approfondire: Sophos-ReversingLabs (SOREL) 20 Million sample malware dataset