
Tre ricercatori cinesi hanno creato un dataset di 2000 video scaricati da YouTube, di cui 1000 contenenti scene reali di violenza catturate da telecamere a circuito chiuso e i restanti 1000 contenenti scene normali, sempre da telecamere CCTV.
Questo dataset, chiamato RWF-2000 (Real-World Fighting) è ad oggi il più grande di questo tipo, superando per numero e per qualità anche i dataset finora utilizzati: Hockey Fight e Movies Fight. Con il RWF-2000 i ricercatori hanno addestrato una rete neurale con l’obiettivo di farle distinguere le scene di violenza da quelle normali (o comunque non violente).
Il fatto che il dataset contenga solo video registrati da telecamere a circuito chiuso non è casuale. Scopo dei ricercatori infatti è creare un sistema che consenta di individuare atti di violenza a partire dalle immagini riprese con le telecamere di sorveglianza, in maniera da avvertire qualcuno non appena ciò dovesse avvenire.
Nei primi test il sistema ha raggiunto un’accuratezza dell’86,75%. Se adottato pervasivamente potrebbe riconoscere e segnalare atti di violenza in maniera automatica, contribuendo ad aumentare la sicurezza di un’area. Non sorprende che la ricerca cinese sia stata finanziata dalla città di Guangzhou (Canton) e dalla provincia di Jiangsu.
La ricerca si può consultare qui: RWF-2000: An Open Large Scale Video Database for Violence Detection (PDF)