Perché molti modelli di deep learning – con ottimi risultati di laboratorio – quando vengono messi alla prova dei fatti falliscono? Cosa c’è di sbagliato nei training e nei test che rende i modelli così poco robusti e versatili?
Un piccolo esercito di ricercatori di Google ha pubblicato un vasto studio dove si cerca di dare risposta a queste domande. E la risposta si trova già nel titolo: Underspecification Presents Challenges for Credibility in Modern Machine Learning.
Per i ricercatori di Google sono i modelli sottospecificati – non ottimizzati a dovere – a presentare maggiori problemi quando messi in produzione nel mondo reale.
Nello studio si elencano diversi esempi dove modelli, dalla computer vision al NLP, sul campo non hanno dato i risultati sperati. La raccomandazione principale dei ricercatori è testare i modelli all’interno del contesto di utilizzo anziché fidarsi di loro a occhi chiusi.
La ricerca si trova su arXiv: Underspecification Presents Challenges for Credibility in Modern Machine Learning