Le ricerche scientifiche sull’intelligenza artificiale più lette di questa settimana

Robot che legge

From Motor Control to Team Play in Simulated Humanoid Football
arXiv:2105.12196 [cs.AI]
PDF

In questi giorni DeepMind ha fatto parlare di sé per la partnership con la squadra di calcio del Liverpool e lo studio Game Plan: What AI can do for Football, and WhatFootball can do for AI. La ricerca di cui parlo in questo articolo è diversa, ma sempre incentrata sul gioco del calcio. Secondo i ricercatori, il comportamento intelligente nel mondo fisico presenta una struttura su più scale spaziali e temporali. Anche se i movimenti sono eseguiti a livello di tensioni muscolari istantanee o coppie articolari, devono essere selezionati per servire obiettivi definiti su scale temporali molto più lunghe, e in termini di relazioni che si estendono ben oltre il corpo stesso, coinvolgendo in ultima analisi il coordinamento con altri agenti (altri giocatori).

La recente ricerca nell’intelligenza artificiale ha mostrato la promessa di approcci basati sull’apprendimento per i rispettivi problemi di movimento complesso, pianificazione a lungo termine e coordinazione multi-agente. Tuttavia, la ricerca volta all’integrazione di tali movimenti è ancora limitata. I ricercatori hanno studiato il problema allenando squadre di avatar umanoidi simulati in un ambiente virtuale realistico. In una sequenza di fasi, i giocatori imparano prima a controllare un corpo completamente articolato per eseguire movimenti realistici, simili a quelli umani, come correre e girare; poi acquisiscono abilità calcistiche di medio livello come il dribbling e il tiro; infine, sviluppano la consapevolezza degli altri e giocano come una squadra, colmando il divario tra il controllo motorio di basso livello e un comportamento coordinato di squadra. Sono oggetto di studio l’emergere di comportamenti a diversi livelli di astrazione, così come le rappresentazioni alla base di tali comportamenti utilizzando diverse tecniche di analisi, comprese le statistiche di analisi sportive reali.

Pay Attention to MLPs
arXiv:2105.08050 [cs.LG]
PDF

I Transformer sono diventati una delle più importanti innovazioni architetturali nel deep learning e hanno permesso molte scoperte negli ultimi anni. Questa architettura era stata introdotta nel 2017 con l’ormai arcinota ricerca Attention is all you need. Ora però dei ricercatori propongono di togliere il concetto di “attenzione” tipico dei Transformer con un’architettura alternativa chiamata gMLP, basata esclusivamente su MLP (Multi-Layered Perceptrons) con gating, dimostrando che può ottenere le stesse prestazioni dei Transformer in applicazioni chiave del linguaggio e della visione artificiale. Le prove comparative eseguite dai ricercatori mostrano che l’autoattenzione non è critica per i Transformer usati per compiti di visione artificiale, poiché gMLP raggiungerebbe lo stesso livello precisione. Se confrontato con BERT (e qui parliamo di linguaggio naturale) il modello raggiunge la stessa accuratezza dei Transformer sul pre-addestramento della perplexity ed è migliore in alcuni compiti. Il nuovo modello gMLP tuttavia ha prestazioni peggiori sui compiti di finetuning, e per colmare il divario con i Transformer è necessario aumentare i parametri.

CogView: Mastering Text-to-Image Generation via Transformers
arXiv:2105.13290 [cs.CV]
PDF

Di nuovo i Transformer e, a dimostrazione che l’architettura non è valida solo per l’elaborazione del linguaggio naturale, ecco un altro esempio dove questo metodo può essere usato per la visione artificiale. In questo caso dei ricercatori cinesi propongono CogView, un Transformer con 4 miliardi di parametri e tokenizer VQ-VAE per portare avanti la ricerca sulla generazione text-to-image (parliamo di AI generativa) e in generale sui modelli multimodali. Nel paper i ricercatori dimostrano strategie di finetuning per vari compiti a valle, come ad esempio l’apprendimento dello stile, la super-risoluzione, la classificazione testo-immagine e il design, oltre che i metodi per stabilizzare il pretraining, ad esempio eliminando le perdite NaN. CogView su un noto benchmark supera anche DALL-E, di cui avevamo parlato qualche tempo fa.

Sono partner e fondatore di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti l'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI), della Association for Computing Machinery (ACM) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.