Gli abstract dei paper sull’AI più letti, commentati e discussi degli ultimi giorni.
GANs N’ Roses: Stable, Controllable, Diverse Image to Image Translation (works for videos too!)
arXiv:2106.06561 [cs.CV]
PDF
In questo studio i ricercatori mostrano come imparare una mappa che prende un codice di contenuto, derivato dall’immagine di un viso, e uno stile scelto a caso da un’immagine anime. Da ciò si deriva una perdita avversaria partendo dalle semplici ed efficaci definizioni di stile e contenuto. Tale perdita avversaria garantisce che la mappa sia varia, visto che una gamma molto ampia di anime può essere prodotta da un singolo volto. È plausibile ipotizzare che la mappa non solo sia diversificata, ma che rappresenti anche correttamente la probabilità di un anime, condizionato da una faccia in ingresso. Da notare che le attuali procedure di generazione multimodale non catturano gli stili complessi che appaiono negli anime. Estesi esperimenti quantitativi supportano l’idea che la mappa sia corretta (vedere l’immagine in basso), ed ampi risultati qualitativi mostrano che il metodo può generare una gamma molto più diversificata di stili rispetto ai confronti con lo stato dell’arte. Infine, i ricercatori dimostrano che la formalizzazione del contenuto e dello stile permette di eseguire la trasposizione da video a video senza mai allenare il modello sui video.
Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges
arXiv:2104.13478 [cs.LG]
PDF
L’ultimo decennio è stato testimone di una rivoluzione sperimentale nella scienza dei dati e nel machine learning, incarnata dai metodi di deep learning. Molti compiti di apprendimento ad alta densità precedentemente ritenuti irraggiungibili – come la visione artificiale, il gioco del Go o il ripiegamento delle proteine – sono oggi realizzabili con dimensioni computazionali appropriate. È interessante notare che l’essenza del deep learning è costruita a partire da due semplici principi algoritmici: in primo luogo, la nozione di rappresentazione o apprendimento delle caratteristiche, per cui le caratteristiche adattate, spesso gerarchiche, catturano la nozione appropriata di regolarità per ogni compito, e in secondo luogo, l’apprendimento tramite metodi locali del tipo gradient-descent, tipicamente implementati come backpropagation. Mentre l’apprendimento di funzioni generiche in alte dimensioni è un problema di curse of dimensionality, la maggior parte dei compiti di interesse non solo non sono generici, ma sono dotati di regolarità essenziali predefinite derivanti dalla sottostante bassa dimensionalità e struttura del mondo fisico. Questa ricerca si occupa di esporre tali regolarità attraverso principi geometrici unificati che possono essere implementati in un ampio spettro di applicazioni. Tale sforzo di “unificazione geometrica”, nello spirito del Programma di Erlangen di Felix Klein, ha un duplice scopo: da un lato, fornisce un quadro matematico comune per studiare le architetture di reti neurali di maggior successo, come le CNN, le RNN, le GNN e i Transformer. Dall’altro lato fornisce una procedura costruttiva per incorporare la conoscenza fisica precedente nelle architetture neurali e fornire un metodo di principio per costruire architetture future ancora da inventare.
Thinking Like Transformers
arXiv:2106.06981 [cs.LG]
PDF
Qual è il modello computazionale dietro un Transformer? Mentre le reti neurali ricorrenti hanno paralleli diretti nelle macchine a stati finiti, permettendo una chiara discussione e riflessione sulle varianti dell’architettura o sui modelli addestrati, i Transformer non hanno un parallelo così familiare. In questa ricerca gli autori provano a cambiare la situazione, proponendo un modello computazionale per il transformer-encoder sotto forma di un linguaggio di programmazione. Essi mappano le componenti di base di un transformer-encoder – attenzione e calcolo feed-forward – in semplici primitive, attorno alle quali hanno creato un nuovo linguaggio di programmazione: il Restricted Access Sequence Processing Language (RASP). I ricercatori mostrano poi come il RASP può essere usato per programmare soluzioni a compiti che potrebbero plausibilmente essere appresi da un Transformer, e come un Transformer può essere addestrato a imitare una soluzione RASP. In particolare, vengono forniti programmi RASP per istogrammi, ordinamento e parole di Dyck.