Dataset di annotazioni legali per addestrare l’AI a controllare i contratti

Regole AI

The Atticus Project, un’organizzazione no-profit che vuole usare l’intelligenza artificiale per ottimizzare la revisione dei contratti, ha pubblicato “Contract Understanding Atticus Dataset” (CUAD): un corpus contenente più di 13.000 annotazioni da 510 contratti commerciali.

Come sapete i dati correttamente etichettati/annotati sono necessari per realizzare molti sistemi di machine learning. Le annotazioni del CUAD sono state realizzate sotto la supervisione di avvocati esperti al fine di identificare 41 tipi di clausole legali considerate importanti nella revisione dei contatti commerciali.

Scopo del progetto è sia ridurre i costi della revisione dei contratti (la tesi del gruppo è che moltissimi contratti non beneficiano di una revisione accurata in parte a causa dei costi) sia studiare con quale efficacia i modelli NLP generalizzino verso domini specializzati, come quello giuridico.

I risultati di una ricerca sulle prestazioni dei modelli NLP addestrati sul CUAD dimostrano che – come ci si poteva aspettare – i dati sono il principale collo di bottiglia, visto che diminuire la quantità di dati di un ordine di grandezza riduce drasticamente le prestazioni dei modelli di linguaggio presi in esame.

Per approfondire: CUAD Performance Results & Github Code are now available

Il codice è disponibile su Github.

Sono partner e fondatore di SNGLR Holding AG, un gruppo svizzero specializzato in tecnologie esponenziali con sedi in Europa, USA e UAE, dove curo i programmi inerenti l'intelligenza artificiale. Dopo la laurea in Management ho conseguito una specializzazione in Business Analytics a Wharton, una certificazione Artificial Intelligence Professional da IBM e una sul machine learning da Google Cloud. Sono socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI), della Association for Computing Machinery (ACM) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Dal 2002 al 2005 ho servito il Governo Italiano come advisor del Ministro delle Comunicazioni sui temi di cyber security. Oggi partecipo ai lavori della European AI Alliance della Commissione Europea e a workshop tematici della European Defence Agency e del Joint Research Centre. Questo blog è personale.