Un laptop mostra il codice markdown di una norma italiana all'interno del repository Italia Corpus su GitHub, con l'interfaccia di un sistema di controllo versioni che evidenzia i commit normativi.
Un laptop mostra il codice markdown di una norma italiana all'interno del repository Italia Corpus su GitHub, con l'interfaccia di un sistema di controllo versioni che evidenzia i commit normativi.

Un passo verso strumenti legali più affidabili, utile per un collega che segue l'evoluzione dell'IA in studio.

Un corpus aperto per l'IA legale italiana Flusso della storia e fatti chiave

Italia Corpus è un repository open source su GitHub che raccoglie l'intera legislazione italiana in formato markdown, rendendola accessibile e utilizzabile da sistemi di intelligenza artificiale specializzati nel diritto. Il progetto mira a contrastare il fenomeno delle "allucinazioni" nei modelli linguistici, un problema già emerso in diversi casi giudiziari internazionali in cui avvocati hanno presentato sentenze o citazioni inventate da chatbot come ChatGPT e Google Bard. Con oltre 250.000 atti normativi organizzati in 23 collezioni e aggiornamenti automatici ogni 24 ore, il corpus fornisce una base dati affidabile per sistemi di Retrieval-Augmented Generation (RAG) e per il fine-tuning di modelli linguistici specializzati.

Il repository permette di tracciare ogni modifica normativa come un commit Git, garantendo una cronologia trasparente e consultabile, una caratteristica cruciale per l'affidabilità in ambito legale. Sebbene il corpus compresso occupi 478 MB, una volta estratto richiede decine di gigabyte di spazio, inclusi testi abrogati e decreti storici. Questo rende il dataset particolarmente adatto per ricerca avanzata e addestramento di modelli, ma non sostituisce banche dati professionali o gestionali deterministici.

Il progetto non elimina da solo il rischio di errori dell'IA, ma offre un'alternativa trasparente ai software proprietari chiusi. In un settore dove già nel 2023 si sono registrati casi di sanzioni per atti basati su citazioni false, avere una fonte aperta e verificabile potrebbe ridurre la dipendenza da modelli a black box. Il repository rappresenta quindi una spina nel fianco per i software legali proprietari e un'opportunità per ricercatori e studi legali che vogliono costruire strumenti più controllabili.

Fatti

  • Italia Corpus è un repository pubblico su GitHub che raccoglie oltre 250.000 atti normativi italiani in formato markdown.
  • Il dataset viene aggiornato automaticamente ogni 24 ore e traccia ogni modifica come commit Git.
  • Il corpus estratto richiede decine di gigabyte di spazio, inclusi testi abrogati e decreti storici.
  • Nel 2023, avvocati statunitensi sono stati sanzionati per atti con citazioni inventate da ChatGPT nel caso Mata v. Avianca.
  • Un report del 2024 di Stanford RegLab e Stanford HAI ha rilevato allucinazioni nel 17-33% delle ricerche di strumenti legali basati su IA.
  • Italia Corpus non sostituisce banche dati professionali, ma fornisce una base aperta per strumenti di RAG e modelli specializzati.

Spiegazione visiva delle notizie di Canto. Gli strumenti AI possono assistere la produzione. Politica editoriale