Affrontare il ritardo legale in Brasile con nuovi set di dati
Nuovi set di dati mirano a migliorare l'elaborazione dei testi legali e ridurre gli arretrati nei casi in Brasile.
― 6 leggere min
Indice
Il sistema legale brasiliano sta affrontando una sfida significativa con un alto numero di casi in corso. Molti processi ci mettono molto tempo a risolversi e questo arretrato è una preoccupazione per il Consiglio Nazionale di Giustizia del Brasile. Per risolvere questo problema, il Consiglio ha fornito linee guida per la digitalizzazione dei documenti legali, aprendo la strada all'uso di tecniche automatizzate per gestire attività di routine nel diritto. L'Intelligenza Artificiale (AI) può aiutare a processare e analizzare rapidamente i Testi legali, ma c'è una carenza di dataset disponibili per addestrare queste tecnologie. In particolare, manca una quantità di testi legali etichettati che siano stati rivisti da esperti.
Per affrontare questo problema, sono stati creati nuovi dataset nel campo legale. Questi dataset sono progettati per assistere in compiti in cui comprendere la somiglianza tra documenti legali è fondamentale. L'accento è posto su quattro dataset derivati da testi legali, di cui due sono non etichettati e gli altri due etichettati usando un metodo specifico. Inoltre, è stato creato un dataset più piccolo con annotazioni di esperti per fornire un benchmark per valutare il processo di etichettatura.
Il panorama legale in Brasile
Nel 2020, il Brasile aveva circa 75.3 milioni di casi legali in corso. L'enorme volume di casi nasce da una combinazione di fattori, tra cui una mancanza di forza lavoro sufficiente e un ampio quadro giuridico che comprende oltre 34.000 leggi. Inoltre, la grande popolazione brasiliana, di circa 213 milioni di persone, significa che molte persone possono interagire con il sistema legale.
Nonostante il numero schiacciante di casi, c'è stata una tendenza positiva nella produttività della giustizia brasiliana. Questo aumento è legato agli sforzi della giustizia per ridurre il numero di casi in corso. Tuttavia, al ritmo attuale, potrebbero volerci decenni per smaltire l'arretrato esistente.
Una delle iniziative per alleviare questo pesante fardello prevede la digitalizzazione dei processi legali. Questa transizione non solo consente una migliore gestione e analisi dei dati, ma permette anche l'automazione di alcune attività ripetitive che coinvolgono una grande quantità di documenti. Le tecniche di intelligenza artificiale vengono sempre più adottate per assistere in questi compiti, inclusa la catalogazione di documenti legali e la determinazione della somiglianza tra testi.
Somiglianza testuale legale
Trovare somiglianze tra processi legali è cruciale. Casi precedenti possono fornire un riferimento per nuovi casi, il che è utile sia per i litiganti che per i giudici. Concentrandosi sui componenti testuali dei documenti legali, il processo diventa più efficiente. Comprendere la somiglianza semantica tra i testi aiuta a recuperare rapidamente casi passati rilevanti.
Anche se automatizzare compiti come trovare documenti simili può ridurre significativamente l'arretrato di casi, è importante avere dataset che facilitino l'addestramento dei modelli AI. Questi dataset richiedono spesso un'annotazione accurata per indicare quanto siano simili o differenti. Tuttavia, creare questi dataset annotati può essere complesso e richiede conoscenze esperte.
Panoramica dei nuovi dataset
L'articolo presenta quattro dataset focalizzati sulla Somiglianza Testuale Semantica nel dominio legale, specificamente in portoghese. I primi due dataset sono dati grezzi provenienti dalla Corte Federale dei Conti e dal Supremo Tribunale di Giustizia. Questi dataset contengono informazioni vitali ma mancano delle etichette che indicano quanto siano simili i documenti. Il secondo paio di dataset è stato annotato usando un approccio sistematico progettato per valutare la somiglianza delle coppie di testi.
Per valutare la qualità delle etichette generate da questo metodo, è stato creato un dataset di verità di base più piccolo, popolato da annotazioni di esperti. Questo confronto consente un'analisi più profonda di quanto sia efficace il processo di etichettatura e quanto bene si allinei con le opinioni degli esperti.
I dataset spiegati
I dataset iniziali includono voti e sentenze dalla Corte Federale dei Conti e dal Supremo Tribunale di Giustizia. Queste decisioni rappresentano gli esiti di casi trattati da importanti organi giuridici in Brasile. I dataset grezzi sono stati creati raccogliendo testi dai loro siti ufficiali e rimuovendo eventuali record duplicati o irrilevanti.
I dataset consistono in vari attributi come temi dei casi, processi e report. Un'analisi di questi attributi rivela informazioni sui precedenti legali.
Il secondo set di dataset, creato specificamente per il compito di somiglianza testuale semantica, segue un approccio sistematico di etichettatura. Il processo inizia formando coppie di documenti basati sulle loro somiglianze e assegnando punteggi che riflettono quella somiglianza. Vengono definite diverse categorie di somiglianza: i documenti provenienti dalla stessa giurisprudenza sono etichettati con punteggi alti, mentre quelli provenienti da ambiti legali differenti ricevono punteggi più bassi.
Sfide nell'annotazione dei testi legali
Annotare testi legali per la somiglianza semantica presenta alcune sfide. È fondamentale avere esperti della materia che comprendano il vocabolario specializzato e il contesto dei documenti legali. Queste annotazioni richiedono considerazione e competenza, il che può rappresentare un importante ostacolo alla creazione di dataset etichettati.
Per migliorare la situazione, l'approccio euristico proposto riduce la dipendenza dagli annotatori umani. Automatizzando parti del processo di annotazione utilizzando metadati dai testi legali, la creazione di dataset etichettati può essere accelerata.
Valutazione delle etichette e metodo euristico
Per valutare l'efficacia del metodo euristico, sono stati incaricati annotatori esperti di etichettare coppie di documenti per vedere come le loro valutazioni si confrontano con i punteggi generati dall'euristico. È stato utilizzato un questionario strutturato, permettendo agli annotatori di esprimere la loro fiducia nelle assegnazioni e di identificare le parti di testo che ritenevano più rilevanti per determinare la somiglianza.
I risultati hanno rivelato la complessità dell'etichettatura nel dominio. Anche tra esperti, c'erano significative variazioni nel modo in cui valutavano la somiglianza dei documenti. Questo mette in evidenza le sfide del compito di somiglianza testuale semantica nei contesti legali.
Nel confronto tra le etichette degli esperti e quelle euristiche, i risultati hanno indicato una correlazione moderata. Questo suggerisce che il metodo euristico è uno strumento prezioso per generare dataset etichettati, anche se potrebbe non replicare perfettamente le sottigliezze catturate dagli annotatori umani.
Conclusione e direzioni future
Lo sviluppo di questi nuovi dataset rappresenta un passo significativo per affrontare l'urgenza di testi legali annotati in Brasile. Fornendo un approccio sistematico per generare etichette di somiglianza, questo lavoro consente un addestramento più efficiente dei modelli AI nel campo legale.
Nonostante le sfide identificate nel processo di etichettatura, i risultati suggeriscono che il metodo euristico può servire come una base affidabile per future ricerche. I prossimi passi prevedono l'uso di questi dataset per testare e affinare i metodi AI per il recupero e l'elaborazione di documenti legali.
I dataset generati sono ora disponibili per i ricercatori interessati al campo legale, offrendo un'opportunità per adattare e sviluppare nuove tecniche AI per la somiglianza testuale semantica nei testi legali. Migliorando le risorse disponibili per la ricerca nel dominio legale, questi sforzi contribuiscono a ridurre l'arretrato nella giustizia brasiliana e migliorare l'accesso alla giustizia.
Titolo: Datasets for Portuguese Legal Semantic Textual Similarity: Comparing weak supervision and an annotation process approaches
Estratto: The Brazilian judiciary has a large workload, resulting in a long time to finish legal proceedings. Brazilian National Council of Justice has established in Resolution 469/2022 formal guidance for document and process digitalization opening up the possibility of using automatic techniques to help with everyday tasks in the legal field, particularly in a large number of texts yielded on the routine of law procedures. Notably, Artificial Intelligence (AI) techniques allow for processing and extracting useful information from textual data, potentially speeding up the process. However, datasets from the legal domain required by several AI techniques are scarce and difficult to obtain as they need labels from experts. To address this challenge, this article contributes with four datasets from the legal domain, two with documents and metadata but unlabeled, and another two labeled with a heuristic aiming at its use in textual semantic similarity tasks. Also, to evaluate the effectiveness of the proposed heuristic label process, this article presents a small ground truth dataset generated from domain expert annotations. The analysis of ground truth labels highlights that semantic analysis of domain text can be challenging even for domain experts. Also, the comparison between ground truth and heuristic labels shows that heuristic labels are useful.
Autori: Daniel da Silva Junior, Paulo Roberto dos S. Corval, Aline Paes, Daniel de Oliveira
Ultimo aggiornamento: 2023-05-29 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.00007
Fonte PDF: https://arxiv.org/pdf/2306.00007
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://orcid.org/0000-0001-9932-6980
- https://orcid.org/0000-0001-9210-1375
- https://orcid.org/0000-0002-9089-7303
- https://orcid.org/0000-0001-9346-7651
- https://tinyurl.com/bdhbj244
- https://tinyurl.com/ytzrhc4t
- https://tinyurl.com/mr33fss7
- https://tinyurl.com/25ep43s8
- https://tinyurl.com/2v76r4d4
- https://osf.io/k2qpx/
- https://www.google.com/forms/about/
- https://osf.io/mct8s/
- https://github.com/danieljunior/jidm
- https://mirrors.ctan.org/macros/latex/contrib/natbib/natnotes.pdf
- https://www.ctan.org/pkg/booktabs