Avanço de Modelos de IA Legal Multilíngues
Novo conjunto de dados melhora a compreensão de textos legais em várias línguas.
― 6 min ler
Índice
Nos últimos anos, os grandes modelos de linguagem (LLMs) melhoraram muito. Eles se saem bem em vários testes e até conseguem lidar com tarefas complexas, como exames jurídicos. No entanto, esses modelos são treinados principalmente com dados em inglês, o que limita sua capacidade de trabalhar em outras línguas, especialmente no campo jurídico, onde uma linguagem específica é essencial.
O Desafio da Disponibilidade de Dados
A maioria dos conjuntos de dados públicos usados para treinar LLMs está em inglês. Isso dificulta o treinamento de modelos para outras línguas ou áreas especializadas, como o direito. Por exemplo, um conjunto de dados chamado mC4 tem muito texto, mas apenas uma pequena fração é conteúdo jurídico. Essa falta de textos jurídicos em várias línguas representa uma grande lacuna nos recursos de treinamento.
Textos jurídicos são geralmente produzidos por agências governamentais e podem ser de domínio público. Isso significa que há uma chance de reunir uma coleção rica de linguagem jurídica de diferentes países. Fazendo isso, poderíamos criar um recurso melhor para treinar LLMs que entendam a linguagem jurídica em diversos sistemas.
Criando o MultiLegalPile
Para lidar com essa questão, criamos uma grande coleção aberta de textos jurídicos de muitos sistemas e línguas. Essa coleção, chamada MultiLegalPile, foi pensada para ser útil no treinamento de modelos de linguagem que consigam entender documentos jurídicos.
Em vez de depender dos conjuntos de dados existentes que têm limitações, coletamos textos jurídicos de várias fontes e os processamos. Isso significa que garantimos que os dados estivessem formatados corretamente e acessíveis para uso no treinamento de modelos.
Recursos Multilíngues
O MultiLegalPile contém textos jurídicos em 24 línguas diferentes. Essa diversidade nos permite treinar modelos que não só são bons em processar textos jurídicos em inglês, mas também conseguem lidar com a linguagem jurídica em outras línguas.
O processo de curadoria desse conjunto de dados exigiu muito esforço para garantir a qualidade e a disponibilidade dos textos. Reunimos dados de documentos legais públicos, legislações estaduais, organizações internacionais e mais. Ao garantir que as fontes fossem apropriadas e frequentemente licenciadas de forma aberta, criamos um recurso que pode ser usado com segurança para pesquisa e desenvolvimento.
Treinando Novos Modelos
Após coletar os textos jurídicos, treinamos novos modelos de linguagem usando o conjunto de dados do MultiLegalPile. Usamos modelos existentes como base e os melhoramos com os textos jurídicos que coletamos. Essa abordagem nos permite aproveitar as fortalezas de modelos bem estabelecidos enquanto os tornamos mais adequados para tarefas jurídicas.
Introduzimos dois tipos de modelos: modelos multilíngues que podem lidar com várias línguas e Modelos Monolíngues focados em línguas específicas. Assim, conseguimos oferecer aos pesquisadores e desenvolvedores ferramentas que atendem a diferentes necessidades, dependendo da língua que estão usando.
Avaliação de Desempenho
Uma vez treinados, testamos esses novos modelos em vários benchmarks jurídicos. Esses benchmarks são feitos para medir o quão bem os modelos conseguem realizar tarefas jurídicas específicas, como classificar textos ou extrair informações de documentos legais.
Nossos modelos multilíngues estabeleceram um novo padrão de desempenho em tarefas jurídicas. Nos testes, os modelos mostraram que conseguiam entender a linguagem jurídica melhor do que os modelos anteriores. Eles não só se saíram bem em pontuações agregadas, mas também se destacaram em tarefas específicas em várias línguas além do inglês.
Comparação com Modelos Existentes
Nossos modelos foram comparados com modelos anteriores para ver como se saíram. Os resultados mostraram que muitos dos nossos novos modelos tiveram desempenho melhor, especialmente em línguas que geralmente têm menos dados disponíveis. Isso é significativo porque línguas com poucos recursos costumam ter dificuldade em ter dados de treinamento suficientes, dificultando a criação de modelos eficazes.
Também percebemos que modelos monolíngues, que foram especificamente treinados em línguas individuais, tiveram um desempenho muito bom. Em alguns casos, eles até superaram os modelos de ponta anteriores, destacando a vantagem de um treinamento mais direcionado.
A Importância da Ciência Aberta
No espírito da ciência aberta, disponibilizamos gratuitamente o conjunto de dados do MultiLegalPile e os modelos treinados. Essa decisão faz parte de um objetivo mais amplo de fomentar a pesquisa e melhorias no campo do processamento de texto jurídico.
Ao fornecer esses recursos, queremos incentivar outros pesquisadores e desenvolvedores a construir sobre nosso trabalho. A esperança é que isso possa levar a inovações em como a linguagem jurídica é entendida e processada por máquinas.
Direções Futuras
Embora tenhamos avançado na criação de modelos jurídicos multilíngues, ainda há muito a ser feito. Planejamos expandir nosso conjunto de dados para incluir ainda mais línguas e sistemas jurídicos. Existem muitos textos jurídicos em países que atualmente estão sub-representados, e aproveitar esses textos poderia levar a melhorias significativas em nossos modelos.
Além disso, estamos interessados em investigar como os princípios que usamos para treinar esses modelos podem se aplicar a modelos generativos maiores. Modelos generativos criam texto em vez de apenas analisá-lo, e entender como nossas descobertas se traduzem para esses modelos poderia ser benéfico.
Considerações Éticas
O objetivo do nosso trabalho não é apenas criar modelos, mas também contribuir para práticas éticas no uso da tecnologia em contextos jurídicos. Melhorando o acesso à informação jurídica, conseguimos ajudar tanto profissionais do direito quanto o público em geral a entender melhor os assuntos legais.
No entanto, reconhecemos a necessidade de um uso responsável dessas tecnologias. À medida que os modelos de linguagem se tornam mais integrados aos processos jurídicos, é crucial abordar limitações e desafios potenciais. Nosso compromisso é garantir que nossos recursos sejam usados de forma ética e que contribuamos positivamente para a sociedade.
Conclusão
Os avanços na criação de um corpus de texto jurídico multilíngue e no treinamento de modelos específicos para tarefas jurídicas representam um passo significativo no campo do processamento de linguagem natural dentro do domínio jurídico. Os novos modelos construídos com o conjunto de dados do MultiLegalPile demonstraram maior eficácia na compreensão jurídica em várias línguas, abrindo caminho para um processamento de texto jurídico melhorado.
À medida que olhamos para o futuro, expandir o conjunto de dados, continuar a melhorar as capacidades dos modelos e promover padrões Éticos guiará nossos esforços. Acreditamos que, ao fazer isso, podemos tornar o conhecimento jurídico mais acessível e útil para todos, melhorando, em última análise, a eficiência e a equidade dos sistemas jurídicos ao redor do mundo.
Título: MultiLegalPile: A 689GB Multilingual Legal Corpus
Resumo: Large, high-quality datasets are crucial for training Large Language Models (LLMs). However, so far, there are few datasets available for specialized critical domains such as law and the available ones are often only for the English language. We curate and release MultiLegalPile, a 689GB corpus in 24 languages from 17 jurisdictions. The MultiLegalPile corpus, which includes diverse legal data sources with varying licenses, allows for pretraining NLP models under fair use, with more permissive licenses for the Eurlex Resources and Legal mC4 subsets. We pretrain two RoBERTa models and one Longformer multilingually, and 24 monolingual models on each of the language-specific subsets and evaluate them on LEXTREME. Additionally, we evaluate the English and multilingual models on LexGLUE. Our multilingual models set a new SotA on LEXTREME and our English models on LexGLUE. We release the dataset, the trained models, and all of the code under the most open possible licenses.
Autores: Joel Niklaus, Veton Matoshi, Matthias Stürmer, Ilias Chalkidis, Daniel E. Ho
Última atualização: 2024-05-19 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.02069
Fonte PDF: https://arxiv.org/pdf/2306.02069
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.theverge.com/2022/11/8/23446821/microsoft-openai-github-copilot-class-action-lawsuit-ai-copyright-violation-training-data
- https://colab.research.google.com/drive/1nvFqn3eK8cFKVXVkbbA4AAS283p5Fl2V#scrollTo=UskrqkrOgNdl
- https://github.com/JoelNiklaus/MultilingualLegalLMPretraining/
- https://github.com/JoelNiklaus/lextreme/
- https://huggingface.co/datasets/joelito/Multi_Legal_Pile
- https://huggingface.co/datasets/joelito/Multi
- https://github.com/togethercomputer/RedPajama-Data
- https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3aePczz3zlbJW-Y4/edit#gid=741531996
- https://echanges.dila.gouv.fr/OPENDATA/CASS
- https://cran.r-project.org/web/packages/eurlex/vignettes/eurlexpkg.html
- https://huggingface.co/datasets/joelito/eurlex
- https://huggingface.co/datasets/joelito/legal-mc4
- https://huggingface.co/datasets/pile-of-law/pile-of-law
- https://eur-lex.europa.eu/content/legal-notice/legal-notice.html
- https://huggingface.co/datasets/mc4
- https://huggingface.co/joelito
- https://commoncrawl.org/
- https://commoncrawl.org/2016/10/news-dataset-available
- https://elrc-share.eu/repository/browse/marcell-bulgarian-legislative-subcorpus-v2/946267fe8d8711eb9c1a00155d026706d2c9267e5cdf4d75b5f02168f01906c6/
- https://lindat.mff.cuni.cz/repository/xmlui/handle/11372/LRT-3052
- https://huggingface.co/DDSC
- https://de.openlegaldata.io/
- https://entscheidsuche.ch/
- https://www.lexfind.ch/fe/de/search
- https://zenodo.org/record/6355465
- https://juportal.be/home/welkom
- https://echanges.dila.gouv.fr/OPENDATA/CASS/
- https://justice.public.lu/fr.html
- https://www.lexfind.ch/fe/fr/search
- https://www.ejustice.just.fgov.be/cgi/welcome.pl
- https://elrc-share.eu/repository/browse/marcell-hungarian-legislative-subcorpus-v2/a87295ec8d6511eb9c1a00155d0267065f7e56dc7db34ce5aaae0b48a329daaa/
- https://www.lexfind.ch/fe/it/search
- https://elrc-share.eu/repository/browse/marcell-polish-legislative-subcorpus-v2/dd14fa1c8d6811eb9c1a00155d026706c4718ddc9c6e4a92a88923816ca8b219/
- https://github.com/diego-feijo/rulingbr
- https://www.kaggle.com/datasets/eliasjacob/brcad5
- https://esaj.tjsp.jus.br/cjsg/consultaCompleta.do?f=1
- https://elrc-share.eu/repository/browse/marcell-romanian-legislative-subcorpus-v2/2da548428b9d11eb9c1a00155d026706ce94a6b59ffc4b0e9fb5cd9cebe6889e/
- https://elrc-share.eu/repository/browse/marcell-slovak-legislative-subcorpus-v2/6bdee1d68c8311eb9c1a00155d0267063398d3f1a3af40e1b728468dcbd6efdd/
- https://elrc-share.eu/repository/browse/marcell-slovenian-legislative-subcorpus-v2/e2a779868d4611eb9c1a00155d026706983c845a30d741b78e051faf91828b0d/
- https://www.aclweb.org/portal/content/acl-code-ethics
- https://aclrollingreview.org/responsibleNLPresearch/
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://de.openlegaldata.io
- https://entscheidsuche.ch
- https://elrc-share.eu/repository/browse/marcell-hungarian-legislative-subcorpus-v2/a87295ec8d6511eb9c1a00155d0267065f7e56dc7db34ce5aaae0b48a329daaa
- https://elrc-share.eu/repository/browse/marcell-polish-legislative-subcorpus-v2/dd14fa1c8d6811eb9c1a00155d026706c4718ddc9c6e4a92a88923816ca8b219
- https://elrc-share.eu/repository/browse/marcell-romanian-legislative-subcorpus-v2/2da548428b9d11eb9c1a00155d026706ce94a6b59ffc4b0e9fb5cd9cebe6889e
- https://elrc-share.eu/repository/browse/marcell-slovak-legislative-subcorpus-v2/6bdee1d68c8311eb9c1a00155d0267063398d3f1a3af40e1b728468dcbd6efdd
- https://elrc-share.eu/repository/browse/marcell-slovenian-legislative-subcorpus-v2/e2a779868d4611eb9c1a00155d026706983c845a30d741b78e051faf91828b0d
- https://colab.research.google.com/drive/1QBPW_vG_ZH_gCyZHoVH_ywAIvFRwRyOG#scrollTo=oG855THJTA1n