Expandindo a Extração de Relações Multilíngues com Novos Conjuntos de Dados
Novos conjuntos de dados melhoram a extração de relações multilíngues para um desempenho melhor dos modelos.
― 12 min ler
Índice
- Novos Recursos para Extração de Relação
- Propósito Desses Conjuntos de Dados
- Desafios Existentes na Extração de Relação
- Importância de Recursos de Alta Qualidade
- Visão Geral das Contribuições
- Extração de Relação Explicada
- Limitações dos Conjuntos de Dados Existentes
- Criando os Novos Conjuntos de Dados
- Comparando os Conjuntos de Dados
- Treinando o mREBEL
- Visão Geral dos Resultados
- Análise de Erros
- Conclusão
- Limitações e Considerações Éticas
- Agradecimentos
- Fonte original
- Ligações de referência
A Extração de Relação (RE) é uma tarefa que foca em encontrar relacionamentos entre diferentes entidades dentro de um texto. Esse processo ajuda a reunir informações factuais e criar conexões entre a linguagem do dia a dia e o conhecimento estruturado. Porém, muitos modelos de RE atuais trabalham com conjuntos de dados limitados que não cobrem uma ampla gama de relacionamentos, especialmente em idiomas que não sejam o inglês.
Esse artigo discute uma solução para esse problema criando dois novos recursos para treinar e avaliar sistemas de RE Multilíngues. Esses recursos vão ajudar a ampliar o escopo da Extração de Relações, tornando-a mais eficaz em vários idiomas.
Novos Recursos para Extração de Relação
SRED FM
O primeiro recurso é o SRED FM, que é um conjunto de dados automaticamente anotado que inclui 18 idiomas e cobre 400 tipos de relacionamentos e 13 Tipos de Entidades. No total, possui mais de 40 milhões de instâncias de tripletas, que representam conexões entre entidades em uma frase.
RED FM
O segundo recurso é o RED FM, que é menor e feito por revisores humanos para sete idiomas. Esse conjunto de dados permite uma melhor avaliação dos sistemas multilíngues de RE.
Propósito Desses Conjuntos de Dados
O principal objetivo desses conjuntos de dados é abordar as lacunas existentes na RE multilíngue. Eles vão fornecer recursos que podem apoiar o treinamento de modelos mais precisos, levando a um desempenho melhor na extração de relações de textos em vários idiomas.
Desafios Existentes na Extração de Relação
Conteúdos online e offline consistem principalmente em texto de linguagem natural que contém informações factuais. Os modelos de linguagem grande atuais foram treinados em tal texto, o que lhes permite processá-lo para tarefas como perguntas e respostas e resumo. Em contrapartida, recursos estruturados como Gráficos de Conhecimento permitem raciocínio explicável e pronto para máquina baseado em seu conteúdo. Ambos os métodos são significativos em Processamento de Linguagem Natural (NLP), e tendências recentes mostram um interesse em fundir essas abordagens.
A extração de informação se concentra em sistemas que extraem informações estruturadas de texto cru. Especificamente, a RE ajuda a extrair informações relacionais entre as entidades no texto. Embora alguns sistemas capacitados tenham sido criados, encontrar recursos de alta qualidade e atuais para RE ainda é um desafio.
A maioria dos conjuntos de dados de RE existentes está desatualizada, atrás de paywalls ou contém falhas de design, focando principalmente no inglês. Embora conjuntos de dados multilíngues existam, frequentemente carecem de amostras anotadas por humanos, que são vitais para uma avaliação e desempenho confiáveis.
Importância de Recursos de Alta Qualidade
Ter acesso a conjuntos de dados anotados de alta qualidade é crucial para permitir que modelos de linguagem sejam treinados e avaliados de forma eficaz. Este artigo introduz grandes quantidades de dados anotados de RE multilíngue que visam remediar os problemas encontrados nos recursos atuais.
Visão Geral das Contribuições
Conjunto de Dados Revisado por Humanos: RED FM, nosso conjunto de dados revisado, inclui 32 tipos de relacionamentos em sete idiomas.
Conjunto de Dados Padrão Prata: SRED FM é um conjunto de dados automaticamente anotado baseado na Wikipedia e Wikidata. Cobre 400 tipos de relacionamentos, 18 idiomas e mais de 44 milhões de instâncias de tripletas. Ambos os conjuntos de dados incluem informações sobre tipo de entidade adicionadas automaticamente.
Demonstração com o mREBEL: Criamos o mREBEL, um sistema multilíngue projetado para Classificação e Extração de Relações. Esse modelo extrai tipos de entidades em vários idiomas.
Extração de Relação Explicada
Na RE, o objetivo é identificar tripletas que consistem em um sujeito, um objeto e a relação entre eles dentro de um texto. Tradicionalmente, a RE dividiu essa tarefa em duas partes: o Reconhecimento de Entidades Nomeadas (NER) identifica entidades, enquanto a Classificação de Relações determina a natureza das relações entre elas.
Erros no componente NER podem afetar a classificação subsequente das relações, deixando informações úteis sem serem exploradas. Avanços recentes visam tratar esses problemas usando várias abstrações da tarefa. Alguns modelos mudaram para ver a tarefa como preencher tabelas ou usar abordagens de sequência a sequência para fornecer mais flexibilidade.
Limitações dos Conjuntos de Dados Existentes
Anotar dados manualmente para RE é caro e demorado. Consequentemente, muitos conjuntos de dados disponíveis foram criados com supervisão distante, ou seja, podem introduzir ruído e avaliações enganosas. Além disso, conjuntos de dados notáveis costumam focar no inglês, com pouca atenção a outros idiomas.
O ACE05 é um dos primeiros conjuntos de dados de RE em três idiomas: árabe, chinês e inglês. Contudo, o foco em árabe e chinês diminuiu com o tempo, enquanto os conjuntos de dados em inglês continuaram a crescer. Um desafio significativo na RE multilíngue é a escassez de dados anotados.
Por exemplo, o conjunto de dados SMiLER foi criado usando supervisão distante com a Wikipedia e Wikidata, mas é limitado a uma tripleta por frase e carece de anotações humanas suficientes. Este artigo visa superar essas lacunas oferecendo conjuntos de dados de avaliação abrangentes que incluem anotações manuais e suporte para uma ampla gama de tipos de relacionamento.
Criando os Novos Conjuntos de Dados
O processo de desenvolvimento do RED FM e SRED FM inclui várias etapas: coleta de dados, anotação automática, verificação manual, filtragem de tripletas e tipagem de entidades. Aqui estão as etapas em detalhes.
Extração de Dados
Baseamos ambos os conjuntos de dados nas informações da Wikidata e Wikipedia. Usamos um pipeline chamado CRocoDiLe para obter uma grande coleção de tripletas em muitos idiomas. O processo de extração inclui usar hyperlinks de resumos da Wikipedia, que servem como menções de entidade, junto com os relacionamentos na Wikidata.
Nossa extração de dados cobre 18 idiomas: árabe, catalão, chinês, holandês, alemão, grego, inglês, francês, hindi, italiano, japonês, coreano, polonês, português, russo, espanhol, sueco e vietnamita. Depois de reunir os dados, filtramos para as 400 relações mais frequentes.
É importante notar que algumas relações extraídas podem não ser diretamente suportadas pelo texto da Wikipedia. Para resolver isso, aplicamos um sistema multilíngue de Inferência de Linguagem Natural (NLI) para filtrar aquelas com baixas pontuações de implicação.
Apesar dos esforços para melhorar a qualidade, conjuntos de dados anotados automaticamente ainda podem ter rótulos ruidosos. A filtragem manual é necessária para garantir anotações de alta qualidade.
Processo de Anotação Manual
Para aumentar a qualidade dos conjuntos de dados, filtramos manualmente uma parte dos dados para certos idiomas. Focamos nas páginas da Wikipedia mais comuns e em uma amostra aleatória de relações menos frequentes para equilibrar os conjuntos de dados.
Anotadores humanos são encarregados de verificar cada tripleta, utilizando o texto ao redor para determinar se a relação é precisa. Cada tripleta recebe três anotações de diferentes indivíduos para garantir confiabilidade. Mantemos aquelas rotuladas como verdadeiras por pelo menos dois anotadores.
Crítico de Tripleta
O crítico de tripleta é uma ferramenta desenvolvida para aprimorar nosso processo de anotação manual. Ele é treinado em tripletas verdadeiras e falsas com seus contextos para ajudar a prever se um determinado contexto apoia uma tripleta.
Usando esse crítico, conseguimos filtrar ainda mais falsos positivos presentes no SRED FM. Testes mostraram que o crítico pode manter seu desempenho mesmo quando aplicado a idiomas que não foi explicitamente treinado, indicando seu potencial para um uso mais amplo.
Tipagem de Entidade
Em conjuntos de dados de extração de relação, os tipos de entidades são cruciais para categorizar as entidades dentro das tripletas. Nossa abordagem começa conectando entidades na Wikipedia a synsets da BabelNet. Usamos um classificador semântico baseado em conhecimento para anotar esses synsets e obter vários milhões de entidades rotuladas.
Como as anotações automáticas podem conter erros, empregamos um classificador baseado em Transformer para melhorar a qualidade desses rótulos. Depois de treinar e validar o classificador, confirmamos ou substituímos as anotações originais, resultando em um alto número de mapeamentos de entidade precisos.
Comparando os Conjuntos de Dados
Os conjuntos de dados atuais para RE costumam perder uma gama completa de relacionamentos. O SMiLER apenas anota uma tripleta por exemplo, o que limita o entendimento dos relacionamentos presentes.
Outra questão comum em conjuntos de dados de RE é o desequilíbrio de classes, particularmente para conjuntos de dados anotados à distância. A alta frequência de certos tipos de relação pode deixar outros sub-representados, o que pode distorcer os resultados da avaliação.
Ao usar nossos novos conjuntos de dados, fornecemos uma distribuição mais uniforme de relações. Por exemplo, o SRED FM inclui múltiplas tripletas válidas para um único sujeito, garantindo uma cobertura mais ampla de relacionamentos.
Treinando o mREBEL
Também desenvolvemos o mREBEL, nosso modelo de extração de relação multilíngue. O mREBEL é baseado em uma arquitetura seq2seq e pode interpretar relações como sequências de texto. Treinamos o mREBEL com o conjunto de dados SRED FM enquanto também incorporamos a classificação de relações no processo de treinamento.
Várias versões do mREBEL foram criadas, cada uma focando em diferentes aspectos dos conjuntos de dados. Nosso objetivo é avaliar seu desempenho em comparação com modelos existentes, avaliando-o em nossos conjuntos de dados e em estabelecidos como o SMiLER.
Visão Geral dos Resultados
Para medir a eficácia do mREBEL, reportamos as pontuações Micro-F1 por idioma. Quando avaliados em comparação com o SMiLER, o mREBEL mostra melhorias significativas em relação aos modelos anteriores.
Em nosso conjunto de dados RED FM, observamos que filtrar dados através do Crítico de Tripleta foi crucial para manter o alto desempenho. Variações nas pontuações entre idiomas indicam que, embora o modelo tenha um bom desempenho geral, algumas áreas ainda poderiam ver melhorias, especialmente em relação a tipos de relação menos frequentes.
Análise de Erros
Realizamos uma análise de erro minuciosa para identificar as fontes comuns de erros durante a RE. Uma parte dos erros pode ser rastreada até discrepâncias nas previsões de tipo de entidade, onde as previsões não estavam alinhadas com as anotações.
Alguns erros ocorreram devido a incompatibilidades nas extensões de cada entidade, complicando ainda mais as avaliações dos sistemas de RE. Notamos que muitos dos problemas estavam atrelados à natureza automática de algumas anotações, deixando espaço para melhorias futuras.
Apesar desses desafios, o desempenho geral do modelo e a precisão dos tipos de relação demonstram a qualidade dos nossos processos de anotação.
Conclusão
Neste trabalho, abordamos vários desafios enfrentados pelos conjuntos de dados de extração de relação multilíngues atuais ao introduzir novos recursos: SRED FM e RED FM. Ambos os conjuntos de dados fornecem dados valiosos com ampla cobertura de relacionamentos e idiomas.
Ao empregar métodos inovadores como o Crítico de Tripleta e melhorar as anotações de tipo de entidade, abrimos caminho para o desenvolvimento de sistemas de extração de relação multilíngues. Nossos avanços nesta área acabam contribuindo para conjuntos de dados de melhor qualidade e modelos mais confiáveis para pesquisas futuras.
Limitações e Considerações Éticas
Embora tenha sido feito um progresso significativo, é importante observar algumas limitações. Ambos os conjuntos de dados são construídos com base em informações existentes de fontes como Wikipedia e Wikidata, que podem não cobrir todos os tipos de relações ou entidades de forma eficaz.
A capacidade de generalização do Crítico de Tripleta também pode ser limitada devido ao seu conjunto de dados de treinamento. Além disso, devemos reconhecer os preconceitos nas anotações humanas e a experiência linguística dos anotadores.
Em termos de ética, incentivamos o uso responsável dos conjuntos de dados e sugerimos que os pesquisadores validem seus métodos de forma abrangente. Levamos os preconceitos a sério e buscamos criar recursos que promovam justiça e precisão nas tarefas de extração de relação.
Agradecimentos
Agradecemos o esforço dos anotadores e colaboradores que ajudaram a tornar essa pesquisa possível. O trabalho deles foi essencial para garantir a qualidade e a confiabilidade dos conjuntos de dados que apresentamos.
Nossa pesquisa foi apoiada por vários projetos focados em avançar tecnologias no campo da extração de relação. A colaboração entre várias instituições destacou a importância dos esforços coletivos na realização de avanços significativos no processamento de dados multilíngues.
Esses novos conjuntos de dados e modelos contribuem positivamente para a pesquisa em extração de relação, fornecendo uma base para futuros avanços na área. A exploração e o refinamento contínuos dessas metodologias vão melhorar ainda mais as capacidades dos sistemas de extração de relação multilíngues.
Título: RED$^{\rm FM}$: a Filtered and Multilingual Relation Extraction Dataset
Resumo: Relation Extraction (RE) is a task that identifies relationships between entities in a text, enabling the acquisition of relational facts and bridging the gap between natural language and structured knowledge. However, current RE models often rely on small datasets with low coverage of relation types, particularly when working with languages other than English. In this paper, we address the above issue and provide two new resources that enable the training and evaluation of multilingual RE systems. First, we present SRED$^{\rm FM}$, an automatically annotated dataset covering 18 languages, 400 relation types, 13 entity types, totaling more than 40 million triplet instances. Second, we propose RED$^{\rm FM}$, a smaller, human-revised dataset for seven languages that allows for the evaluation of multilingual RE systems. To demonstrate the utility of these novel datasets, we experiment with the first end-to-end multilingual RE model, mREBEL, that extracts triplets, including entity types, in multiple languages. We release our resources and model checkpoints at https://www.github.com/babelscape/rebel
Autores: Pere-Lluís Huguet Cabot, Simone Tedeschi, Axel-Cyrille Ngonga Ngomo, Roberto Navigli
Última atualização: 2023-06-19 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.09802
Fonte PDF: https://arxiv.org/pdf/2306.09802
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://ctan.org/pkg/pifont
- https://www.github.com/babelscape/rebel
- https://catalog.ldc.upenn.edu/LDC2006T06
- https://huggingface.co/joeddav/xlm-roberta-large-xnli
- https://doi.org/10.48550/arxiv.2110.07178
- https://doi.org/10.48550/arxiv.2111.09543
- https://github.com/Babelscape/crocodile
- https://pypi.org/project/wikimapper/