Simple Science

Ciência de ponta explicada de forma simples

# Informática# Bibliotecas digitais

Organizando Artigos de Notícias Históricos de Forma Eficiente

Um sistema pra categorizar artigos históricos usando papéis e aspectos.

― 12 min ler


Organização Eficiente deOrganização Eficiente deArtigos Históricosjornais históricos de forma eficaz.Um sistema pra organizar coleções de
Índice

Bibliotecas digitais geralmente dão acesso a jornais antigos usando buscas por palavras-chave. Quando a galera pesquisa história, aprender sobre figuras históricas e seus papéis pode ser bem importante. Agrupar e organizar Artigos de Notícias pode ajudar os usuários a encontrar essas informações mais fácil. Mas várias dificuldades reais, como falta de dados de treinamento, restrições legais e erros em textos de reconhecimento óptico de caracteres (OCR), tornam criar um sistema assim difícil e caro. Esse trabalho mostra como enfrentar esses desafios desenvolvendo uma interface baseada em papéis que organiza artigos de notícias sobre pessoas históricas. Avaliações e feedback de especialistas mostraram que nosso protótipo é eficaz e apropriado para coleções digitais de bibliotecas do mundo real.

Usuários e Suas Necessidades

A galera que usa bibliotecas digitais com artigos de notícias históricas tem várias maneiras de interagir com a informação. Pode planejar tarefas, procurar fatos ou trabalhar com itens específicos.

Na pesquisa histórica, figuras históricas e seus papéis são pontos de interesse significativos. Tem uma necessidade reconhecida por ferramentas que possam apoiar o trabalho dos historiadores atendendo suas necessidades específicas. Uma tarefa vital para os pesquisadores é criar coleções menores de artigos que ajudem a responder suas perguntas de pesquisa. Mas achar essas coleções menores pode ser complicado por dois motivos principais.

Primeiro, a enorme quantidade de artigos de notícias pode ser esmagadora. Segundo, encontrar as palavras-chave certas para buscar pode ser complicado.

Avanços em Processamento de Linguagem Natural (NLP) levaram a novas maneiras de os usuários acessarem conteúdo histórico de notícias. Muitos projetos de bibliotecas digitais se concentraram nisso no passado. Porém, muitos desses sistemas dependem de trabalho manual ou exigem exemplos de treinamento especializados para cada passo.

Em contraste, esse trabalho evita trabalho manual e a necessidade de dados de treinamento especializados usando informações da Wikipedia que fornecem detalhes estruturados junto com exemplos de texto. Este artigo apresenta um novo sistema que organiza automaticamente artigos de notícias históricas com base em pessoas e oferece uma interface amigável para facilitar a exploração do conteúdo da biblioteca.

A ideia principal é que cada pessoa tem vários papéis (tipo, escritor, político, soldado) e cada papel tem diferentes aspectos (tipo, vida inicial, carreira política, ações). Idealmente, o sistema criará automaticamente coleções menores para cada papel e aspecto para ajudar os pesquisadores a estudar figuras históricas. Mas métodos tradicionais no campo de NLP geralmente dependem de dados de treinamento feitos à mão, que não estão disponíveis para nosso caso.

Este projeto aborda os desafios de uma biblioteca digital real, especificamente a Biblioteca Nacional da Holanda. Aqui, não existem dados de treinamento feitos à mão ou benchmarks. Além disso, existem várias restrições do mundo real:

  1. Os dados estão em holandês, enquanto muitas ferramentas estão disponíveis apenas em inglês.
  2. Os artigos de notícias vêm de jornais digitalizados via OCR, levando a problemas comuns de OCR, como letras erradas e frases quebradas.
  3. A licença da biblioteca proíbe compartilhar dados com ferramentas de terceiros.

Além desses desafios, existe uma coleção menos estudada de artigos de notícias holandeses que não estão em inglês. Este trabalho pretende criar um sistema prático que supere as limitações típicas de bibliotecas digitais.

Metas e Contribuições

Este projeto visa apoiar usuários no planejamento de suas pesquisas organizando artigos de notícias de acordo com figuras históricas e seus papéis. Nosso protótipo trabalha com dados reais da Biblioteca Nacional da Holanda e se baseia em dados de treinamento gerados automaticamente da Wikipedia. O resultado esperado é ajudar os usuários a formular perguntas de pesquisa sobre figuras históricas.

Para responder à pergunta de pesquisa de como uma biblioteca digital pode criar caminhos de acesso eficazes para explorar sua coleção, este trabalho faz várias contribuições:

  1. Descrevemos como superar desafios do mundo real enfrentados por bibliotecas digitais.
  2. Apresentamos um método eficaz para organizar automaticamente artigos de notícias usando informações estruturais da Wikipedia.
  3. Avaliamos nosso protótipo passo a passo e por meio de entrevistas com especialistas da área.

Trabalhos Relacionados

Os trabalhos relacionados a essa pesquisa podem ser colocados em três categorias principais: sistemas de arquivo de notícias de bibliotecas digitais, processamento de texto em holandês usando modelos de linguagem e métodos de sumarização de texto.

Sistemas de Biblioteca Digital sobre Artigos de Notícias

A pesquisa sobre estruturação e exploração de artigos de notícias é extensa. Os tópicos incluem sumarização, evolução de termos, detecção de notícias falsas e agrupamento. Alguns sistemas agrupam artigos de notícias por similaridade usando máquinas de vetor de suporte (SVMs). Pesquisas anteriores identificaram os papéis de figuras históricas, suas relações e entidades nomeadas como pontos de acesso importantes a documentos históricos. Vários projetos reais exploraram o agrupamento de artigos de notícias similares com restrições reais.

Um exemplo é a plataforma Delpher desenvolvida pela Biblioteca Nacional da Holanda. O Delpher digitaliza artigos de notícias e fornece uma interface para navegar em coleções históricas. Eles também pretendem organizar parte de sua coleção de jornais de maneira diferente da interface de busca padrão. Nosso trabalho visa organizar automaticamente os artigos de notícias da biblioteca, atendendo suas restrições.

Modelos de Linguagem Holandeses

Muitos modelos de linguagem foram treinados e testados em dados em inglês. Algumas exceções existem para modelos que foram treinados em configurações multilíngues, ou especificamente para o holandês. Modelos como BERTje e RobBERT são exemplos que superam versões multilíngues em várias tarefas. Para a Classificação de texto neste projeto, usamos o modelo RobBERT-2022.

Sumarização de Texto

A sumarização de texto envolve criar Resumos concisos de textos mais longos. Muitos modelos de linguagem geral de sequência para sequência podem ser ajustados para tarefas de sumarização. No entanto, muitos modelos de sumarização são limitados a textos mais curtos, geralmente com menos de 512 tokens. Modelos mais novos podem lidar com entradas maiores, mas a maioria é treinada em inglês. Neste projeto, nosso objetivo é resumir vários artigos em um único resumo, então o foco está em tarefas de sumarização de múltiplos documentos.

Abordagem e Coleta de Dados

O projeto atual busca aprimorar a forma como os artigos de notícias são estruturados para apoiar a pesquisa sobre pessoas individuais. Cada artigo de notícia contém elementos como título, texto, data de publicação e jornal publicador. Consideramos que cada pessoa pode ter múltiplos papéis (por exemplo, político, escritor) que possuem vários aspectos (por exemplo, carreira política, romances, prêmios).

Restrições da Biblioteca

Enfrentamos várias restrições em nosso trabalho:

  1. Os artigos vêm de jornais digitalizados via OCR.
  2. Os textos estão em holandês.
  3. Havia restrições contra compartilhar dados com terceiros.
  4. Fomos obrigados a vincular ao sistema Delpher e só podíamos exibir trechos dos artigos reais (máximo de 160 caracteres).
  5. Não havia dados de treinamento organizados para nossas tarefas.

Devido a essas restrições, não conseguimos usar serviços de tradução automática ou assistentes de IA. A falta de dados de treinamento dificultou o uso de abordagens simples como treinar modelos para classificação de texto. Coletar, rotular e treinar teria sido caro. Assim, optamos por uma solução diferente:

Usando a Wikipedia em holandês, coletamos textos descrevendo diferentes pessoas, seus papéis e seus aspectos. A Wikipedia organiza o texto em seções e fornece caixas de informações ricas que dão informações estruturadas sobre os papéis de cada pessoa. Usamos esses recursos para entender melhor os papéis e aprender a descrever vários aspectos.

Interface do Sistema

Ao construir a interface do sistema, buscamos atender às necessidades dos usuários por serendipidade em ambientes digitais. Isso significa criar interfaces com várias informações, exibindo relacionamentos entre objetos de informação e fornecendo recomendações inesperadas.

O objetivo era determinar os papéis de uma pessoa e classificar se o conteúdo de um artigo se relaciona a um desses papéis. Usamos sumarização para cada aspecto para ajudar os usuários a reunir informações rapidamente. Os usuários podem selecionar diferentes pessoas e seus papéis conhecidos, e então examinar diferentes aspectos desses papéis. Cada aspecto tem um resumo e uma lista de artigos relevantes a esse aspecto.

Processamento de Artigos de Notícias

Utilizamos um subconjunto de dados da biblioteca que inclui artigos do século XVII até o presente. Coletamos artigos relacionados a nove figuras notáveis da era da Segunda Guerra Mundial. Filtramos artigos com base em critérios específicos para garantir que fornecessem informações suficientes e foram publicados durante a vida dos indivíduos.

O processo de filtragem envolveu várias etapas:

  1. Apenas artigos com uma certa porcentagem de palavras holandesas reconhecíveis foram mantidos.
  2. Excluímos artigos de certas fontes com base em sua posição política.
  3. Os artigos precisavam ser publicados durante a vida da pessoa, deviam ter mais de 100 palavras e deveriam mencionar seu nome várias vezes.

Esses filtros ajudaram a reduzir a coleção para artigos que eram relevantes e informativos.

Processamento da Wikipedia

Usar a Wikipedia para derivar o papel de uma pessoa envolveu vincular informações a categorias de ocupação. Examinamos os dumps XML da Wikipedia em holandês para extrair papéis e resumos das páginas correspondentes. Esse processo resultou em uma lista de mais de 259.000 páginas de pessoas.

Para garantir que coletássemos informações suficientes sobre papéis bem descritos, filtramos páginas que não ofereciam detalhes substanciais. A intenção era criar seções onde cada seção pudesse descrever um aspecto distinto da vida de uma pessoa. Para gerenciar os títulos das seções, usamos um método para agrupar títulos semelhantes que descrevem o mesmo aspecto da vida.

Mineração e Classificação de Aspectos

Em seguida, buscamos identificar aspectos frequentes relacionados a papéis contando com que frequência esses aspectos apareciam entre todas as pessoas pertencentes a um papel específico. Estabelecemos limites para garantir que apenas aqueles aspectos com exemplos suficientes fossem considerados.

Com o papel de uma pessoa definido, desenvolvemos um classificador para determinar se um texto está relacionado a um dos aspectos do papel. Nossa intenção era criar um sistema de classificação multiclasse capaz de lidar com vários aspectos dos papéis.

Para treinar nossos classificadores, coletamos texto das seções da Wikipedia e garantimos que cada aspecto tivesse exemplos suficientes. Também incluímos exemplos negativos para treinar contra classificações incorretas. Ajustamos o modelo RobBERT-2022 para a tarefa, dividindo os dados em conjuntos de treinamento, validação e teste.

Processamento de Trechos de Artigos de Notícias

Em seguida, aplicamos os classificadores a trechos de artigos de notícias que envolviam figuras históricas. Dado que os artigos podiam discutir vários tópicos, focamos em compilar trechos que incluíam o nome da pessoa. Extraímos frases relacionadas ao indivíduo e ao contexto adjacente para criar trechos significativos.

Identificamos os papéis da pessoa através de suas páginas correspondentes na Wikipedia. Com base nesses papéis, aplicamos os classificadores a cada trecho. O objetivo era resumir esses trechos para que os usuários pudessem rapidamente entender como aspectos dos indivíduos foram discutidos nos artigos.

Devido às limitações dos modelos de sumarização disponíveis em holandês, optamos por um modelo ajustado em inglês e traduzimos entre os idiomas para criar resumos.

Avaliação do Sistema

Nós avaliamos várias componentes do protótipo, incluindo agrupamento, classificação, tradução e sumarização. Exportamos títulos de seções da Wikipedia que atendiam a critérios de frequência específicos para avaliar os processos de agrupamento e classificação.

A avaliação dos classificadores foi feita de várias maneiras, incluindo medir o desempenho em conjuntos de teste e avaliar a qualidade dos trechos classificados por meio de revisões manuais.

Os resultados indicaram que os classificadores tiveram um desempenho melhor com conjuntos de treinamento maiores. As descobertas também destacaram a variabilidade em relação ao número de trechos classificados entre diferentes figuras históricas.

O feedback dos usuários foi coletado através de entrevistas, onde os participantes compartilharam suas opiniões sobre a interface e as funcionalidades do sistema. No geral, os entrevistados expressaram opiniões positivas sobre a organização da interface, clareza e sua capacidade de fornecer informações contextuais sobre figuras históricas.

Desafios e Direções Futuras

Apesar dos sucessos do projeto, certas áreas precisam de mais melhorias. É necessário refinar a rotulagem para clusters de seções e apresentar trechos resumidos de forma mais eficaz. Resolver os problemas de correção nos resumos é crítico para manter a integridade dos recursos da biblioteca. Possíveis etapas futuras incluem adotar métodos para verificar fatos e empregar diferentes abordagens para sumarização.

Em conclusão, este projeto demonstra como uma biblioteca digital pode desenvolver um método orientado a aspectos para organizar suas coleções de notícias. Aproveitando a Wikipedia, o projeto reduz a necessidade de dados de treinamento extensivos. As avaliações confirmam a eficácia do método e seu valor prático em ajudar os usuários com suas tarefas de pesquisa. Embora avanços tenham sido feitos, ainda existe potencial para melhorar ainda mais o sistema.

Fonte original

Título: Aspect-Driven Structuring of Historical Dutch Newspaper Archives

Resumo: Digital libraries oftentimes provide access to historical newspaper archives via keyword-based search. Historical figures and their roles are particularly interesting cognitive access points in historical research. Structuring and clustering news articles would allow more sophisticated access for users to explore such information. However, real-world limitations such as the lack of training data, licensing restrictions and non-English text with OCR errors make the composition of such a system difficult and cost-intensive in practice. In this work we tackle these issues with the showcase of the National Library of the Netherlands by introducing a role-based interface that structures news articles on historical persons. In-depth, component-wise evaluations and interviews with domain experts highlighted our prototype's effectiveness and appropriateness for a real-world digital library collection.

Autores: Hermann Kroll, Christin Katharina Kreutz, Mirjam Cuper, Bill Matthias Thang, Wolf-Tilo Balke

Última atualização: 2023-07-14 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.09203

Fonte PDF: https://arxiv.org/pdf/2307.09203

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes