Aproveitando Jornais Históricos para Modelos de QA Modernos
O dataset ChroniclingAmericaQA melhora a resposta a perguntas usando textos de jornais históricos.
― 8 min ler
Índice
- A Importância dos Jornais Históricos
- Criação do Conjunto de Dados
- Coleta de Dados
- Preparação dos Dados
- Geração de Perguntas
- Análise e Recursos do Conjunto de Dados
- Estatísticas dos Dados
- Desempenho dos Modelos
- Desempenho de Modelos de Linguagem Grande
- Avaliação Humana
- Casos de Uso
- Considerações Éticas
- Conclusão
- Fonte original
- Ligações de referência
A resposta a perguntas (QA) e a compreensão de leitura por máquina (MRC) viraram áreas importantes na tecnologia, especialmente com o avanço dos modelos de computador. Esses modelos conseguem ler textos e responder perguntas com base neles. Nos últimos anos, muitos conjuntos de dados grandes foram criados pra ajudar a treinar esses modelos. Mas, a maioria desses conjuntos vem de fontes modernas como Wikipedia ou artigos online. Existem coleções históricas ricas, como jornais antigos, que têm informações úteis, mas não são muito usadas pra treinar esses modelos.
Pra preencher essa lacuna, um novo conjunto de dados chamado ChroniclingAmericaQA foi criado. Esse conjunto contém 485.000 pares de perguntas e respostas retirados de uma coleção de jornais americanos históricos. Esses jornais foram publicados ao longo de 120 anos, que é um período bem mais longo comparado a outros conjuntos de dados disponíveis. Um dos principais desafios ao trabalhar com jornais antigos é que o texto gerado pelo Reconhecimento Óptico de Caracteres (OCR) às vezes pode ser de qualidade bem ruim. Pra garantir que os modelos sejam testados de forma eficaz, o conjunto permite que perguntas sejam respondidas com base em três tipos de conteúdo: texto bruto que tá poluído, texto corrigido que foi melhorado em qualidade, e imagens digitalizadas dos jornais.
A Importância dos Jornais Históricos
Os jornais históricos oferecem uma visão valiosa do passado. Eles registram eventos, culturas e atitudes sociais de diferentes períodos. Isso os torna um recurso único pra entender a história. Mas, usar eles pra tarefas de QA pode ser complicado. A linguagem desses jornais antigos é muitas vezes diferente da linguagem de hoje. Isso levanta questões sobre se os modelos modernos, treinados com textos atuais, conseguem entender e processar esses documentos históricos.
Além disso, muitos desses jornais antigos estão disponíveis apenas em formato digitalizado, e a qualidade do texto OCR pode variar bastante. Isso aumenta a complexidade, já que textos inconsistentes podem levar a desafios na extração precisa de informações. Criando um conjunto de dados personalizado, existe uma oportunidade de melhorar a pesquisa em QA permitindo que modelos sejam testados contra esses textos únicos e desafiadores.
Criação do Conjunto de Dados
Coleta de Dados
O primeiro passo pra construir o conjunto de dados ChroniclingAmericaQA foi coletar as páginas dos jornais. A fonte pra esse conjunto foi uma coleção de domínio público de jornais americanos históricos chamada Chronicling America. Essa coleção contém mais de 21 milhões de páginas de jornais publicados entre 1756 e 1963.
Dada a extensa gama de conteúdo, seria impraticável coletar e processar manualmente todas as páginas de jornais disponíveis. Em vez disso, foi usado um processo de seleção. Um total de 100 páginas de jornais foi escolhido aleatoriamente de cada década entre 1800 e 1920 em todos os 53 estados dos Estados Unidos. Isso resultou em uma coleção de mais de 39.000 páginas, proporcionando uma representação diversa do contexto histórico.
Preparação dos Dados
Depois que as páginas dos jornais foram coletadas, o próximo passo foi preparar os dados pra Geração de Perguntas. O texto original do OCR frequentemente continha erros e imprecisões. Se deixado sem correção, esse texto poluído não geraria respostas precisas ou exatas.
Pra melhorar a qualidade do texto OCR, avanços recentes na tecnologia foram empregados. Modelos de Linguagem Grande (LLMs) foram utilizados pra corrigir automaticamente erros de ortografia e gramática no texto. Especificamente, o modelo GPT 3.5 Turbo foi usado pra isso. O texto bruto foi dividido em parágrafos menores, tornando mais fácil de gerenciar e processar. O modelo GPT conseguiu corrigir uma parte significativa do texto, resultando em uma versão mais limpa e confiável pra geração de perguntas.
Geração de Perguntas
O passo final na criação do conjunto de dados envolveu gerar perguntas a partir dos parágrafos revisados. Pra isso, foi usado um modelo conhecido como T5-base. Esse modelo foi projetado especificamente pra gerar perguntas e foi ajustado com base em um conjunto de dados bem conhecido chamado SQuAD.
O modelo gerou perguntas com base em entidades nomeadas encontradas no texto. Através desse processo, mais de 2,9 milhões de perguntas foram produzidas. Porém, muitas dessas perguntas tinham problemas, como serem muito vagas ou revelarem as respostas. Pra refinar o conjunto de dados, um processo de filtragem em múltiplas etapas foi aplicado. Isso incluiu remover perguntas que não terminavam com um ponto de interrogação, eliminar duplicatas e garantir clareza e especificidade nas perguntas geradas.
Análise e Recursos do Conjunto de Dados
Estatísticas dos Dados
Depois de processar e filtrar, o conjunto de dados ChroniclingAmericaQA consistia em 485.000 pares de perguntas e respostas de alta qualidade. Os dados foram divididos em conjuntos de treino, desenvolvimento e teste, com uma grande parte alocada para o treino. Essa configuração é essencial pra treinar modelos de forma eficaz e permite uma avaliação abrangente.
O conjunto de dados também apresenta uma ampla gama de tipos de entidades nomeadas, como pessoas, lugares e organizações, tornando-o versátil pra diferentes tarefas de QA. Além disso, os tipos de perguntas no conjunto são diversos, incluindo aquelas que pedem informações específicas ou insights culturais mais amplos.
Desempenho dos Modelos
Pra avaliar a eficácia do conjunto de dados ChroniclingAmericaQA, vários modelos avançados foram testados. Esses incluíram BERT, RoBERTa e T5, que são baseados em uma arquitetura de transformador. O desempenho desses modelos foi avaliado usando medidas de qualidade como correspondência exata (EM) e pontuação F1.
Os resultados mostraram que modelos treinados especificamente no conjunto de dados ChroniclingAmericaQA performaram significativamente melhor do que aqueles treinados em outros conjuntos. Isso destaca a importância de ajustar modelos com dados específicos de domínio pra melhorar seu desempenho.
Desempenho de Modelos de Linguagem Grande
Além dos modelos de transformador, o conjunto de dados também foi avaliado usando Modelos de Linguagem Grande (LLMs), como LLaMA2 e Mistral. Como esses modelos costumam produzir respostas mais longas, métricas tradicionais de avaliação, como EM e pontuações F1, podem não capturar totalmente seu desempenho.
Em vez disso, métricas alternativas como Recall de Token e Contenção de String de Resposta foram introduzidas. Essas métricas oferecem uma melhor compreensão de como os LLMs conseguem gerar respostas com base no contexto fornecido. Os resultados indicaram que LLaMA2, sendo um modelo maior, alcançou desempenho significativamente melhor em comparação a modelos menores.
Avaliação Humana
Pra avaliar ainda mais a qualidade do conjunto de dados ChroniclingAmericaQA, foi realizada uma avaliação manual. Uma seleção de pares de perguntas e respostas foi revisada por estudantes de pós-graduação que as classificaram com base em critérios como legibilidade, relevância e clareza. O feedback dessa avaliação indicou que o conjunto de dados é de alta qualidade, com a maioria das perguntas sendo claras e diretamente relacionadas ao conteúdo.
Casos de Uso
O conjunto de dados ChroniclingAmericaQA oferece várias aplicações potenciais. Primeiro, ele serve como um novo padrão pra treinar e avaliar modelos de QA em textos históricos. Isso pode melhorar a forma como os modelos lidam com as complexidades associadas a documentos antigos, incluindo variações de linguagem e imprecisões do OCR.
Segundo, o conjunto pode envolver o público com materiais históricos ajudando as pessoas a desenvolver habilidades de leitura crítica e artes da linguagem. Educadores também podem usá-lo pra avaliar a compreensão dos alunos sobre documentos históricos, integrando o conjunto em seu currículo.
Além disso, como o conjunto inclui imagens dos jornais originais juntamente com o texto OCR, oferece um cenário realista pra benchmarkear modelos. Várias instituições poderiam usar o conjunto pra melhorar o acesso a documentos históricos e apoiar pesquisas nessa área.
Considerações Éticas
Por fim, é crucial reconhecer as considerações éticas que cercam o conjunto de dados. Dado que ele é baseado em dados históricos, existe a chance de que algum conteúdo possa refletir preconceitos ou pontos de vista ofensivos prevalentes na época. Medidas foram tomadas pra minimizar esse risco por meio da análise cuidadosa e filtragem das perguntas geradas. No entanto, essa questão é comum em materiais históricos e merece atenção e escrutínio contínuos.
Conclusão
O conjunto de dados ChroniclingAmericaQA representa um avanço significativo no uso de jornais históricos para resposta a perguntas e compreensão de leitura por máquinas. Ao lidar com os desafios relacionados à qualidade do texto OCR e à linguagem histórica, oferece um recurso valioso pra pesquisadores e profissionais da área.
As características únicas do conjunto, incluindo sua longa duração e conteúdo diverso, proporcionam uma oportunidade pra exploração e desenvolvimento mais aprofundado de sistemas de QA. À medida que a pesquisa continuar a evoluir nessa área, o ChroniclingAmericaQA se destaca como uma base pra entender e aproveitar textos históricos para aplicações modernas.
Em resumo, esse conjunto de dados não só enriquece o campo do processamento de linguagem natural, mas também fomenta uma apreciação mais profunda do nosso patrimônio histórico. Ao facilitar a interseção entre tecnologia e história, encoraja uma compreensão mais sutil do passado, beneficiando pesquisadores e o público em geral.
Título: ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages
Resumo: Question answering (QA) and Machine Reading Comprehension (MRC) tasks have significantly advanced in recent years due to the rapid development of deep learning techniques and, more recently, large language models. At the same time, many benchmark datasets have become available for QA and MRC tasks. However, most existing large-scale benchmark datasets have been created predominantly using synchronous document collections like Wikipedia or the Web. Archival document collections, such as historical newspapers, contain valuable information from the past that is still not widely used to train large language models. To further contribute to advancing QA and MRC tasks and to overcome the limitation of previous datasets, we introduce ChroniclingAmericaQA, a large-scale temporal QA dataset with 487K question-answer pairs created based on the historical newspaper collection Chronicling America. Our dataset is constructed from a subset of the Chronicling America newspaper collection spanning 120 years. One of the significant challenges for utilizing digitized historical newspaper collections is the low quality of OCR text. Therefore, to enable realistic testing of QA models, our dataset can be used in three different ways: answering questions from raw and noisy content, answering questions from cleaner, corrected version of the content, as well as answering questions from scanned images of newspaper pages. This and the fact that ChroniclingAmericaQA spans the longest time period among available QA datasets make it quite a unique and useful resource.
Autores: Bhawna Piryani, Jamshid Mozafari, Adam Jatowt
Última atualização: 2024-05-10 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2403.17859
Fonte PDF: https://arxiv.org/pdf/2403.17859
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://chroniclingamerica.loc.gov/about/
- https://github.com/DataScienceUIBK/ChroniclingAmericaQA.git
- https://platform.openai.com/docs/models/gpt-3-5-turbo
- https://github.com/explosion/spaCy
- https://huggingface.co/bert-base-uncased
- https://huggingface.co/csarron/bert-base-uncased-squad-v1
- https://huggingface.co/FacebookAI/roberta-base
- https://huggingface.co/deepset/roberta-base-squad2
- https://huggingface.co/google-t5/t5-large
- https://huggingface.co/potsawee/t5-large-generation-squad-QuestionAnswer
- https://huggingface.co/spaces/evaluate-metric/squad