Um Grande Conjunto de Dados de Similaridades de Manchetes Históricas
Esse conjunto de dados tem quase 400 milhões de pares de manchetes parecidas de jornais locais.
― 6 min ler
Índice
- A Fonte dos Dados
- O Que Faz Esse Conjunto de Dados Único
- O Tamanho do Conjunto de Dados
- Coletando e Processando os Dados
- Desafios na Criação do Conjunto de Dados
- Métodos Usados pra Associação de Manchetes
- Pra Que Esse Conjunto de Dados Pode Ser Usado
- Conjuntos de Dados Existentes Comparados
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
No mundo do processamento de linguagem, tem muitas tarefas que precisam entender quão semelhantes são diferentes pedaços de texto. Uma ferramenta importante pra isso é um conjunto de dados que reúne pares de declarações ou Manchetes que significam a mesma coisa. Embora tenha vários Conjuntos de dados disponíveis, muitos deles focam em sites modernos ou são bem pequenos.
Esse projeto criou um novo e grande conjunto de dados de manchetes semelhantes, baseado em Artigos de jornais locais dos Estados Unidos, cobrindo um longo período de 1920 a 1989. Esse conjunto de dados contém quase 400 milhões de pares de manchetes que mostram Semelhança semântica.
A Fonte dos Dados
Os jornais locais geralmente pegavam conteúdo de grandes fontes de notícias, como a Associated Press. Esses jornais escreviam suas próprias manchetes que resumiam os artigos. Ao analisar de perto como os artigos eram apresentados e usar métodos pra entender o texto, o projeto consegue ligar os artigos originais às suas manchetes.
A equipe usou tecnologia moderna pra digitalizar esses artigos históricos, garantindo que até o conteúdo mais antigo pudesse ser transformado em um formato usável pra análise. Essa abordagem única permite que o conjunto de dados se beneficie tanto da rica história dos jornais locais quanto das técnicas modernas de processamento.
O Que Faz Esse Conjunto de Dados Único
Esse conjunto de dados se destaca porque cobre um período extenso, oferecendo uma mistura de tópicos de notícias locais e históricas. Essa riqueza torna útil pra treinar modelos de linguagem que podem realizar várias tarefas linguísticas. Diferente da maioria dos conjuntos de dados, que podem pegar texto de comentários recentes online ou perguntas duplicadas de fóruns, esse conjunto está enraizado em conteúdo histórico, proporcionando uma perspectiva diferente de como a linguagem mudou ao longo do tempo.
O Tamanho do Conjunto de Dados
O conjunto de dados tem mais de 393 milhões de pares de manchetes. Esse tamanho é significativo comparado a outros conjuntos de dados semelhantes, que geralmente são bem menores. Por exemplo, conjuntos de dados populares como Microsoft COCO e Flickr 30k contêm cerca de 800 mil e 317 mil pares semânticos, respectivamente. A escala do novo conjunto de dados permite uma análise mais profunda e um treinamento mais confiável de modelos de linguagem.
Coletando e Processando os Dados
Pra criar o conjunto de dados, a equipe digitalizou cuidadosamente as capas de jornais fora de direitos autorais. Eles usaram ferramentas pra reconhecer o layout das páginas e converter o texto impresso em texto editável. Depois, conectaram as manchetes aos artigos através de uma mistura de informações de layout e entendimento da linguagem.
Por exemplo, várias partes de um artigo podem aparecer em diferentes áreas de uma página de jornal, e é crucial identificar quais partes pertencem juntas. Isso é feito usando algoritmos avançados que levam em conta como o texto está organizado na página.
Desafios na Criação do Conjunto de Dados
Uma das dificuldades na criação desse conjunto de dados foi lidar com os erros que muitas vezes vêm do Reconhecimento Óptico de Caracteres (OCR). O OCR pode cometer erros ao ler texto impresso, especialmente de jornais mais antigos onde a qualidade da impressão pode não ser ideal. O projeto precisava de um método pra trabalhar com esses erros e ainda manter associações de alta qualidade entre manchetes e artigos.
Além disso, jornais locais geralmente abreviavam artigos pra caber nas limitações de espaço, o que aumentava a complexidade de combinar corretamente as manchetes com seus respectivos artigos.
Métodos Usados pra Associação de Manchetes
Pra agilizar o processo de parear manchetes com artigos, a equipe implementou uma abordagem baseada em regras combinada com um modelo de linguagem. Eles usaram regras primeiro pra garantir alta precisão na correspondência, depois aplicaram um modelo de linguagem mais flexível pra capturar correspondências adicionais que poderiam ter sido perdidas. Esse método de associação em duas etapas aumenta a qualidade do conjunto de dados, resultando em uma coleção muito confiável de pares semânticos.
Pra Que Esse Conjunto de Dados Pode Ser Usado
O objetivo principal desse conjunto de dados é ajudar a treinar modelos de linguagem, especialmente aqueles que focam em entender a semelhança entre textos. Outras aplicações incluem estudar como a linguagem evolui ao longo do tempo e em diferentes regiões geográficas. Isso pode fornecer insights sobre mudanças sociais e variações nos estilos de comunicação.
Conjuntos de Dados Existentes Comparados
Muitos conjuntos de dados existentes focam em eventos mais recentes ou formatos, como comentários online ou perguntas em fóruns. Por exemplo, conjuntos de dados criados a partir de perguntas duplicadas em fóruns coletam pares de perguntas semelhantes, mas muitas vezes carecem da profundidade e contexto histórico que esse novo conjunto de dados oferece.
Embora existam outros conjuntos de dados que se concentram em resumos abstratos ou legendas para imagens, nenhum deles iguala a escala ou a natureza histórica desse conjunto de dados, que é especificamente desenhado em torno de manchetes dos mesmos artigos de notícias.
Direções Futuras
Olhando pra frente, há opções de expandir ainda mais o conjunto de dados. Há possibilidades de incluir imagens e legendas dos mesmos jornais históricos, o que poderia fornecer dados ainda mais valiosos pra desenvolver modelos de linguagem. No entanto, dado seu tamanho já massivo, o projeto atual decidiu pausar novas expansões por enquanto.
Conclusão
Esse extenso conjunto de dados de quase 400 milhões de pares de manchetes representa um avanço significativo na disponibilidade de dados históricos de semelhança semântica. Ele serve como um recurso rico pra pesquisadores e desenvolvedores que trabalham em processamento de linguagem natural e oferece uma janela única de como a linguagem evoluiu ao longo de grande parte do século 20. Com sua construção cuidadosa e atenção às complexidades dos textos históricos, esse conjunto de dados está pronto pra causar um impacto duradouro no estudo da linguagem e semântica.
Título: A Massive Scale Semantic Similarity Dataset of Historical English
Resumo: A diversity of tasks use language models trained on semantic similarity data. While there are a variety of datasets that capture semantic similarity, they are either constructed from modern web data or are relatively small datasets created in the past decade by human annotators. This study utilizes a novel source, newly digitized articles from off-copyright, local U.S. newspapers, to assemble a massive-scale semantic similarity dataset spanning 70 years from 1920 to 1989 and containing nearly 400M positive semantic similarity pairs. Historically, around half of articles in U.S. local newspapers came from newswires like the Associated Press. While local papers reproduced articles from the newswire, they wrote their own headlines, which form abstractive summaries of the associated articles. We associate articles and their headlines by exploiting document layouts and language understanding. We then use deep neural methods to detect which articles are from the same underlying source, in the presence of substantial noise and abridgement. The headlines of reproduced articles form positive semantic similarity pairs. The resulting publicly available HEADLINES dataset is significantly larger than most existing semantic similarity datasets and covers a much longer span of time. It will facilitate the application of contrastively trained semantic similarity models to a variety of tasks, including the study of semantic change across space and time.
Autores: Emily Silcock, Melissa Dell
Última atualização: 2023-08-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.17810
Fonte PDF: https://arxiv.org/pdf/2306.17810
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.