Conectando Insights Históricos com Notícias Modernas
Uma ferramenta ajuda a ligar eventos atuais a contextos históricos.
― 10 min ler
Índice
Cientistas sociais e o público em geral costumam olhar para eventos atuais e fazer conexões com eventos históricos. Isso pode ser complicado porque tem muito texto histórico que não é bem organizado. Por exemplo, tem bilhões de páginas de jornais antigos que foram digitalizadas e transformadas em texto. Métodos tradicionais de busca por informações, como usar palavras-chave, podem ser meio furados por causa da linguagem complicada e erros na digitalização.
Uma nova ferramenta foi criada pra ajudar com esse problema. Essa ferramenta usa modelos de linguagem grande e um método específico pra encontrar artigos históricos que sejam parecidos com notícias modernas. Primeiro, ela identifica nomes importantes e os oculta pra que o foco seja em temas mais amplos, ao invés de indivíduos ou locais específicos. Depois, um modelo especial recupera artigos históricos que se relacionam bem com uma notícia atual. Isso mostra que eventos que parecem novos hoje muitas vezes têm antecedentes históricos.
A ferramenta é feita pra cientistas sociais e é fácil de usar, tornando simples pra quem não manja muito de aprendizado profundo. Ela consegue trabalhar com grandes coleções de texto, e exemplos do uso dela podem ser encontrados em um site específico. Embora ainda seja preciso conhecimento especializado pra tirar insights mais profundos, essa ferramenta oferece uma opção forte pra olhar as conexões entre o passado e o presente.
“Aqueles que não conseguem lembrar do passado estão condenados a repeti-lo.” - George Santayana
Cientistas sociais e o público muitas vezes destacam como o presente se conecta a eventos passados. No entanto, encontrar essas conexões pode ser trabalhoso. Existem muitos textos históricos, mas eles costumam ser mal organizados e espalhados por grandes bancos de Dados. Por exemplo, centenas de milhões de páginas de jornais antigos estão acessíveis online. A maioria das pessoas usa buscas por palavras-chave pra encontrar documentos relevantes, mas como a linguagem pode ser complicada e erros acontecem durante a digitalização, esse método pode falhar.
Ferramentas baseadas em modelos de linguagem grande oferecem uma nova maneira de encontrar material histórico relevante pra ajudar a entender eventos atuais. Este estudo foca em construir uma ferramenta que ajude a identificar quais histórias de notícias históricas são mais parecidas em significado com artigos de notícias modernos. O modelo primeiro identifica e oculta nomes específicos pra que ele possa destacar temas gerais nas histórias. Depois, ele usa um modelo especial e treinado pra encontrar os artigos históricos mais relevantes.
A ferramenta permite que cientistas sociais rodem suas buscas. É de código aberto e pode trabalhar com qualquer conjunto de texto adequado. Foi feita pra ser fácil de usar pra quem pode não estar familiarizado com aprendizado profundo. Este estudo inclui código que mostra como usá-la com um grande conjunto de artigos de jornais históricos.
Os usuários podem testar a ferramenta com artigos modernos de estados selecionados usando um site de demonstração. Também tem um site dedicado onde artigos modernos são emparelhados com históricos pra uma exploração mais profunda.
A ferramenta identifica artigos com significados semelhantes. No entanto, é importante notar que eventos muito diferentes ainda podem ser descritos de maneiras parecidas na mídia histórica e moderna. Esse aspecto provavelmente será significativo para cientistas sociais, mas requer que eles tenham conhecimento histórico suficiente pra colocar essas conexões no contexto certo.
Atualmente, a ferramenta suporta o inglês, mas há planos de criar versões em outros idiomas no futuro. O resto deste estudo discute a literatura relevante, o modelo e o processo de treinamento, e como usar a ferramenta.
Literatura Relacionada
Muita pesquisa já foi feita sobre similaridade semântica. A maioria dos grandes conjuntos de dados nessa área vem de textos da web. Um exemplo é o Massive Text Embedding Benchmark (MTEB), que avalia muitas tarefas de incorporação em diversos conjuntos de dados em diferentes idiomas.
Este estudo em particular está bem relacionado a outros que treinam modelos pra conectar artigos de notícias históricas a artigos modernos semelhantes, focando em como eles são mapeados pra representações parecidas. A ferramenta se baseia em trabalhos anteriores de recuperação de domínio aberto e se apoia em muitos estudos que mostram os benefícios de treinar modelos para propósito semântico.
Os desafios que surgem ao usar grandes modelos pré-treinados, como os do BERT, também são considerados. Esses modelos muitas vezes têm dificuldade com palavras menos comuns, levando a um problema onde textos com significados semelhantes podem ficar desalinhados. Ao aplicar métodos de treinamento específicos, a ferramenta melhora a qualidade das representações de frases ou documentos.
Arquitetura do Modelo e Treinamento
A arquitetura da ferramenta foca em identificar e mascarar nomes específicos nos textos. Ela visa destacar semelhanças entre artigos que discutem assuntos diferentes em várias épocas. Artigos relevantes são selecionados com base na similaridade de significado, usando um método que recupera os artigos mais próximos do banco de dados escolhido.
O treinamento da ferramenta envolveu reunir dados de uma seleção de artigos históricos. O modelo inicial precisou ser treinado pra reconhecer e mascarar Entidades Nomeadas com precisão, mesmo com erros que podem acontecer em textos digitalizados. Um grupo trabalhou rigorosamente nesse treinamento, garantindo que todas as discrepâncias fossem resolvidas com checagens cuidadosas.
Pra construir em cima disso, um novo modelo foi treinado pra conectar artigos de notícias modernos com artigos históricos semelhantes. Isso envolveu reunir dados de diversas fontes pra garantir que pares relevantes fossem formados. Essa abordagem permitiu que o modelo conectasse de maneira eficaz artigos históricos e modernos sobre histórias similares.
O treinamento envolveu encontrar as melhores configurações pro modelo pra que ele apresentasse resultados precisos. O modelo superou modelos anteriores na capacidade de identificar termos importantes nos textos.
A ferramenta é feita pra usuários que querem explorar textos históricos sem precisar realizar tarefas de programação complexas. Há um forte foco em torná-la facilmente acessível pra qualquer um que esteja interessado.
O Pacote
A ferramenta pode ser facilmente instalada e usada. Ela vem com várias funções principais, incluindo download de dados, execução de reconhecimento de entidades nomeadas (NER), mascaramento de textos, incorporação deles e busca de artigos próximos com tópicos similares.
O pacote permite que os usuários façam download dos conjuntos de dados que querem trabalhar. Isso inclui suporte pra uma ampla gama de artigos históricos. Os usuários podem optar por baixar uma seleção de artigos de estados específicos ou pegar toda a coleção.
Uma vez que os artigos são baixados, os usuários podem rodar NER pra identificar entidades nomeadas, que podem então ser mascaradas. Os textos então são incorporados, permitindo buscas mais fáceis. Por fim, os usuários podem recuperar os artigos que são mais próximos em significado dos que eles estão interessados.
Pra quem quiser ajustar o modelo, diretrizes sobre como fazer isso são fornecidas. A ferramenta se integra a plataformas populares, tornando fácil pros usuários começarem.
Todo o pacote está disponível pro público, garantindo que usuários acadêmicos e não acadêmicos possam acessar suas funcionalidades. Tutoriais estão incluídos pra ajudar os usuários a entender como usar a ferramenta de forma eficaz.
Ao tornar essa ferramenta de busca semântica acessível, o objetivo é apoiar pesquisadores que querem entender melhor contextos históricos e como eles se relacionam com a sociedade moderna.
Declaração de Ética
A ferramenta tem como objetivo recuperar eticamente artigos que tenham linguagem semelhante. No entanto, é crucial lembrar que linguagem semelhante não indica sempre eventos ou situações parecidas. Portanto, o julgamento humano é necessário pra fazer conexões significativas entre o passado e hoje.
Uma consideração cuidadosa foi dada às implicações éticas do funcionamento da ferramenta, e ela visa guiar pesquisadores em direção ao conteúdo que os interessa enquanto incentiva o uso reflexivo das informações.
Muitas pessoas contribuíram pra pesquisa e desenvolvimento dessa ferramenta, proporcionando apoio inestimável ao longo do processo.
Instruções para Anotador NER
Durante o processo de rotulação de entidades nomeadas, regras específicas foram desenvolvidas pra garantir que os rótulos fossem aplicados de forma consistente. Essas regras ajudam a garantir o uso claro de diferentes categorias.
Extensão das Entidades: Sempre rotule a maior extensão que constitua uma entidade, exceto para locais. Por exemplo, “Martin Luther King High School” deve ser rotulado como uma única entidade.
Nomes Múltiplos: Se uma entidade tiver partes diferentes, rotule tudo junto. Por exemplo, “governo vietnamita” não deve ser rotulado apenas como “vietnamita”.
Localização e Organização: Se um título se referir tanto a uma pessoa quanto a um local, rotule dessa forma. “Topeka, Kansas” são duas localidades, não apenas uma.
Contexto Adequado: Rotule apenas o que é necessário sem incluir palavras extras, a menos que elas façam parte da entidade.
Ambiguidade: Se houver confusão sobre se algo deve ser rotulado como uma organização ou um local, siga as diretrizes padrão que favorecem rotulá-lo como um local.
Importante Contexto Histórico: Entidades nomeadas devem sempre ser consideradas em contexto, e os rótulos dados devem refletir com precisão a importância histórica dos termos usados.
Seguindo essas diretrizes, o processo de identificar e rotular entidades nomeadas pode permanecer consistente, tornando a ferramenta mais eficaz.
Exemplos de Avaliação de Pares de Artigos Históricos e Modernos
A ferramenta foi usada pra avaliar pares de artigos históricos e modernos. Essas avaliações incluem identificar quais artigos se relacionam aos mesmos tópicos com base na linguagem e nas ideias principais.
Por exemplo, um artigo moderno sobre sorvete foi pareado com um artigo histórico sobre limites de produção de sorvete durante a guerra. Ambos os artigos abordaram temas semelhantes sobre sorvete, mas em contextos diferentes.
Outro exemplo incluiu um artigo atual sobre um dia promocional de uma empresa, combinado com um artigo histórico sobre o Easter Egg Roll na Casa Branca. Os aspectos técnicos das celebrações sazonais em ambas as peças destacam a tradição e sua evolução ao longo do tempo.
Cada exemplo ilustra como artigos modernos podem se conectar com peças históricas sobre assuntos similares, revelando padrões que enriquecem nossa compreensão das tendências sociais e da continuidade histórica.
Em conclusão, essa ferramenta representa um passo significativo pra traçar conexões históricas com notícias modernas. Ao fornecer uma plataforma útil para pesquisadores e o público, ela pode fomentar discussões mais ricas sobre como a história pode informar nossa compreensão do presente.
Título: News Deja Vu: Connecting Past and Present with Semantic Search
Resumo: Social scientists and the general public often analyze contemporary events by drawing parallels with the past, a process complicated by the vast, noisy, and unstructured nature of historical texts. For example, hundreds of millions of page scans from historical newspapers have been noisily transcribed. Traditional sparse methods for searching for relevant material in these vast corpora, e.g., with keywords, can be brittle given complex vocabularies and OCR noise. This study introduces News Deja Vu, a novel semantic search tool that leverages transformer large language models and a bi-encoder approach to identify historical news articles that are most similar to modern news queries. News Deja Vu first recognizes and masks entities, in order to focus on broader parallels rather than the specific named entities being discussed. Then, a contrastively trained, lightweight bi-encoder retrieves historical articles that are most similar semantically to a modern query, illustrating how phenomena that might seem unique to the present have varied historical precedents. Aimed at social scientists, the user-friendly News Deja Vu package is designed to be accessible for those who lack extensive familiarity with deep learning. It works with large text datasets, and we show how it can be deployed to a massive scale corpus of historical, open-source news articles. While human expertise remains important for drawing deeper insights, News Deja Vu provides a powerful tool for exploring parallels in how people have perceived past and present.
Autores: Brevin Franklin, Emily Silcock, Abhishek Arora, Tom Bryan, Melissa Dell
Última atualização: 2024-12-19 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.15593
Fonte PDF: https://arxiv.org/pdf/2406.15593
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://huggingface.co/spaces/dell-research-harvard/newsdejavu
- https://huggingface.co/datasets/dell-research-harvard/americanstories_masked_embeddings
- https://www.usatoday.com/story/money/food/2024/03/13/ben-jerrys-free-cone-day-2024/72944410007/