Curatr: Uma Nova Ferramenta para Pesquisa em Humanidades
A Curatr ajuda pesquisadores das humanidades a simplificar o processo de análise de texto.
― 6 min ler
Índice
- A Necessidade do Curatr
- Visão Geral do Curatr
- Como Funciona o Curatr
- Importância da Transparência
- O Processo de Curadoria
- Implementação de Word Embeddings
- Construindo Léxicos Temáticos
- Curadoria de Textos
- Estudo de Caso do Curatr em Ação
- Avaliando Textos Recuperados
- Temas e Insights Emergentes
- Descobrindo Textos Menos Conhecidos
- Conclusão
- Direções Futuras
- Fonte original
- Ligações de referência
Com o crescimento das coleções digitais de literatura da história e da modernidade, os pesquisadores das humanidades agora têm acesso a uma quantidade enorme de material. No entanto, filtrar toda essa informação pode ser complicado. Este artigo fala sobre uma plataforma criada para ajudar acadêmicos a explorar e escolher textos relevantes de forma mais fácil.
A Necessidade do Curatr
Encontrar a informação certa em grandes bibliotecas digitais pode ser desafiador. Os pesquisadores frequentemente têm dificuldade em selecionar os textos mais relevantes de coleções que são grandes ou muito diversas. Isso cria a necessidade de ferramentas e sistemas que ajudem a tornar esse processo mais fácil e eficiente.
Visão Geral do Curatr
Curatr é uma plataforma online criada para ajudar pesquisadores das humanidades a curar e analisar textos literários históricos. Ela usa técnicas avançadas de machine learning para ajudar os usuários a identificar temas e textos relevantes. Integrando conhecimento especializado com tecnologia, essa plataforma tem como objetivo apoiar acadêmicos que trabalham com grandes coleções de textos.
Como Funciona o Curatr
O Curatr utiliza um processo de Mineração de Texto que combina informações de grandes coleções literárias com algoritmos de machine learning. A plataforma permite que os usuários criem léxicos temáticos, ou listas de palavras relacionadas a tópicos específicos, para focar melhor suas buscas. Isso significa que os pesquisadores podem extrair conjuntos menores de textos de coleções imensas, como as do século 18 e 19.
Importância da Transparência
Uma das principais características do Curatr é seu foco na transparência sobre como usa machine learning. Muitos pesquisadores têm receio de usar machine learning porque não entendem como funciona. O Curatr aborda isso deixando seus processos claros e incorporando conhecimento especializado na análise dos textos literários.
O Processo de Curadoria
O processo de curadoria envolve selecionar, interpretar e entender o material disponível. O Curatr apoia esse fluxo de trabalho permitindo que os usuários façam buscas conceituais. Pesquisadores podem inserir termos iniciais, ou palavras relacionadas ao seu tópico, e o sistema usa machine learning para sugerir termos relacionados. Isso ajuda a construir um léxico mais abrangente de termos associados à sua área de interesse.
Implementação de Word Embeddings
No coração da funcionalidade do Curatr está uma técnica chamada word embedding. Isso envolve representar palavras como números de uma forma que permite ao sistema entender a relação entre diferentes palavras com base em seu contexto. Usando word embedding, o Curatr pode criar listas de palavras que são semelhantes em significado e que se relacionam a temas específicos.
Construindo Léxicos Temáticos
Usando a plataforma, os pesquisadores podem começar com palavras básicas ou iniciais. O Curatr então expande esses termos sugerindo palavras semelhantes. Os usuários podem escolher quais palavras adicionais incluir, permitindo refinar suas buscas com base em sua própria experiência e conhecimento. Esse processo iterativo ajuda os acadêmicos a criar léxicos temáticos mais detalhados e robustos.
Curadoria de Textos
Uma vez que os pesquisadores têm seus léxicos, eles podem usá-los para recuperar textos relevantes do banco de dados do Curatr. Os textos são classificados com base na frequência com que os termos de seu léxico aparecem em cada documento, ajudando a puxar as peças mais relevantes de uma grande coleção. Os usuários também podem modificar suas seleções e refazer buscas para obter melhores resultados.
Estudo de Caso do Curatr em Ação
Um estudo de caso específico usando o Curatr focou em estudar as atitudes culturais em relação à migração na Grã-Bretanha do século 19 relacionadas a temas de contágio e doenças. A pesquisa examinou como os migrantes, especificamente as comunidades irlandesas e judaicas, eram representados na ficção histórica.
Usando a plataforma, os pesquisadores conseguiram gerar léxicos temáticos relacionados às suas áreas de interesse. Eles focaram em palavras como 'migração' e 'doença', consultando o sistema para descobrir textos que refletissem as atitudes e conceitos da época.
Avaliando Textos Recuperados
Avaliar quão úteis foram os textos recuperados no contexto da pesquisa em humanidades é crucial. Nesse estudo de caso, os pesquisadores procuraram documentos que não só correspondessem aos seus temas, mas que também apresentassem novas perspectivas. Eles consideraram dois tipos de relevância: se o texto correspondia aos seus termos de busca e se acrescentava informações valiosas ao seu estudo.
Temas e Insights Emergentes
O estudo revelou vários temas, incluindo a sobreposição da migração com questões políticas da época. Termos e frases desconhecidos também foram identificados, ampliando a compreensão de como as pessoas viam e discutiam esses tópicos historicamente.
A capacidade do Curatr de facilitar conexões entre conceitos aparentemente dispares destacou seu potencial para oferecer novas perspectivas sobre teorias estabelecidas.
Descobrindo Textos Menos Conhecidos
Uma descoberta significativa foi a recuperação de textos de autores menos conhecidos. Muitas das obras encontradas através do Curatr não haviam sido amplamente estudadas, sugerindo que a plataforma poderia abrir novas avenidas para pesquisa. Ao expandir os termos de busca, os pesquisadores encontraram textos que forneceram pontos de vista únicos e desafiaram crenças existentes sobre migração e saúde durante o período.
Conclusão
O Curatr serve como uma ferramenta importante para pesquisadores das humanidades, apoiando a exploração e análise de grandes coleções literárias. Seu uso inovador de machine learning e a transparência em seus processos fazem dele um recurso valioso para acadêmicos que buscam aprofundar sua compreensão de textos históricos. Ao permitir que os usuários cuidem de subporções relevantes de vastas bases de dados, o Curatr ajuda a descobrir novas percepções e apoia a evolução contínua da pesquisa em humanidades.
Direções Futuras
À medida que mais coleções se tornem disponíveis online, o Curatr tem potencial para expandir e incluir fontes adicionais. Isso poderia aumentar ainda mais sua capacidade de ajudar pesquisadores a desafiar pontos de vista tradicionais e reconhecer obras ignoradas ou subestimadas na literatura. O desenvolvimento contínuo de ferramentas como o Curatr desempenhará um papel vital na formação do futuro da investigação acadêmica na era digital.
Título: Curatr: A Platform for Semantic Analysis and Curation of Historical Literary Texts
Resumo: The increasing availability of digital collections of historical and contemporary literature presents a wealth of possibilities for new research in the humanities. The scale and diversity of such collections however, presents particular challenges in identifying and extracting relevant content. This paper presents Curatr, an online platform for the exploration and curation of literature with machine learning-supported semantic search, designed within the context of digital humanities scholarship. The platform provides a text mining workflow that combines neural word embeddings with expert domain knowledge to enable the generation of thematic lexicons, allowing researches to curate relevant sub-corpora from a large corpus of 18th and 19th century digitised texts.
Autores: Susan Leavy, Gerardine Meaney, Karen Wade, Derek Greene
Última atualização: 2023-06-13 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.08020
Fonte PDF: https://arxiv.org/pdf/2306.08020
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.