Esforços de Repatriação para Restos Ancestrais Indígenas
A pesquisa junta aprendizado de máquina e conhecimento de especialistas pra ajudar na repatriação.
― 7 min ler
Índice
- O Desafio de Encontrar Documentação Histórica
- A Importância do Conhecimento de Especialistas
- Bibliotecas Digitais e Recursos Online
- A Variedade de Fontes Históricas
- O Papel do Machine Learning
- Desenvolvendo um Modelo de Classificação
- A Importância das Palavras-chave
- Avaliando o Desempenho do Modelo
- O Impacto do Tamanho dos Dados de Treinamento
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
A repatriação dos restos ancestrais indígenas é um assunto super importante pra os povos das Primeiras Nações na Austrália e em outros lugares. Muitos desses restos estão guardados em instituições científicas ocidentais, e devolver pra comunidade pra reenterro é essencial. Esse processo fica complicado porque é preciso encontrar documentação do período de 1790 a 1970 que mostre como os restos foram tirados, doados, vendidos ou trocados entre instituições.
O Desafio de Encontrar Documentação Histórica
Várias organizações e pesquisadores tão juntos enfrentando esse desafio. Eles focam em usar técnicas de mineração de texto pra achar informações cruciais em vários textos. Os cientistas de dados e sociais querem criar soluções automáticas pra analisar essas informações de forma eficiente. Eles desenvolveram métodos que aplicam machine learning pra ajudar a encontrar e analisar documentos relevantes.
Uma das principais tarefas nessa empreitada é melhorar a precisão na detecção de textos relevantes. Modelos de Classificação tradicionais costumam ter dificuldade quando treinados com pequenas quantidades de documentos rotulados, que são essenciais pra ensinar o modelo o que procurar. Pra resolver isso, os pesquisadores tão explorando um novo tipo de modelo chamado Rede Neural Informada (INN). Esse modelo usa insights de especialistas no campo pra descrever o conteúdo dos documentos de forma mais precisa.
A Importância do Conhecimento de Especialistas
O modelo INN depende de alguns documentos rotulados e incorpora o conhecimento de especialistas em pesquisa de proveniência. Esses especialistas fornecem Palavras-chave que provavelmente aparecem em documentos relevantes, melhorando a capacidade do modelo em detectar as informações certas. Os resultados mostram que usar essa abordagem informada melhora bastante a identificação de documentos ligados ao comércio e manuseio de restos humanos indígenas.
Bibliotecas Digitais e Recursos Online
Nos últimos anos, várias iniciativas de bibliotecas digitais facilitaram a busca por documentos históricos. Muitos livros, jornais científicos e artigos de jornal tão disponíveis online em formatos digitais. Mas achar informações relevantes sobre o roubo e uso de restos ancestrais ainda é um desafio. Os pesquisadores precisam confiar em motores de busca, que podem dar resultados enviesados. Esses resultados podem não mostrar todos os documentos necessários por causa da forma como são indexados.
Pesquisadores que trabalham com comunidades das Primeiras Nações enfrentam o desafio de confirmar a identidade e localização dos restos ancestrais pra ajudar no reenterro adequado. Esse processo muitas vezes exige um grande esforço pra rastrear os movimentos dos restos através de diferentes colecionadores e instituições. Infelizmente, os catálogos de museus atuais oferecem dados limitados, geralmente mostrando só as localizações finais dos restos, o que pode levar a erros na identificação.
A Variedade de Fontes Históricas
Muitas fontes históricas que poderiam fornecer informações valiosas estão espalhadas por diferentes plataformas online. Isso pode incluir artigos de jornal documentando doações e vendas de museus, anúncios de leilões e relatórios sobre a venda de coleções privadas. Apesar de sua utilidade potencial, localizar e investigar essas fontes pode ser uma tarefa difícil. Projetos de bibliotecas digitais tentaram coletar e organizar esses documentos, mas navegar por essas coleções ainda é complicado pra os pesquisadores.
O Papel do Machine Learning
Machine learning oferece uma solução promissora pra automatizar a identificação de documentos relevantes. Essa abordagem é particularmente útil por causa do contexto histórico dos documentos, que pode variar em linguagem e conteúdo em comparação com textos modernos. Muitos documentos históricos são digitalizados e disponibilizados através de Reconhecimento Óptico de Caracteres (OCR), mas esse processo pode introduzir erros, dificultando a reprodução precisa do texto.
Modelos de linguagem existentes, como os usados em aplicações recentes de machine learning, costumam falhar em captar as nuances e o contexto dos documentos históricos. Além disso, esses modelos geralmente precisam de uma quantidade significativa de dados rotulados pra um treinamento eficaz, que muitas vezes não está disponível nas humanidades e ciências sociais.
Desenvolvendo um Modelo de Classificação
Pra enfrentar esses problemas, pesquisadores tão trabalhando pra projetar um modelo de aprendizado supervisionado que use a abordagem INN. Esse modelo integra o conhecimento de especialistas com machine learning pra melhorar a detecção de documentos relevantes. O conhecimento fornecido por especialistas inclui palavras-chave e o contexto em que essas palavras são prováveis de aparecer. Essa integração é crucial, pois ajuda a melhorar o desempenho do modelo enquanto minimiza a quantidade de documentos rotulados necessários pra treinamento.
A Importância das Palavras-chave
As palavras-chave escolhidas ajudam o modelo a aprender sobre os tópicos específicos relacionados aos restos indígenas. Entender como essas palavras-chave interagem dentro dos documentos fornece o contexto necessário pra identificar informações relevantes. Pesquisadores identificaram várias medidas de centralidade que ajudam a analisar essas interações, refinando ainda mais a capacidade do modelo em sinalizar quando um documento é pertinente.
Avaliando o Desempenho do Modelo
Os pesquisadores tão realizando experimentos pra avaliar a precisão e eficácia do modelo. Várias métricas são usadas pra avaliar quão bem o modelo identifica documentos relevantes. Dois conjuntos de dados tão sendo usados pra isso: um relacionado a Restos Humanos Indígenas e outro de um corpus de notícias padrão.
Através desses experimentos, o modelo INN mostrou capacidade de superar modelos de classificação tradicionais. O uso combinado de conhecimento informado por especialistas e métodos orientados a dados permite que esse modelo continue eficaz, mesmo com conjuntos de dados menores. Os resultados sugerem melhorias notáveis nas métricas de desempenho, como precisão, exatidão e recuperação.
O Impacto do Tamanho dos Dados de Treinamento
Nos experimentos, os pesquisadores também examinaram como o tamanho do conjunto de dados de treinamento influencia o desempenho do modelo. As descobertas mostraram que o modelo INN ainda conseguia alcançar uma precisão razoável com amostras de treinamento bem pequenas. À medida que mais dados de treinamento se tornam disponíveis, o desempenho do modelo melhora consistentemente, destacando o valor de combinar a contribuição de especialistas com abordagens orientadas a dados.
Direções Futuras
Daqui pra frente, há planos de refinar ainda mais o modelo INN e explorar a integração de outros tipos de Conhecimento Especializado, como gráficos de conhecimento. Isso pode aumentar as capacidades do modelo e oferecer uma compreensão mais profunda do contexto em torno das palavras-chave usadas na identificação de documentos.
Além disso, os pesquisadores pretendem aplicar os insights obtidos a partir desse trabalho pra beneficiar campos mais amplos, incluindo análise de redes sociais. Compreender a importância das conexões entre palavras-chave pode ter implicações muito além do foco atual nos restos humanos indígenas.
Conclusão
Os esforços em torno da repatriação dos restos ancestrais indígenas destacam a importância da colaboração e inovação na pesquisa. Ao combinar conhecimento de especialistas com machine learning, os pesquisadores tão abrindo caminho pra uma identificação e análise mais eficaz de documentos históricos. Esse trabalho não só ajuda na devolução dos restos ancestrais, mas também contribui pra uma maior compreensão das histórias e legados dos povos das Primeiras Nações. Com os avanços contínuos, há esperança de resultados melhores nas iniciativas de repatriação e preservação do patrimônio cultural.
Título: Informed Machine Learning, Centrality, CNN, Relevant Document Detection, Repatriation of Indigenous Human Remains
Resumo: Among the pressing issues facing Australian and other First Nations peoples is the repatriation of the bodily remains of their ancestors, which are currently held in Western scientific institutions. The success of securing the return of these remains to their communities for reburial depends largely on locating information within scientific and other literature published between 1790 and 1970 documenting their theft, donation, sale, or exchange between institutions. This article reports on collaborative research by data scientists and social science researchers in the Research, Reconcile, Renew Network (RRR) to develop and apply text mining techniques to identify this vital information. We describe our work to date on developing a machine learning-based solution to automate the process of finding and semantically analysing relevant texts. Classification models, particularly deep learning-based models, are known to have low accuracy when trained with small amounts of labelled (i.e. relevant/non-relevant) documents. To improve the accuracy of our detection model, we explore the use of an Informed Neural Network (INN) model that describes documentary content using expert-informed contextual knowledge. Only a few labelled documents are used to provide specificity to the model, using conceptually related keywords identified by RRR experts in provenance research. The results confirm the value of using an INN network model for identifying relevant documents related to the investigation of the global commercial trade in Indigenous human remains. Empirical analysis suggests that this INN model can be generalized for use by other researchers in the social sciences and humanities who want to extract relevant information from large textual corpora.
Autores: Md Abul Bashar, Richi Nayak, Gareth Knapman, Paul Turnbull, Cressida Fforde
Última atualização: 2023-03-25 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.14475
Fonte PDF: https://arxiv.org/pdf/2303.14475
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.