Esfuerzos de repatriación para restos ancestrales indígenas
La investigación combina aprendizaje automático y conocimiento experto para apoyar la repatriación.
― 7 minilectura
Tabla de contenidos
- El Desafío de Encontrar Documentación Histórica
- La Importancia del Conocimiento Experto
- Bibliotecas Digitales y Recursos en Línea
- La Variedad de Fuentes Históricas
- El Papel del Aprendizaje Automático
- Desarrollo de un Modelo de Clasificación
- La Importancia de las Palabras Clave
- Evaluación del Rendimiento del Modelo
- El Impacto del Tamaño de los Datos de Entrenamiento
- Direcciones Futuras
- Conclusión
- Fuente original
- Enlaces de referencia
La repatriación de restos ancestrales indígenas es un tema importante para los pueblos de las Primeras Naciones en Australia y más allá. Muchos de estos restos están actualmente en instituciones científicas occidentales, y su regreso a las comunidades para ser enterrados de nuevo es fundamental. Este proceso se complica por la necesidad de encontrar documentación desde 1790 hasta 1970 que rastree cómo se tomaron, donaron, vendieron o intercambiaron los restos entre instituciones.
El Desafío de Encontrar Documentación Histórica
Varios grupos y investigadores están trabajando juntos para abordar este desafío. Se enfocan en usar técnicas de minería de texto para localizar información clave en diversos textos. Los científicos de datos y los científicos sociales buscan crear soluciones automáticas para analizar esta información de manera eficiente. Han desarrollado métodos que aplican aprendizaje automático para ayudar a encontrar y analizar documentos relevantes.
Una de las tareas principales en este esfuerzo es mejorar la precisión en la detección de textos relevantes. Los Modelos de Clasificación tradicionales a menudo tienen problemas cuando se entrenan con pequeñas cantidades de documentos etiquetados, que son esenciales para enseñar al modelo qué buscar. Para enfrentar este problema, los investigadores están explorando un nuevo tipo de modelo llamado Red Neuronal Informada (INN). Este modelo utiliza información de expertos en el campo para describir el contenido de los documentos con más precisión.
La Importancia del Conocimiento Experto
El modelo INN se basa en unos pocos documentos etiquetados e incorpora conocimientos de expertos en investigación de procedencia. Estos expertos proporcionan Palabras clave que es probable que aparezcan en documentos relevantes, mejorando la capacidad del modelo para detectar la información correcta. Los resultados indican que usar este enfoque informado mejora significativamente la identificación de documentos relacionados con el comercio y manejo de restos humanos indígenas.
Bibliotecas Digitales y Recursos en Línea
En los últimos años, varias iniciativas de bibliotecas digitales han facilitado la búsqueda de documentos históricos. Muchos libros, revistas científicas y artículos de periódicos ya están disponibles en línea en formatos digitales. Sin embargo, encontrar información relevante sobre el robo y uso de restos ancestrales presenta desafíos. Los investigadores deben confiar en motores de búsqueda, que pueden producir resultados sesgados. Estos resultados pueden no reflejar todos los documentos necesarios debido a la forma en que se indexan.
Los investigadores que trabajan con comunidades de Primeras Naciones enfrentan el desafío de confirmar la identidad y ubicación de los restos ancestrales para ayudar en su correcto entierro. Este proceso a menudo requiere esfuerzos extensos para rastrear los movimientos de los restos a través de diferentes coleccionistas e instituciones. Desafortunadamente, los catálogos de museos actuales ofrecen datos limitados, mostrando generalmente solo las ubicaciones finales de los restos, lo que puede llevar a errores en la identificación.
La Variedad de Fuentes Históricas
Muchas fuentes históricas que podrían proporcionar información valiosa están dispersas en diferentes plataformas en línea. Estas pueden incluir artículos de periódicos que documentan donaciones y ventas de museos, anuncios de subastas y reportes sobre la venta de colecciones privadas. A pesar de su posible utilidad, localizar e investigar estas fuentes puede ser una tarea abrumadora. Los proyectos de bibliotecas digitales han intentado recopilar y organizar estos documentos, pero navegar por estas colecciones sigue siendo difícil para los investigadores.
El Papel del Aprendizaje Automático
El aprendizaje automático ofrece una solución prometedora para automatizar la identificación de documentos relevantes. Este enfoque es especialmente útil debido al contexto histórico de los documentos, que puede variar en lenguaje y contenido en comparación con los textos modernos. Muchos documentos históricos son escaneados y puestos a disposición a través del Reconocimiento Óptico de Caracteres (OCR), pero este proceso puede introducir errores, lo que dificulta reproducir el texto con precisión.
Los modelos de lenguaje existentes, como los utilizados en aplicaciones recientes de aprendizaje automático, a menudo no logran capturar los matices y contexto de los documentos históricos. Además, estos modelos generalmente requieren una cantidad significativa de datos etiquetados para un entrenamiento efectivo, que a menudo no están disponibles en las humanidades y ciencias sociales.
Desarrollo de un Modelo de Clasificación
Para abordar estos problemas, los investigadores están trabajando en diseñar un modelo de aprendizaje supervisado que utilice el enfoque INN. Este modelo integra el conocimiento experto con el aprendizaje automático para mejorar la detección de documentos relevantes. El conocimiento proporcionado por los expertos incluye palabras clave y el contexto en el que es probable que aparezcan estas palabras clave. Esta integración es crucial, ya que ayuda a mejorar el rendimiento del modelo mientras minimiza la cantidad de documentos etiquetados necesarios para el entrenamiento.
La Importancia de las Palabras Clave
Las palabras clave elegidas ayudan al modelo a aprender sobre los temas específicos relacionados con los restos indígenas. Entender cómo interactúan estas palabras clave dentro de los documentos proporciona el contexto necesario para identificar información relevante. Los investigadores han identificado varias medidas de centralidad que ayudan a analizar estas interacciones, refinando aún más la capacidad del modelo para señalar cuándo un documento es pertinente.
Evaluación del Rendimiento del Modelo
Los investigadores están realizando experimentos para evaluar la precisión y efectividad del modelo. Se utilizan varias métricas para evaluar cuán bien identifica el modelo documentos relevantes. Se emplean dos conjuntos de datos para este propósito: uno relacionado con Restos Humanos Indígenas y otro de un corpus de noticias estándar.
A través de estos experimentos, el modelo INN demostró tener la capacidad de superar a los modelos de clasificación tradicionales. El uso combinado de conocimiento informado por expertos y métodos impulsados por datos permite que este modelo se mantenga efectivo, incluso con conjuntos de datos más pequeños. Los resultados sugieren mejoras notables en métricas de rendimiento como precisión, exactitud y recuperación.
El Impacto del Tamaño de los Datos de Entrenamiento
En los experimentos, los investigadores también examinaron cómo el tamaño del conjunto de datos de entrenamiento influye en el rendimiento del modelo. Los hallazgos mostraron que el modelo INN aún podía lograr una precisión razonable con muestras de entrenamiento muy pequeñas. A medida que más datos de entrenamiento se vuelven disponibles, el rendimiento del modelo mejora consistentemente, destacando el valor de combinar la entrada de expertos con enfoques basados en datos.
Direcciones Futuras
De cara al futuro, hay planes para refinar aún más el modelo INN y explorar la integración de tipos adicionales de conocimiento experto, como gráficos de conocimiento. Esto podría mejorar las capacidades del modelo y ofrecer una comprensión más profunda del contexto que rodea a las palabras clave utilizadas en la identificación de documentos.
Además, los investigadores buscan aplicar las ideas obtenidas de este trabajo para beneficiar a campos más amplios, incluyendo el análisis de redes sociales. Entender la importancia de las conexiones entre palabras clave puede tener implicaciones de gran alcance más allá del enfoque actual en los restos humanos indígenas.
Conclusión
Los esfuerzos en torno a la repatriación de restos ancestrales indígenas subrayan la importancia de la colaboración y la innovación en la investigación. Al combinar el conocimiento experto con el aprendizaje automático, los investigadores están abriendo camino para una identificación y análisis más efectivos de documentos históricos. Este trabajo no solo ayuda en el regreso de restos ancestrales, sino que también contribuye a una mayor comprensión de las historias y legados de los pueblos de las Primeras Naciones. A través de avances continuos, hay esperanza de mejorar los resultados en los esfuerzos de repatriación y la preservación del patrimonio cultural.
Título: Informed Machine Learning, Centrality, CNN, Relevant Document Detection, Repatriation of Indigenous Human Remains
Resumen: Among the pressing issues facing Australian and other First Nations peoples is the repatriation of the bodily remains of their ancestors, which are currently held in Western scientific institutions. The success of securing the return of these remains to their communities for reburial depends largely on locating information within scientific and other literature published between 1790 and 1970 documenting their theft, donation, sale, or exchange between institutions. This article reports on collaborative research by data scientists and social science researchers in the Research, Reconcile, Renew Network (RRR) to develop and apply text mining techniques to identify this vital information. We describe our work to date on developing a machine learning-based solution to automate the process of finding and semantically analysing relevant texts. Classification models, particularly deep learning-based models, are known to have low accuracy when trained with small amounts of labelled (i.e. relevant/non-relevant) documents. To improve the accuracy of our detection model, we explore the use of an Informed Neural Network (INN) model that describes documentary content using expert-informed contextual knowledge. Only a few labelled documents are used to provide specificity to the model, using conceptually related keywords identified by RRR experts in provenance research. The results confirm the value of using an INN network model for identifying relevant documents related to the investigation of the global commercial trade in Indigenous human remains. Empirical analysis suggests that this INN model can be generalized for use by other researchers in the social sciences and humanities who want to extract relevant information from large textual corpora.
Autores: Md Abul Bashar, Richi Nayak, Gareth Knapman, Paul Turnbull, Cressida Fforde
Última actualización: 2023-03-25 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2303.14475
Fuente PDF: https://arxiv.org/pdf/2303.14475
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.