Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Extrayendo información genealógica de los registros parroquiales de Quebec

Un método para reunir la historia familiar a partir de documentos históricos en Quebec.

― 9 minilectura


Genealogía de losGenealogía de losRegistros Parroquiales deQuebechistoria familiar.Enfoque innovador para extraer datos de
Tabla de contenidos

Este artículo describe un método para extraer información genealógica de registros parroquiales manuscritos en Quebec. Estos registros contienen detalles esenciales sobre individuos y familias, útiles para estudiar la historia de la población de Quebec.

Resumen del Flujo de Trabajo

El proceso comienza con imágenes de los registros parroquiales. La primera tarea es identificar qué partes de estas imágenes contienen información importante. El método luego extrae detalles personales a través de una serie de pasos. Estos pasos incluyen clasificar las páginas, detectar líneas de texto, reconocer texto manuscrito, identificar nombres y eventos, y finalmente clasificar los eventos como nacimientos, matrimonios o muertes. Para lograr esto, se utilizan y comparan varios modelos de aprendizaje automático.

Una vez que se recopila la información, los expertos aplican reglas de validación para asegurar que los datos sean coherentes con el tipo de evento que representan. Los registros inválidos pueden ser filtrados, asegurando que solo se mantenga información confiable.

Más de dos millones de páginas de registros parroquiales de Quebec entre los siglos XIX y XX han sido procesadas. De una muestra de estas páginas, se identificaron 3.2 millones de eventos, de los cuales el 74% se considera completo y válido. Esta información validada se almacena en la base de datos BALSAC, que ayuda a vincular relaciones familiares y genealógicas a gran escala.

El Proyecto BALSAC

Durante los últimos 50 años, el proyecto BALSAC ha estado trabajando en la creación de una base de datos integral de la población de Quebec. Comenzó recolectando información de registros parroquiales y civiles, enfocándose principalmente en nacimientos, matrimonios y muertes. Estos datos ayudan a reconstruir la historia de la población de Quebec desde el siglo XVII hasta la actualidad.

En los últimos años, el proyecto se expandió para incluir certificados de nacimiento y defunción para crear una visión más completa de las familias. A medida que la base de datos creció, quedó claro que la transcripción manual ya no era suficiente. Los avances en el aprendizaje automático ofrecieron soluciones prometedoras para reconocer texto manuscrito en documentos históricos. Esto motivó al equipo BALSAC a adoptar esta tecnología para mejorar el proceso de transcripción.

El objetivo es crear i-BALSAC, una nueva infraestructura para estudiar la población de Quebec integrando datos Genealógicos, genómicos y geográficos. Este proyecto, que se espera concluya en 2023, tiene tres componentes principales: recopilar datos demográficos y genéticos, desarrollar herramientas para gestionar y analizar estos datos, y crear un portal web para acceso público.

Registros Manuscritos de Quebec

Como parte de i-BALSAC, se incorporarán certificados de nacimiento y defunción de registros de Quebec entre 1850 y 1916 a la base de datos BALSAC. Las imágenes de alta calidad de estos documentos se obtuvieron en asociación con la Bibliothèque et Archives nationales du Québec. Esto incluye casi 2 millones de páginas digitalizadas de miles de registros de varias parroquias.

El objetivo final es procesar estas imágenes para identificar información clave como nombres, fechas, lugares y ocupaciones. Estos datos se vincularán para crear una visión integral de individuos y familias. La recopilación de datos abarca décadas, por lo que hay variaciones significativas en los estilos de escritura y diseños de página entre diferentes registros. Estas diferencias crean desafíos para las técnicas de aprendizaje automático, que dependen de datos de entrenamiento que representen la diversidad de los documentos.

Contribuciones del Flujo de Trabajo

Este método busca lograr tres objetivos principales:

  1. Crear un flujo de trabajo completo para extraer información personal de documentos históricos, desde el procesamiento de imágenes hasta la integración en la base de datos.
  2. Comparar diferentes modelos de aprendizaje automático en cada paso del flujo de trabajo e identificar desafíos clave en la Extracción de Información.
  3. Establecer reglas para verificar y estandarizar contenido, junto con una métrica no supervisada para la estimación de calidad.

Enfoques de Extracción de Información

Hay dos métodos principales para extraer información de documentos:

Flujo de Trabajo de Una Sola Etapa

En un flujo de trabajo de una sola etapa, la extracción de información se realiza en un paso al fusionar información de imágenes, texto y disposiciones del documento. Este método se basa en modelos preentrenados para extraer características de las diferentes fuentes y luego las utiliza para predecir los datos necesarios.

Este enfoque es eficiente para documentos estructurados donde la información se puede derivar tanto del texto como del diseño. Sin embargo, puede no funcionar tan bien con documentos menos estructurados, como registros históricos, donde el texto lleva la mayor parte del significado.

Flujo de Trabajo Paso a Paso

El flujo de trabajo paso a paso divide el proceso de extracción en pasos manejables. Cada tarea, como clasificar páginas, detectar líneas de texto, reconocer texto manuscrito e identificar entidades, puede abordarse por separado. Esto permite al equipo concentrarse en desafíos específicos y facilita las actualizaciones y el mantenimiento de cada componente.

Pasos Detallados en el Flujo de Trabajo

El flujo de trabajo completo consta de múltiples etapas para extraer información personal de registros escaneados.

Detección de Líneas de Texto

En la primera etapa, se detectan las líneas de texto en las imágenes. Se comparan diferentes modelos por su efectividad para identificar texto dentro de documentos históricos. La calidad de la detección de texto es crucial, ya que impacta en el éxito general de las tareas posteriores.

Reconocimiento de texto Manuscrito

Después de identificar las líneas de texto, el siguiente paso es reconocer el texto manuscrito. Se evalúan dos modelos diferentes por su capacidad para transcribir con precisión el texto. Las salidas de esta etapa deben ser precisas, ya que son críticas para el procesamiento posterior, incluyendo la identificación de nombres y tipos de eventos.

Reconocimiento de Entidades Nombradas

El texto reconocido se analiza para localizar partes específicas de información que normalmente se encuentran en los registros, como nombres y fechas. El objetivo es extraer datos relevantes que se puedan usar para construir árboles genealógicos y entender las relaciones entre individuos.

Detección y Clasificación de Actos

En el siguiente paso, el flujo de trabajo clasifica el texto identificado en actos, como nacimientos, matrimonios o muertes. Cada acto debe ser segmentado con precisión del texto y clasificado adecuadamente, ya que esto proporciona contexto a la información extraída.

Gestión de la Variabilidad de Datos

Dada la amplia gama de documentos y la variabilidad en cómo se registra la información, es esencial crear datos de entrenamiento que representen con precisión esta diversidad. Los datos de entrenamiento comprenden imágenes transcritas y anotadas que, en conjunto, proporcionan una muestra representativa para desarrollar y refinar modelos de aprendizaje automático.

El conjunto de datos anotados debe capturar varios elementos, incluyendo páginas, actos, líneas y palabras, mientras se tiene en cuenta diferentes estilos de escritura y diseños según los registros involucrados.

Control de Calidad y Validación

Una vez que se extrae la información, se verifica la precisión y consistencia de los datos a través de un proceso de control de calidad. Esto se lleva a cabo mediante procedimientos automatizados y supervisión humana para asegurar que cada pieza de información encaje dentro de la estructura específica de los actos que se están registrando.

Verificación y Estandarización de Contenidos

El contenido de los registros se estandariza para asegurar consistencia y precisión. Los campos clave, como fechas y nombres, deben estar formateados correctamente antes de la integración en la base de datos BALSAC.

Y por último, cualquier inconsistencia o error se marca para revisión, asegurando que solo se vinculen registros válidos a individuos en la base de datos.

Resultados e Implicaciones

Después de implementar este flujo de trabajo, se ha avanzado significativamente en la extracción de datos genealógicos de los registros parroquiales de Quebec. Miles de actos han sido reconocidos y validados, con muchos registros listos para integrarse en la base de datos BALSAC.

En general, este esfuerzo representa un gran paso adelante en el uso de la tecnología para la investigación histórica y la genealogía. Al automatizar el proceso de extracción, los investigadores ahora pueden acceder a grandes cantidades de datos de manera más eficiente que en el pasado.

Desafíos y Direcciones Futuras

Aunque el flujo de trabajo muestra promesas, todavía quedan varios desafíos. La precisión del reconocimiento de texto y la extracción de información deben mejorarse continuamente, especialmente ya que la variabilidad en la escritura puede llevar a errores en la transcripción.

Además, el proyecto destaca la importancia de desarrollar procesos de validación robustos que puedan adaptarse a diferentes tipos de documentos y a la calidad variable de los datos. La investigación continua se enfocará en refinar estos procesos para asegurar que la base de datos siga siendo confiable y completa.

A medida que el proyecto BALSAC avanza, busca integrar aún más los datos genealógicos con información genética y geográfica, creando una comprensión más rica de la historia de la población de Quebec. Las posibilidades de expandir este trabajo a otras regiones geográficas y tipos de documentos históricos son extensas y tienen un gran potencial para la investigación genealógica futura.

Fuente original

Título: Large Scale Genealogical Information Extraction From Handwritten Quebec Parish Records

Resumen: This paper presents a complete workflow designed for extracting information from Quebec handwritten parish registers. The acts in these documents contain individual and family information highly valuable for genetic, demographic and social studies of the Quebec population. From an image of parish records, our workflow is able to identify the acts and extract personal information. The workflow is divided into successive steps: page classification, text line detection, handwritten text recognition, named entity recognition and act detection and classification. For all these steps, different machine learning models are compared. Once the information is extracted, validation rules designed by experts are then applied to standardize the extracted information and ensure its consistency with the type of act (birth, marriage, and death). This validation step is able to reject records that are considered invalid or merged. The full workflow has been used to process over two million pages of Quebec parish registers from the 19-20th centuries. On a sample comprising 65% of registers, 3.2 million acts were recognized. Verification of the birth and death acts from this sample shows that 74% of them are considered complete and valid. These records will be integrated into the BALSAC database and linked together to recreate family and genealogical relations at large scale.

Autores: Solène Tarride, Martin Maarand, Mélodie Boillet, James McGrath, Eugénie Capel, Hélène Vézina, Christopher Kermorvant

Última actualización: 2023-04-27 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2304.14044

Fuente PDF: https://arxiv.org/pdf/2304.14044

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares