Mejorando la vinculación de registros en datos de salud
Un nuevo método mejora la precisión al vincular datos de salud y ciencias sociales.
― 8 minilectura
Tabla de contenidos
En el ámbito de la salud y las ciencias sociales, a menudo obtenemos información sobre las personas de diferentes archivos de datos. Estos archivos pueden contener detalles importantes, pero pueden estar separados por varias razones. Para analizar los datos de manera efectiva, necesitamos una forma de conectar los registros de estos diferentes archivos. Este proceso se conoce como Vinculación de Registros.
Cuando los archivos tienen identificadores únicos como un número de Seguro Social, vincular registros es relativamente fácil. Sin embargo, si esos identificadores faltan o son débiles, se vuelve una tarea mucho más difícil. La vinculación de registros es un método que se usa para encontrar registros coincidentes entre archivos cuando no hay identificadores únicos disponibles. Este método se ha utilizado en la investigación médica, la sociología e incluso por la Oficina del Censo para combinar datos.
Hay dos tipos principales de métodos de vinculación de registros: determinísticos y Probabilísticos. Los métodos determinísticos se basan en coincidencias exactas entre variables en ambos archivos. Estos métodos funcionan bien cuando las variables son confiables, pero pueden fallar si hay errores, como faltas de ortografía o información faltante. Por otro lado, los métodos probabilísticos estiman la probabilidad de que un par de registros sea una coincidencia verdadera según la información disponible.
A pesar de los avances en estos métodos, la vinculación de registros a menudo es solo el primer paso. Los investigadores quieren entender las relaciones entre diferentes piezas de información en los datos vinculados. Muchos métodos actuales de análisis suponen que se conocen las probabilidades de vinculación de registros o que se pueden estimar, lo cual no siempre es cierto. Algunos enfoques intentan ajustar los errores en la vinculación, pero también dependen de tasas de error desconocidas.
Los métodos bayesianos para la vinculación de registros ayudan a abordar estas limitaciones. Permiten manejar mejor los errores al muestrear la estructura de vinculación y los parámetros del modelo juntos. Algunos enfoques bayesianos se basan en modelos tradicionales, mientras que otros analizan errores de medición para encontrar registros que representen a la misma persona. Estos métodos introducen una estructura oculta que ayuda a gestionar errores en los datos vinculados.
Sin embargo, muchos de estos modelos bayesianos solo consideran variables comunes a ambos archivos. Algunos enfoques recientes analizan relaciones entre variables en cualquiera de los archivos. Aún así, hay lagunas en estos modelos, especialmente cuando se trata de hacer ajustes para bloquear, una técnica importante que agrupa registros según ciertos criterios para mejorar la eficiencia.
En este artículo, proponemos un nuevo método para vincular registros que amplía las técnicas bayesianas actuales. Nuestro método incorpora relaciones entre todas las variables en cada archivo, estén o no presentes en uno o ambos archivos. Mostraremos cómo este nuevo enfoque puede mejorar la precisión en la vinculación de registros y llevar a mejores percepciones.
Antecedentes
Para entender nuestro nuevo método, primero debemos hablar de cómo se estructuran los archivos de datos en la vinculación de registros. Supongamos que tenemos dos archivos con registros que queremos vincular. Cada archivo tiene un conjunto de variables de vinculación que ayudan a hacer comparaciones entre registros. El objetivo es emparejar con precisión los registros en los archivos.
El modelo bayesiano tradicional de Fellegi-Sunter proporciona una buena base para la vinculación de registros. Examina todos los pares de registros posibles y los clasifica en vínculos verdaderos y no vínculos. El modelo estima la relación entre las variables de vinculación y define una forma de calcular la probabilidad de que cada par de registros sea un vínculo verdadero.
Sin embargo, este marco solo considera variables presentes en ambos archivos. Nuestro método propuesto ampliará este modelo básico para incluir asociaciones entre variables que son únicas para cada archivo.
El Método Propuesto
Nuestro nuevo método, que llamamos Vinculación de Registros Bayesiana con Variables en Un Archivo (BRLVOF), se basa en el marco bayesiano existente. Nos permite considerar no solo las comparaciones entre variables comunes, sino también las variables únicas de cada archivo. Esto debería proporcionar una comprensión más rica de las relaciones dentro de los datos.
Ventajas de BRLVOF
BRLVOF ofrece varias ventajas clave. Al considerar las relaciones entre variables únicas, podemos identificar mejor los vínculos verdaderos y reducir las coincidencias falsas. Esto puede ser especialmente útil cuando las variables de vinculación no son muy informativas.
También proporcionamos razones teóricas para creer que BRLVOF mejorará el proceso de vinculación de registros. En particular, encontramos que la probabilidad de identificar correctamente los vínculos verdaderos es mayor bajo BRLVOF que en otros modelos. Esto crea un sistema más robusto para gestionar errores de vinculación y mejorar la calidad del análisis realizado sobre los datos vinculados.
Ajustes para Bloqueo
Para hacer que la vinculación de registros sea más eficiente, podemos usar una técnica llamada bloqueo. Esto significa agrupar registros según ciertas características antes de compararlos. Por ejemplo, podríamos bloquear por códigos postales o género para reducir la cantidad de comparaciones necesarias.
Al aplicar nuestro nuevo método, también modificamos BRLVOF para tener en cuenta el bloqueo. Esto ayuda a mejorar la precisión y eficiencia general del proceso de vinculación. Suponemos que ciertos parámetros del modelo permanecen constantes en los bloques, lo que permite una mejor agregación de información.
Estudios de Simulación
Para validar nuestro método propuesto, realizamos una serie de estudios de simulación. Creamos archivos de datos simulados y aplicamos tanto nuestro nuevo método como enfoques tradicionales para ver qué tan bien funcionan en la vinculación de registros.
En nuestras simulaciones, manipulamos varios factores, como el tamaño de los archivos y la cantidad de errores en las variables de vinculación. Luego medimos cuántas coincidencias verdaderas identifica cada método, así como la proporción de vínculos falsos.
Los resultados muestran que BRLVOF tiene un rendimiento consistentemente mejor que los métodos tradicionales. Específicamente, BRLVOF encuentra más vínculos verdaderos mientras reduce la cantidad de vínculos falsos, lo que lleva a estimaciones más precisas en análisis posteriores.
Aplicación a Datos de Meals on Wheels
Aplicamos nuestro nuevo método a un conjunto de datos del mundo real de Meals on Wheels (MOW). Este programa entrega comidas a adultos mayores que no pueden salir de casa, y queremos evaluar qué tan bien sirve a sus clientes.
Usando los registros de clientes de MOW, vinculamos estos datos con registros de reclamaciones de Medicare para explorar cómo los servicios de MOW impactan la utilización de atención médica de los clientes. Los datos de MOW incluyen información como edad, género y códigos postales, mientras que los datos de Medicare incluyen detalles sobre los servicios de salud utilizados.
Dado el gran número de registros, usamos bloqueo para simplificar el proceso de vinculación. Después de aplicar BRLVOF, encontramos que vincula significativamente más registros que los métodos anteriores, aumentando el tamaño de la muestra analítica.
Resultados
Una vez que los registros están vinculados, analizamos las relaciones entre medidas de estado funcional, como la capacidad para realizar tareas diarias, y la utilización de atención médica. Las estimaciones muestran algunas tendencias, pero ninguna es estadísticamente significativa. Sin embargo, observamos que aquellos con mejor estado funcional podrían experimentar menos visitas al hospital después de recibir los servicios de MOW.
Nuestros resultados indican que usar BRLVOF ayuda a crear un conjunto más grande de registros vinculados, lo cual es crucial para evaluar la efectividad del programa.
Conclusión
En resumen, nuestro método propuesto de Vinculación de Registros Bayesiana con Variables en Un Archivo (BRLVOF) mejora significativamente el proceso de vinculación de registros a través de múltiples archivos de datos. Al considerar tanto las variables comunes como las únicas en los datos, mejoramos la precisión de la vinculación. Nuestras simulaciones y aplicación en el mundo real muestran que este método permite estimaciones e percepciones más precisas, especialmente al tratar con información incompleta o engañosa.
Direcciones para la Investigación Futura
Surgen varias áreas para la investigación futura a partir de nuestro trabajo. Necesitamos explorar más cómo el método BRLVOF puede adaptarse para manejar escenarios complejos de bloqueo. Además, evaluar su rendimiento en diversas aplicaciones del mundo real será clave para validar su efectividad en la práctica.
Además, a medida que aumentan las preocupaciones sobre la privacidad de los datos, explorar formas de implementar BRLVOF mientras se asegura la confidencialidad será crítico. Mejores métodos de vinculación pueden proporcionar valiosas percepciones sobre programas y servicios de salud, lo que en última instancia llevaría a mejores resultados para las personas que lo necesitan.
Título: Bayesian Record Linkage with Variables in One File
Resumen: In many healthcare and social science applications, information about units is dispersed across multiple data files. Linking records across files is necessary to estimate the associations of interest. Common record linkage algorithms only rely on similarities between linking variables that appear in all the files. Moreover, analysis of linked files often ignores errors that may arise from incorrect or missed links. Bayesian record linking methods allow for natural propagation of linkage error, by jointly sampling the linkage structure and the model parameters. We extend an existing Bayesian record linkage method to integrate associations between variables exclusive to each file being linked. We show analytically, and using simulations, that this method can improve the linking process, and can yield accurate inferences. We apply the method to link Meals on Wheels recipients to Medicare Enrollment records.
Autores: Gauri Kamat, Mingyang Shan, Roee Gutman
Última actualización: 2023-08-30 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2308.05614
Fuente PDF: https://arxiv.org/pdf/2308.05614
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.