Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Inteligencia artificial

El papel de las declaraciones negativas en los grafos de conocimiento biomédico

Destacando la importancia de las declaraciones negativas en los grafos de conocimiento biomédico.

― 7 minilectura


Declaraciones negativasDeclaraciones negativasen grafos de conocimientobiomédicos.negativas en conjuntos de datosImportancia de las declaraciones
Tabla de contenidos

Los Grafos de Conocimiento son herramientas que describen hechos sobre diversas entidades y las relaciones entre ellas. En el campo biomédico, la mayoría de estos hechos se expresan como afirmaciones positivas. Por ejemplo, una afirmación positiva podría decir que una proteína específica tiene una cierta función. Sin embargo, también hay afirmaciones negativas que indican lo que una proteína no hace. Estas afirmaciones negativas pueden ser muy importantes, especialmente porque ayudan a aclarar la información faltante en el contexto de la investigación biomédica.

El desafío es que las afirmaciones negativas a menudo son limitadas en los grafos de conocimiento biomédico. Dado que la mayoría de los grafos de conocimiento asumen que no saber algo no significa que no sea verdad, la falta de información negativa puede llevar a malentendidos. Los investigadores en biomedicina han descubierto que incluir estas afirmaciones negativas puede hacer que los resultados sean más claros y mejorar el rendimiento de diferentes aplicaciones biomédicas.

Necesidad de conjuntos de datos de referencia

A pesar del reconocimiento de la importancia de las afirmaciones negativas, no ha habido un conjunto de datos adecuado que evalúe el impacto de estas afirmaciones en los grafos de conocimiento. Esta brecha en la investigación ha dificultado probar nuevos métodos que incluyan afirmaciones negativas en los grafos de conocimiento. Por lo tanto, es necesario crear conjuntos de datos de referencia que incluyan tanto afirmaciones positivas como negativas para medir efectivamente cuán bien funcionan estos métodos.

Conjuntos de datos para varias tareas biomédicas

Para abordar este problema, se ha desarrollado una colección de conjuntos de datos para tres tareas clave en la investigación biomédica: predecir Interacciones proteína-proteína, vincular genes con enfermedades y predecir enfermedades basadas en datos de pacientes. Estas tareas son cruciales porque ayudan a los científicos a entender cómo interactúan diferentes elementos biológicos y contribuyen a la salud y la enfermedad.

Predicción de Interacciones Proteína-Proteína

Entender cómo las proteínas interactúan entre sí es vital para muchos procesos biológicos. Para predecir estas interacciones, los investigadores se basan en un grafo de conocimiento que describe proteínas y sus funciones. Los ejemplos positivos de interacciones de proteínas se toman de una base de datos que cuida cuidadosamente los datos experimentales. Esto asegura que la información sea confiable.

Para crear el conjunto de datos, los investigadores siguieron estos pasos:

  1. Seleccionaron pares de proteínas que se sabe que interactúan, asegurándose de que cada proteína tuviera al menos una afirmación positiva y una negativa.
  2. Para los ejemplos negativos, muestrearon aleatoriamente pares de proteínas para crear un conjunto equilibrado.

De esta manera, el conjunto de datos representa efectivamente tanto las interacciones de proteínas conocidas como las desconocidas.

Predicción de Asociación Gen-Enfermedad

Identificar qué genes están vinculados a enfermedades específicas ayuda a los investigadores a entender los mecanismos de la enfermedad y posibles tratamientos. La tarea de predicción de asociación gen-enfermedad utiliza dos grafos de conocimiento: uno para genes y otro para enfermedades. Las relaciones entre ellos se extraen de una base de datos especializada que enumera asociaciones conocidas.

El proceso de selección de pares gen-enfermedad incluyó estos puntos:

  1. Cada gen debía estar asociado con al menos una afirmación positiva y una negativa.
  2. Cada enfermedad también necesitaba anotaciones positivas y negativas similares.

Al equilibrar el conjunto de datos con ejemplos negativos aleatorios, los investigadores aseguran que ambos tipos de afirmaciones se consideren para mejores predicciones.

Conjuntos de Datos de Predicción de Enfermedades

Predecir enfermedades basadas en datos de pacientes es una tarea compleja que puede beneficiarse del uso de grafos de conocimiento. Para este conjunto de datos, los investigadores crearon perfiles de pacientes sintéticos para varias enfermedades con características conocidas. Para cada enfermedad, generaron un conjunto de pacientes cuyas anotaciones estaban vinculadas a los rasgos conocidos de la enfermedad.

El proceso incluyó:

  1. Seleccionar condiciones según qué tan probable sería que un paciente mostrara ciertos síntomas (penetrancia).
  2. Crear una mezcla de afirmaciones positivas y negativas vinculadas a cada enfermedad diagnosticada.

Para imitar escenarios del mundo real, también se añadieron anotaciones aleatorias adicionales para representar otras condiciones no relacionadas que un paciente podría tener.

Construcción de los Grafos de Conocimiento

Los grafos de conocimiento construidos para estas tareas se basaron en dos ontologías biomédicas prominentes: Ontología Genética y Ontología de Fenotipos Humanos.

  • Ontología Genética (GO): Esta ontología describe las funciones de los genes y proteínas en detalle. Incluye varios aspectos como funciones moleculares, procesos biológicos y componentes celulares. La GO también tiene algunas anotaciones marcadas con "NO", indicando que una proteína no realiza una función particular. Estas anotaciones se incorporan como afirmaciones negativas en el grafo de conocimiento.

  • Ontología de Fenotipos Humanos (HP): Esta ontología trata sobre las características de las enfermedades humanas. Conecta enfermedades con rasgos fenotípicos y puede incluir tanto afirmaciones positivas como negativas sobre qué síntomas causa o no causa una enfermedad.

El proceso de construcción de estos grafos implicó integrar datos de estas ontologías y mejorarlos con Declaraciones Negativas adicionales curadas por expertos.

Validación de los Conjuntos de Datos

Para verificar la efectividad de estos conjuntos de datos, los investigadores utilizaron métodos que mapean grafos de conocimiento en espacios de baja dimensión, facilitando el análisis de relaciones. Se emplearon dos métodos:

  • RDF2Vec: Este método genera secuencias de caminatas aleatorias en el grafo de conocimiento para crear entradas para un modelo de lenguaje.
  • OWL2Vec: Diseñado específicamente para ontologías, este método también utiliza caminatas en el grafo para capturar su estructura.

Las características generadas a partir de estos métodos se utilizaron luego en un clasificador para evaluar sus capacidades predictivas. Los resultados mostraron que los conjuntos de datos que contenían afirmaciones negativas a menudo funcionaban mejor que aquellos con solo afirmaciones positivas, destacando la importancia de incluir información negativa en los grafos de conocimiento biomédicos.

Conclusión

La creación de conjuntos de datos de referencia que incorporen tanto afirmaciones positivas como negativas es un paso significativo para los investigadores en el campo biomédico. Al proporcionar una forma de evaluar varios métodos utilizando estos conjuntos de datos enriquecidos, la comunidad de investigación puede entender y utilizar mejor la información negativa en los grafos de conocimiento.

Estos conjuntos de datos fueron elaborados para mejorar tres tareas principales en biomedicina: predecir cómo interactúan las proteínas, vincular genes y enfermedades, y predecir enfermedades en pacientes. Las metodologías utilizadas para crear estos conjuntos de datos involucraron selección cuidadosa y muestreo aleatorio para asegurar una representación equilibrada de ambos tipos de afirmaciones.

A medida que las afirmaciones negativas se integren mejor en los grafos de conocimiento, se espera que el rendimiento de varias aplicaciones en biomedicina mejore, llevando a una comprensión más profunda de los sistemas biológicos y mejorando el desarrollo de nuevas terapias y tratamientos.

Fuente original

Título: Benchmark datasets for biomedical knowledge graphs with negative statements

Resumen: Knowledge graphs represent facts about real-world entities. Most of these facts are defined as positive statements. The negative statements are scarce but highly relevant under the open-world assumption. Furthermore, they have been demonstrated to improve the performance of several applications, namely in the biomedical domain. However, no benchmark dataset supports the evaluation of the methods that consider these negative statements. We present a collection of datasets for three relation prediction tasks - protein-protein interaction prediction, gene-disease association prediction and disease prediction - that aim at circumventing the difficulties in building benchmarks for knowledge graphs with negative statements. These datasets include data from two successful biomedical ontologies, Gene Ontology and Human Phenotype Ontology, enriched with negative statements. We also generate knowledge graph embeddings for each dataset with two popular path-based methods and evaluate the performance in each task. The results show that the negative statements can improve the performance of knowledge graph embeddings.

Autores: Rita T. Sousa, Sara Silva, Catia Pesquita

Última actualización: 2023-07-21 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2307.11719

Fuente PDF: https://arxiv.org/pdf/2307.11719

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares