Sci Simple

New Science Research Articles Everyday

# Biología # Bioinformática

Avanzando en el descubrimiento de medicamentos a través de la integración de datos

Combinando recursos para mejorar la identificación de objetivos de medicamentos y la comprensión de enfermedades.

Melissa Harrison, S. Tirunagari, S. Saha, A. Venkatesan, D. Suveges, A. Buniello, D. Ochoa, J. McEntyre, E. McDonagh

― 8 minilectura


Apuntando a medicamentos Apuntando a medicamentos basado en datos enfermedades. dianas de fármacos y entender Enfoques innovadores para identificar
Tabla de contenidos

Encontrar los objetivos adecuados para los fármacos es una parte crucial de la creación de nuevos medicamentos. Para esto, los científicos necesitan saber cómo funcionan las enfermedades. Observan diferentes tipos de evidencia, como cambios en los genes, diferencias genéticas entre personas y datos de estudios clínicos.

Una herramienta útil para esta tarea es la Plataforma Open Targets, que es un recurso basado en la web. Esta plataforma reúne muchas fuentes de evidencia diferentes para ayudar a los científicos a encontrar los mejores objetivos para fármacos relacionados con varias enfermedades. Combina información de más de 20 fuentes, ofreciendo perspectivas sobre cómo se relacionan los objetivos con las enfermedades. Esto incluye datos sobre vínculos genéticos, mutaciones, fármacos conocidos y resultados de estudios que involucran animales y rutas en biología.

La Plataforma Open Targets proporciona una puntuación que refleja la fuerza de la evidencia de cada fuente. Esta puntuación ayuda a los investigadores a entender qué objetivos podrían ser los más efectivos para el tratamiento. La información está organizada de manera que sea fácil de leer, lo que hace que sea simple para los usuarios acceder a la información que necesitan. Está disponible a través de cualquier navegador web, tiene una API para desarrolladores y permite a los usuarios descargar datos para un análisis más profundo.

El Papel de Europe PMC

Otro aspecto importante del descubrimiento de fármacos es recopilar información de artículos científicos. Europe PMC sirve como un recurso útil aquí. Es un repositorio extenso y gratuito de literatura biomédica, proporcionando acceso a una gran cantidad de artículos de ciencias de la vida. Con más de 41 millones de resúmenes y millones de artículos de texto completo, Europe PMC está creciendo continuamente. Juega un papel esencial en el apoyo a la Plataforma Open Targets al ofrecer capacidades de minería de texto que ayudan a identificar conexiones entre medicamentos, objetivos y enfermedades.

Europe PMC utiliza técnicas avanzadas de minería de texto para extraer información relevante, lo cual es crucial para encontrar relaciones entre fármacos y enfermedades. Este proceso es una característica clave de la Plataforma Open Targets, permitiendo a los investigadores acceder a valiosas ideas extraídas de la literatura publicada.

El Marco Lit-OTAR

El marco Lit-OTAR es un esfuerzo colaborativo que combina la minería de texto de Europe PMC con el componente de literatura de Open Targets. Este marco ayuda a identificar entidades como fármacos, enfermedades y objetivos utilizando técnicas de aprendizaje profundo para analizar documentos científicos. La Plataforma Open Targets también trabaja para mapear estas entidades a bases de datos, asegurando que sean identificadas y asociadas correctamente.

El objetivo de este marco es proporcionar a los investigadores un servicio confiable y continuo para validar objetivos de fármacos. Aborda una brecha en la minería de texto biomédica existente al ofrecer actualizaciones más regulares y un ámbito de análisis más amplio. Los esfuerzos anteriores en este área a menudo se limitaban a tipos específicos de datos, principalmente enfocados en vínculos gen-diseases, lo que no cubría el panorama completo.

Avances en Minería de Texto

En los últimos años, las mejoras en el procesamiento del lenguaje natural (NLP) han hecho que analizar textos sea mucho más efectivo. Nuevos modelos como BioBERT y BioFormer han tomado protagonismo. Estos modelos se han entrenado usando grandes datos de ciencias de la vida y se han ajustado para tareas específicas. Esto ha llevado a mejoras significativas en el reconocimiento de entidades mencionadas en la literatura científica, permitiendo una mejor identificación de relaciones entre fármacos, enfermedades y objetivos.

En el trabajo actual, se han aplicado técnicas de aprendizaje profundo utilizando modelos como BioBERT y BioFormer para refinar el proceso de extracción de asociaciones relevantes. La nueva canalización ahora incluye la capacidad de identificar asociaciones entre fármacos y objetivos, así como entre fármacos y enfermedades. Los investigadores también han abordado desafíos técnicos como descomponer estructuras documentales complejas para obtener información precisa.

Recolección y Procesamiento de Datos

Hasta ahora, Europe PMC tiene alrededor de 39 millones de resúmenes y 9 millones de artículos de texto completo. Sin embargo, solo una parte de estos artículos está incluida en el análisis debido a reglas de licencias y el enfoque en estudios originales. Los datos seleccionados se procesan utilizando un modelo de aprendizaje profundo que identifica varias entidades. Cuando se encuentran dos o más entidades en la misma oración, se consideran como evidencia de una conexión.

Los datos procesados son enviados a la Plataforma Open Targets para Normalización y mapeo a bases de datos estándar. Esto implica emparejar entidades de enfermedades con la Ontología de Factores Experimentales, entidades químicas con ChEMBL, y entidades genéticas con Ensembl. Los datos finales se hacen accesibles a través de diferentes APIs para los investigadores que los necesiten.

Reconocimiento de Entidades: Encontrar los Términos Correctos

Para mejorar cómo se reconocen entidades como fármacos y enfermedades, los investigadores utilizaron el conjunto de datos de Europe PMC. Inicialmente, este conjunto de datos no incluía menciones de medicamentos, así que lo mejoraron añadiendo un corpus químico/fármaco disponible públicamente. El conjunto de datos enriquecido ahora captura menciones de genes, proteínas, enfermedades, fármacos y más. Se entrenaron y probaron varios modelos en estos datos para evaluar su efectividad en el reconocimiento de estas entidades.

Los resultados mostraron que un modelo llamado BioBERT tuvo el mejor rendimiento en la identificación correcta de entidades, con altas tasas de precisión y recuperación. Sin embargo, dado sus requerimientos computacionales, los investigadores se enfocaron en optimizar otro modelo llamado QEB8L para un procesamiento más rápido manteniendo la precisión. Esta optimización permitió un análisis más rápido sin perder rendimiento.

Normalización: Estandarizando Términos

Después de que se reconocen las entidades, el siguiente paso es la normalización. Este proceso asegura que los diferentes nombres y menciones de una entidad particular se consoliden en una sola referencia vinculada a una base de datos específica. Esto es importante para reunir toda la información relevante y entender las conexiones entre varias entidades.

El proceso de normalización utiliza técnicas para emparejar entidades con bases de datos específicas, permitiendo a los investigadores analizar y agregar datos de manera efectiva. La normalización exitosa de un gran número de entidades muestra que los métodos elegidos son efectivos, aunque siguen existiendo desafíos debido a la compleja naturaleza de la terminología biomédica.

Co-ocurrencia vs. Asociación

Al estudiar asociaciones entre diferentes entidades, los investigadores han explorado la diferencia entre co-ocurrencia y verdadera asociación. Descubrieron que la determinación de asociación puede ser subjetiva y puede variar entre expertos. Esto lleva a desafíos en confirmar vínculos reales entre entidades basándose únicamente en su co-ocurrencia en los textos.

Después de examinar el tema, los investigadores decidieron tratar la co-ocurrencia como una forma de asociación. Esto significa que si dos entidades aparecen juntas, puede indicar una relación potencial, incluso si no siempre es clara. Este enfoque ayuda a simplificar el análisis y permite una comprensión más amplia de los posibles vínculos entre fármacos, enfermedades y objetivos.

Hallazgos Generales e Impacto

El marco Lit-OTAR ofrece importantes perspectivas sobre las relaciones entre enfermedades, objetivos de fármacos y tratamientos potenciales. Ha procesado millones de artículos, identificando muchas asociaciones únicas. Los resultados no solo ayudan a entender las relaciones existentes, sino que también abren nuevas posibilidades para descubrir entidades que antes no se reconocían.

Este marco opera de manera continua, con actualizaciones que ayudan a asegurar que los investigadores tengan acceso a los últimos datos y perspectivas. Al usar la literatura de manera efectiva, el marco Lit-OTAR apoya la investigación terapéutica continua y el desarrollo de nuevos medicamentos, contribuyendo a los avances en la atención médica.

En resumen, el trabajo que se está haciendo en la identificación de objetivos de fármacos y la comprensión de mecanismos de enfermedad es complejo pero esencial. Herramientas como la Plataforma Open Targets y colaboraciones como Lit-OTAR están logrando avances significativos en este área, proporcionando a los investigadores recursos y datos valiosos para guiar sus esfuerzos en el descubrimiento de fármacos.

Fuente original

Título: Lit-OTAR Framework for Extracting Biological Evidences from Literature

Resumen: The lit-OTAR framework, developed through a collaboration between Europe PMC and Open Targets, leverages deep learning to revolutionise drug discovery by extracting evidence from scientific literature for drug target identification and validation. This novel framework combines Named Entity Recognition (NER) for identifying gene/protein (target), disease, organism, and chemical/drug within scientific texts, and entity normalisation to map these entities to databases like Ensembl, Experimental Factor Ontology (EFO), and ChEMBL. Continuously operational, it has processed over 39 million abstracts and 4.5 million full-text articles and preprints to date, identifying more than 48.5 million unique associations that significantly help accelerate the drug discovery process and scientific research (> 29.9m distinct target-disease, 11.8m distinct target-drug and 8.3m distinct disease-drug relationships). The results are made accessible through the Open Targets Platform (https://platform.opentargets.org/) as well as Europe PMC website (SciLite web app) and annotations API (https://europepmc.org/annotationsapi).

Autores: Melissa Harrison, S. Tirunagari, S. Saha, A. Venkatesan, D. Suveges, A. Buniello, D. Ochoa, J. McEntyre, E. McDonagh

Última actualización: 2024-12-17 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.03.06.583722

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.03.06.583722.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares