Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Biologie# Bioinformatik

Fortschritte im Deep Learning Modell bei Studien zur Genregulation

Ein neues Modell verbessert die Identifizierung von genregulatorischen Elementen, die mit Krebs verbunden sind.

― 5 min Lesedauer


Transforming Forschung zuTransforming Forschung zuGenregulationGenstandorten.Identifizierung von krebsbezogenenNeues Modell hilft bei der
Inhaltsverzeichnis

Das Verständnis, wie Gene kontrolliert werden, ist ein wichtiger Teil des Studiums von Gesundheit und Krankheiten. Ein wichtiger Aspekt dieser Kontrolle passiert in nicht kodierenden Teilen der DNA, die als cis-regulatorische Elemente bekannt sind. Diese Elemente dienen oft als Bindungsstellen für Proteine, die Transkriptionsfaktoren (TFs) heissen und helfen, die Genaktivität zu regulieren. Diese Bindungsstellen zu entdecken, kann eine Herausforderung sein, besonders wenn sie weit entfernt von den Genen sind, die sie kontrollieren.

Die Rolle der Transkriptionsfaktoren

Die meisten Bindungsstellen für TFs befinden sich in Regionen der DNA, die Enhancer genannt werden. Diese Enhancer können ziemlich weit von ihren Zielgenen entfernt sein, was die Aufgabe, diese wichtigen Sequenzen zu identifizieren, kompliziert. Einige TFs, wie der CCCTC-bindende Faktor (CTCF), haben einzigartige Funktionen. CTCF kann an die DNA binden und Schleifen bilden, die das Genom organisieren helfen und unerwünschte Interaktionen zwischen verschiedenen Genregionen verhindern. Wenn das CTCF-Binden gestört ist, kann das zu Veränderungen in der Genexpression führen, was bei verschiedenen Krankheiten, einschliesslich Krebs, beobachtet wurde.

Forscher haben herausgefunden, dass abnormale CTCF-Bindungsmuster bei vielen Krebsarten häufig sind. Diese Veränderungen werden oft durch andere onkogene TFs verursacht, die in nahegelegenen Regionen binden. Daher ist das Studieren der Bereiche um CTCF-Bindungsstellen entscheidend, um die Faktoren zu entdecken, die an der Krebsentwicklung beteiligt sind.

Die Herausforderung der Identifikation

Aktuell stossen traditionelle Methoden zur Identifizierung von TF-Bindungsstellen auf Grenzen. Zum Beispiel ist es schwierig, die Beziehung zwischen TF-Bindungsstellen und CTCF-Stellen zu verstehen, besonders da diese Stellen weit auseinanderliegen können. Das enorme Volumen an DNA-Sequenzen, das analysiert werden muss, macht diese Aufgabe noch komplizierter. Versuche, bestimmte DNA-Motive in diesen Regionen zu finden, führen oft nicht zu klaren Ergebnissen, was deutlich macht, dass neue Techniken benötigt werden.

Deep Learning betreten

Techniken des Deep Learning, insbesondere tiefe, konvolutionale neuronale Netzwerke (CNNs), sind beliebte Werkzeuge in der Genomforschung und Krebsforschung geworden. Diese fortschrittlichen Modelle können komplexe Daten analysieren, einschliesslich umfangreicher DNA-Sequenzen, um bedeutungsvolle Muster zu klassifizieren und zu identifizieren. In diesem Kontext haben Forscher eine Methode namens DNAResDualNet (DARDN) entwickelt, um diese Herausforderungen anzugehen.

DARDN nutzt zwei zusammenarbeitende CNN-Modelle sowie Techniken zur Merkmalsentdeckung, um DNA-Sequenzen zu identifizieren, die in krebs-spezifischen Regionen, die mit CTCF-Bindungen verbunden sind, angereichert sind. Dieses Modell ist darauf ausgelegt, ausschliesslich mit DNA-Sequenzdaten zu arbeiten, was das Training und die Anwendung über verschiedene biologische Szenarien hinweg erleichtert.

Daten und Methodologie

Die Studie verwendet genomische Sequenzen aus dem menschlichen Genom und konzentriert sich auf Bereiche, in denen CTCF-Bindungen auftreten. Die Forscher haben spezifische Muster identifiziert, die mit krebsbezogenen CTCF-Bindungen assoziiert sind. Um Ungleichgewichte in den Daten zu bewältigen – wobei einige Datentypen seltener sind als andere – werden Techniken wie Sequenzverschiebung und inverse Komplementierung verwendet. Das hilft sicherzustellen, dass die Modelle effektiv sind, selbst wenn die Daten nicht gleichmässig verteilt sind.

Um die Daten für das Deep-Learning-Modell vorzubereiten, werden die Sequenzen in ein Format (One-Hot-Encoding) umgewandelt, das das CNN interpretieren kann. Jede Sequenz erhält ein Etikett, das angibt, ob sie krebs-spezifisch oder eine normale Bindungsstelle ist. Das DARDN-Modell trainiert dann an diesen etikettierten Sequenzen, um zwischen verschiedenen Arten von CTCF-Stellen zu unterscheiden.

Bewertung des Modells

Die Effektivität des DARDN-Modells wird mithilfe eines statistischen Masses, dem Matthews-Korrelationskoeffizienten (MCC), bewertet, der angibt, wie gut das Modell echte von falschen Etiketten vorhersagt. Nebenbei wird eine Motivanalyse durchgeführt, um gemeinsame Muster in den Sequenzen zu identifizieren, die mit bekannten onkogenen Faktoren verbunden sind.

Durch umfangreiche Tests können die Forscher die Fähigkeit von DARDN demonstrieren, wichtige Transkriptionsfaktor-Motive wie RBPJ, die mit T-Zell-Leukämie assoziiert sind, zu identifizieren. Durch die Anwendung des Modells auf Daten aus verschiedenen Krebsarten werden einzigartige Motive, die jeweils mit einem Krebs verbunden sind, sichtbar.

Robustheit und Flexibilität

DARDN wurde unter verschiedenen Bedingungen getestet, um seine Robustheit zu gewährleisten. Änderungen in den Längen der Untersequenzen und der Eingangsequenzen wurden untersucht, um zu sehen, wie sie die Motiventdeckung beeinflussten. Das Modell zeigte auch bei Anpassungen der zugrunde liegenden Daten eine starke Leistung.

Darüber hinaus konnte sich das Modell anpassen, als verschiedene Datenhintergründe verwendet wurden, was seine Vielseitigkeit in verschiedenen Szenarien zeigt. Diese Anpassungsfähigkeit ist entscheidend, da die spezifischen Faktoren, die an der Genregulation beteiligt sind, je nach Krebsart variieren können.

Anwendungen über T-ALL hinaus

Obwohl das Modell ursprünglich auf T-Zell-Leukämie angewendet wurde, ist sein Rahmen anpassbar für andere Krebsarten, einschliesslich akuter myeloischer Leukämie, Brustkrebs, kolorektalem Krebs, Lungenadenokarzinom und Prostatakrebs. Für jede Krebsart identifiziert das Modell angereicherte Sequenzen, die mit CTCF-Bindungen verbunden sind, was darauf hindeutet, dass die Mechanismen, die die Genregulation steuern, sich erheblich zwischen Krebsarten unterscheiden.

Fazit

Das DARDN-Modell stellt einen bedeutenden Fortschritt im Bestreben dar, die regulatorischen Elemente innerhalb unserer Genome zu verstehen. Durch die Kombination von Deep Learning mit Merkmalsentdeckung bietet es ein leistungsstarkes Werkzeug zur Untersuchung der genetischen Regulation, insbesondere im Kontext von Krebs. Zukünftige Anwendungen dieses Modells können unser Verständnis darüber erweitern, wie Gene kontrolliert werden und wie diese Prozesse zur Krankheit beitragen könnten.

Dieser Ansatz bietet nicht nur Einblicke in spezifische Krebsarten, sondern ebnet auch den Weg für breitere Anwendungen in der Genomforschung, wodurch Wissenschaftler verborgene Zusammenhänge innerhalb komplexer biologischer Daten entdecken können. Während die Forschung voranschreitet, könnte DARDN helfen, personalisierte Behandlungsstrategien basierend auf den einzigartigen regulatorischen Merkmalen individueller Tumoren zu entwickeln.

Originalquelle

Titel: DARDN: A deep-learning approach for CTCF binding sequence classification and oncogenic regulatory feature discovery

Zusammenfassung: Characterization of gene regulatory mechanisms in cancer is a key task in cancer genomics. CCCTC-binding factor (CTCF), a DNA binding protein, exhibits specific binding patterns in the genome of cancer cells and has a non-canonical function to facilitate oncogenic transcription programs by cooperating with transcription factors bound at flanking distal regions. Identification of DNA sequence features from a broad genomic region that distinguish cancer-specific CTCF binding sites from regular CTCF binding sites can help find oncogenic transcription factors in a cancer type. However, the long DNA sequences without localization information makes it difficult to perform conventional motif analysis. Here we present DNAResDualNet (DARDN), a computational method that utilizes convolutional neural networks (CNNs) for predicting cancer-specific CTCF binding sites from long DNA sequences and employs DeepLIFT, a method for interpretability of deep learning models that explains the models output in terms of the contributions of its input features [1], for identifying DNA sequence features associated with cancer-specific CTCF binding. Evaluation on DNA sequences associated with CTCF binding sites in T-cell acute lymphoblastic leukemia (T-ALL) and other cancer types demonstrates DARDNs ability in classifying DNA sequences surrounding cancer-specific CTCF binding from control constitutive CTCF binding and identifying sequence motifs for transcription factors potentially active in each specific cancer type. We identified potential oncogenic transcription factors in T-ALL, acute myeloid leukemia (AML), breast cancer (BRCA), colorectal cancer (CRC), lung adenocarcinoma (LUAD), and prostate cancer (PRAD). Our work demonstrates the power of advanced machine learning and feature discovery approach in finding biologically meaningful information from complex high-throughput sequencing data.

Autoren: Hyun Jae Cho, Z. Wang, Y. Cong, S. Bekiranov, A. Zhang, C. Zang

Letzte Aktualisierung: 2024-01-17 00:00:00

Sprache: English

Quell-URL: https://www.biorxiv.org/content/10.1101/2023.11.17.567502

Quell-PDF: https://www.biorxiv.org/content/10.1101/2023.11.17.567502.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel