GET: Ein neues Tool zur Transkriptionsregulierung
GET verbessert das Verständnis von Transkriptionsfaktoren in verschiedenen menschlichen Zelltypen.
― 7 min Lesedauer
Inhaltsverzeichnis
- Die Rolle der Transkriptionsfaktoren
- Fortschritte in der Technologie
- Einführung von GET
- Leistung von GET
- Übertragbarkeit von GET
- Vorhersage regulatorischer Elemente
- Identifizierung wichtiger regulatorischer Faktoren
- Einblicke in die Interaktionen von Transkriptionsfaktoren
- Aufbau eines strukturellen Katalogs
- Fallstudie: Die Rolle von PAX5
- Zukünftige Richtungen für GET
- Fazit
- Originalquelle
- Referenz Links
Die Regulierung der Transkription ist ein mega wichtiges Studienfeld, das eine zentrale Rolle in vielen biologischen Prozessen spielt, einschliesslich verschiedener menschlicher Krankheiten wie genetischen Störungen und Krebs. Dieser Prozess beinhaltet eine Gruppe von Proteinen, die Transkriptionsfaktoren genannt werden und mit spezifischen DNA-Regionen interagieren, um die Genexpression zu steuern, also wie Gene ein- oder ausgeschaltet werden. Die Fähigkeit von Zellen, die Genaktivität zu regulieren, ist entscheidend für ihre ordnungsgemässe Funktion.
Die Rolle der Transkriptionsfaktoren
Transkriptionsfaktoren sind Proteine, die an spezifische DNA-Sequenzen binden, um die Transkription von Genen zu regulieren. Sie arbeiten zusammen mit anderen Proteinen, die Co-Aktivatoren und Mediatoren genannt werden, um RNA-Polymerase II, dem Enzym, das RNA aus DNA herstellt, bei ihrer Arbeit zu helfen. Verschiedene Zelltypen haben einzigartige Sätze von regulatorischen Regionen, aber die grundlegenden Wechselwirkungen zwischen Proteinen und DNA bleiben in verschiedenen Zelltypen meist konstant, vorausgesetzt die Umgebungsbedingungen sind gleich.
Trotz eines guten Verständnisses darüber, wie bestimmte Transkriptionsfaktoren funktionieren, konzentrieren wir uns oft auf einzelne Zelltypen. Das macht es schwer zu erkennen, wie verschiedene Transkriptionsfaktoren zusammenarbeiten, um unterschiedliche Muster der Genexpression in verschiedenen Zelltypen zu erzeugen.
Fortschritte in der Technologie
Jüngste Fortschritte in der Sequenzierungstechnologie und im maschinellen Lernen haben Wissenschaftlern geholfen, die Genexpression und nicht-kodierende regulatorische Merkmale in vielen Zelltypen zu betrachten. Traditionelle Methoden haben Einschränkungen, da sie oft nur Vorhersagen basierend auf zuvor trainierten Zelltypen treffen können. Das schränkt ihre Fähigkeit ein, Ergebnisse auf neue Zellen anzuwenden.
Neue Grundmodelle, wie GPT und ESM, zeigen in diesem Bereich vielversprechende Ansätze. Diese Modelle basieren auf einer breiten Datenbasis, was ihnen ermöglicht, allgemeine Muster und Beziehungen über verschiedene biologische Kontexte hinweg zu lernen. Im Bereich der Transkriptionsregulation kann ein Grundmodell helfen, die komplexen Wechselwirkungen zu verstehen und Vorhersagen für spezifische Aufgaben oder Bedingungen anzupassen.
Einführung von GET
Wir stellen den General Expression Transformer (GET) vor, ein Grundmodell, das speziell entwickelt wurde, um die Transkriptionsregulation über 213 menschliche Zelltypen hinweg zu studieren. GET ist hoch effektiv und anpassungsfähig und lernt aus Daten zur Chromatinzugänglichkeit, die Einblicke geben, wie zugänglich bestimmte DNA-Regionen für Transkriptionsfaktoren sind. Das Modell sagt die Genexpression nicht nur in bekannten, sondern auch in unbekannten Zelltypen genau voraus, sondern passt sich auch gut an verschiedene Sequenzierungstechniken an.
GET hat sich als effektiver erwiesen als frühere Modelle, wenn es darum geht, regulatorische Elemente zu identifizieren und die Funktion verschiedener Transkriptionsfaktoren zu verstehen. Durch GET können wir wertvolle Einblicke in fast jedes Gen über mehrere Zelltypen hinweg gewinnen.
Leistung von GET
GET sagt die Genexpression über verschiedene Zelltypen hinweg effektiv voraus und zeigt ein hohes Mass an Genauigkeit, das mit experimentellen Ergebnissen vergleichbar ist. Es hat auch die Fähigkeit demonstriert, Ergebnisse von fetalen Zellen auf erwachsene Zellen zu verallgemeinern, ohne neu trainiert werden zu müssen. Diese Anpassungsfähigkeit macht GET zu einem mächtigen Werkzeug, um gemeinsame regulatorische Mechanismen herauszufinden, die in verschiedenen Lebensphasen relevant sein könnten.
Um die Leistung von GET zu bewerten, haben wir spezifische Zelltypen während des Trainings ausgelassen und festgestellt, dass es die Genexpression trotzdem mit beeindruckender Genauigkeit vorhersagen konnte. Zum Beispiel, als wir die Expression in fetalen Astrozyten vorhersagten, stimmten GETs Vorhersagen eng mit den beobachteten Daten überein.
Übertragbarkeit von GET
Eine der wichtigsten Eigenschaften von GET ist seine Fähigkeit, über verschiedene Datenerzeugungsplattformen hinweg genutzt zu werden. Das bedeutet, dass es erfolgreich die Genexpression aus verschiedenen Datentypen vorhersagen kann, wie etwa Multiome-Sequenzierung von Lymphknoten oder Glioblastomtumorzellen. Das Modell behält seine Vorhersagekraft unabhängig von den Unterschieden in der Datenerfassung.
Durch die Anwendung von GET in verschiedenen experimentellen Setups können Forscher Einblicke in regulatorische Elemente unter neuen und unterschiedlichen Bedingungen erhalten. Das ist besonders nützlich, um zu verstehen, wie diese Elemente in Krebszellen funktionieren, wo die Genregulation oft gestört ist.
Vorhersage regulatorischer Elemente
GET ist auch hervorragend darin, Ausdruck treibende regulatorische Elemente in bisher unbekannten Zelltypen vorherzusagen. Durch eine Methode, die einem massiv parallelen Reporterassay (MPRA) ähnelt, kann GET die regulatorische Aktivität zahlreicher genetischer Sequenzen bewerten, ohne dass es auf diesen speziellen Daten trainiert wurde.
Die Vorhersagen von GET stimmen gut mit experimentellen Ergebnissen überein und bestätigen damit seine Validität und Nützlichkeit bei der Entdeckung regulatorischer Elemente in verschiedenen Kontexten.
Identifizierung wichtiger regulatorischer Faktoren
Die Fähigkeit des Modells, Daten zur Chromatinzugänglichkeit zu analysieren, ermöglicht es, Cis-regulatorische Elemente (CREs) in spezifischen Zelltypen zu identifizieren. Diese Elemente können wertvolle Ziele für weitere Forschungen darstellen, insbesondere um komplexe biologische Prozesse wie die Hämoglobinregulation zu verstehen.
Durch GET konnten Forscher wichtige Transkriptionsfaktoren wie GATA identifizieren, die eine bedeutende Rolle bei der Regulation der fetalen Hämoglobinspiegel spielen. Dieser Identifizierungsprozess ist entscheidend, um zu verstehen und möglicherweise die Genexpression zu manipulieren, um therapeutische Ziele zu erreichen.
Einblicke in die Interaktionen von Transkriptionsfaktoren
GET geht über die blosse Vorhersage der Genexpression hinaus; es bietet auch Einblicke, wie Transkriptionsfaktoren miteinander interagieren. Durch die Analyse von Motiv-Motiv-Interaktionen können Forscher Netzwerke von Transkriptionsfaktoren identifizieren, die innerhalb unterschiedlicher biologischer Kontexte zusammenarbeiten.
Solche Interaktionen können helfen, viele biologische Phänomene zu erklären, einschliesslich wie spezifische Faktoren kooperieren oder konkurrieren, um die Genexpression zu regulieren. Das Verständnis dieser Dynamik kann neue Ziele für die Arzneimittelentwicklung und therapeutische Interventionen aufzeigen.
Aufbau eines strukturellen Katalogs
Mit den Vorhersagen von GET haben Forscher begonnen, einen strukturellen Katalog der Interaktionen von Transkriptionsfaktoren aufzubauen. Dabei geht es darum, die dreidimensionalen Strukturen dieser Proteine und deren Interaktionen miteinander vorherzusagen.
Durch den Einsatz fortschrittlicher Modellierungstechniken wie AlphaFold können Wissenschaftler visualisieren, wie Transkriptionsfaktoren zusammenkommen und Komplexe bilden. Diese strukturellen Informationen sind entscheidend für das Verständnis der biochemischen Grundlagen der Genregulation und wie Veränderungen zu Krankheiten führen können.
Fallstudie: Die Rolle von PAX5
Ein bemerkenswertes Beispiel für die Nützlichkeit von GET ist die Anwendung auf das PAX5-Gen, das im Kontext der akuten lymphoblastischen Leukämie (B-ALL) von B-Zell-Vorläufern bedeutend ist. Dieses Gen wird häufig in verschiedenen Fällen von Leukämie mutiert, und das Verständnis seiner regulatorischen Netzwerke kann Einblicke in die Krankheit bieten.
Durch die Analyse von PAX5 mit GET haben Forscher spezifische Interaktionen von Transkriptionsfaktoren identifiziert, die von Mutationen betroffen sein könnten, wie die G183S-Mutation. Diese Mutation verändert die Bindungsfähigkeit von PAX5 und gibt Aufschluss darüber, wie sie zur Entstehung von Leukämie beitragen könnte.
Zukünftige Richtungen für GET
Obwohl GET bedeutende Fortschritte im Verständnis der Transkriptionsregulation gemacht hat, gibt es Verbesserungsmöglichkeiten. Zum Beispiel verlässt sich das Modell hauptsächlich auf Daten zur Chromatinzugänglichkeit und könnte Schwierigkeiten mit eng verwandten Transkriptionsfaktoren haben, die ähnliche Bindungsmotive aufweisen. Zukünftige Versionen von GET könnten detailliertere biologische Informationen enthalten, wie Daten aus verschiedenen Assays, die das Binding und die Aktivität von Transkriptionsfaktoren messen.
Durch die Erweiterung seiner Fähigkeiten könnte GET Forschern helfen, ein klareres Bild von der Genregulation und den Auswirkungen verschiedener genetischer Varianten auf biologische Prozesse zu bekommen. Das könnte unser Verständnis komplexer Eigenschaften und Störungen erweitern und den Weg für neuartige therapeutische Strategien ebnen.
Fazit
GET stellt einen bedeutenden Fortschritt im Studium der Transkriptionsregulation über eine breite Palette menschlicher Zelltypen dar. Durch die Integration verschiedener Datensätze und den Einsatz ausgeklügelter Modellierungstechniken erreicht GET ein hohes Mass an Genauigkeit bei der Vorhersage der Genexpression. Seine Anpassungsfähigkeit macht es zu einem wertvollen Werkzeug sowohl in der Grundlagenforschung als auch in klinischen Anwendungen.
Während Wissenschaftler weiterhin die Komplexität der Genregulation erforschen, werden Modelle wie GET entscheidend sein, um die komplexen Netzwerke aufzudecken, die steuern, wie Gene in verschiedenen biologischen Kontexten agieren. Die Einblicke, die aus solchen Studien gewonnen werden, haben das Potenzial, die Bereiche der Genetik, Genomik und der personalisierten Medizin voranzutreiben.
Titel: GET: a foundation model of transcription across human cell types
Zusammenfassung: Transcriptional regulation, involving the complex interplay between regulatory sequences and proteins, directs all biological processes. Computational models of transcription lack generalizability to accurately extrapolate in unseen cell types and conditions. Here, we introduce GET, an interpretable foundation model designed to uncover regulatory grammars across 213 human fetal and adult cell types. Relying exclusively on chromatin accessibility data and sequence information, GET achieves experimental-level accuracy in predicting gene expression even in previously unseen cell types. GET showcases remarkable adaptability across new sequencing platforms and assays, enabling regulatory inference across a broad range of cell types and conditions, and uncovering universal and cell type specific transcription factor interaction networks. We evaluated its performance on prediction of regulatory activity, inference of regulatory elements and regulators, and identification of physical interactions between transcription factors. Specifically, we show GET outperforms current models in predicting lentivirus-based massive parallel reporter assay readout with reduced input data. In fetal erythroblasts, we identify distal (>1Mbp) regulatory regions that were missed by previous models. In B cells, we identified a lymphocyte-specific transcription factor-transcription factor interaction that explains the functional significance of a leukemia-risk predisposing germline mutation. In sum, we provide a generalizable and accurate model for transcription together with catalogs of gene regulation and transcription factor interactions, all with cell type specificity.
Autoren: Raul Rabadan, X. Fu, S. Mo, A. Buendia, A. Laurent, A. Shao, M. d. M. Alvares-Torres, T. Yu, J. Tan, J. Su, R. Sagatelian, A. A. Ferrando, A. Ciccia, Y. Lan, D. M. Owens, T. Palomero, E. P. Xing
Letzte Aktualisierung: 2024-07-03 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2023.09.24.559168
Quell-PDF: https://www.biorxiv.org/content/10.1101/2023.09.24.559168.full.pdf
Lizenz: https://creativecommons.org/licenses/by-nc/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.