Verbesserung der Vorhersagen zur Genexpression mit Performer
Ein neues Modell verbessert die Vorhersagen, indem es auf grossen genetischen Datensätzen trainiert.
― 7 min Lesedauer
Inhaltsverzeichnis
- Der Bedarf an Verbesserungen
- Was ist Performer?
- Wie Performer funktioniert
- Ergebnisse des Trainings
- Leistungskennzahlen
- Untersuchung der Varianten-Gewichte
- Beibehaltung funktioneller Signaturen
- Die Rolle seltener Varianten
- Identifizierung von Treiber-Varianten
- Multi-Gen-Training
- Exploration verschiedener Architekturen
- Fazit
- Einschränkungen von Performer
- Vorschläge für zukünftige Forschung
- Originalquelle
- Referenz Links
Deep Learning und lineare Modelle sind zwei verschiedene Wege, um Daten zu analysieren, besonders in der Genetik. Jedes hat seine Stärken und Schwächen. Lineare Modelle sind gut darin, eine Reihe genetischer Informationen zu nehmen und herauszufinden, wie sie mit der Expression eines einzelnen Gens in einer Gruppe von Menschen zusammenhängt. Allerdings haben sie Schwierigkeiten, mit neuen Genen oder genetischen Varianten, die weniger häufig sind, umzugehen. Deep Learning-Modelle hingegen nutzen ein Referenzgenom, um Vorhersagen darüber zu treffen, wie Gene in verschiedenen Geweben exprimiert werden. Sie haben gezeigt, dass sie Gene vorschlagen können, die für bestimmte Eigenschaften oder Krankheiten wichtig sein könnten. Doch auch sie haben Einschränkungen, wie zum Beispiel, dass sie nicht erklären können, warum die Expression zwischen Individuen variiert.
Der Bedarf an Verbesserungen
Um besser zu verstehen, wie neuronale Netzwerke die Genexpression vorhersagen können, müssen wir sie an grösseren Gruppen von Individuen testen. Frühere Studien, die weniger Menschen einbezogen haben, konnten ihre Effektivität nicht richtig bewerten. Um das anzugehen, haben wir eine Methode namens Performer entwickelt, die ein Deep Learning-Modell verfeinert, um seine Vorhersagen zu verbessern, indem es über viele Individuen trainiert wird.
Was ist Performer?
Performer verändert eine bestehende Deep Learning-Architektur namens Enformer. Anstatt die Genexpression über eine breite genetische Palette vorherzusagen, konzentriert es sich darauf, spezifische Expressionslevel zu prognostizieren, die mit einzelnen Genen verbunden sind. Diese Änderung ermöglicht es, nützliches Wissen von Enformer beizubehalten und gleichzeitig die Fähigkeit zu verbessern, mit den Variationen in der Genexpression umzugehen, die zwischen Individuen auftreten.
Wie Performer funktioniert
Um Performer zu testen, haben wir es mit genetischen Daten und Genexpressionsinformationen aus einer grossen Studie trainiert. Wir haben mit Blutproben von 670 Individuen begonnen, um eine solide Basis für unser Training zu bilden. Dann haben wir etwa 300 Gene ausgewählt, von denen bekannt war, dass sie je nach genetischer Veranlagung unterschiedlich exprimiert werden. Für jede Person in unserer Studie haben wir eine genetische Sequenz erstellt, die den Ausgangspunkt des Gens abdeckt, und diese mit den Expressionsdaten der Person kombiniert.
Ergebnisse des Trainings
Um Performer zu bewerten, haben wir seine Vorhersagen zur Genexpression mit denen des ursprünglichen Enformer-Modells und eines standardisierten linearen Modells verglichen. Wir haben uns angeschaut, wie gut jedes Modell die Expressionslevel für Individuen vorhersagen konnte, die nicht in der Trainingsgruppe enthalten waren. Die Ergebnisse deuteten darauf hin, dass Performer Enformer durchweg übertraf, besonders bei Genen mit höheren Variationen in der Expression.
Leistungskennzahlen
Um zu messen, wie gut jedes Modell abgeschnitten hat, haben wir zwei Hauptstatistiken verwendet: den Determinationskoeffizienten (R2) und den Pearson-Korrelationskoeffizienten (PCC). Diese Kennzahlen helfen uns zu verstehen, wie viel von der Variation in der Genexpression unsere Modelle erklären konnten. Die Ergebnisse zeigten, dass Performer die Unterschiede in der Genexpression viel besser erfassen konnte als Enformer und bei vielen Genen mit dem linearen Modell gleichauf oder leicht besser war.
Untersuchung der Varianten-Gewichte
Als nächstes haben wir die hochbewerteten Varianten untersucht, die von jedem Modell identifiziert wurden. Hochbewertete Varianten sind genetische Veränderungen, die mit signifikanten Expressionslevels eines Gens verbunden sind. Während das lineare Modell diese Varianten über die gesamte genetische Sequenz verteilte, fanden Performer und Enformer oft heraus, dass sie näher am Ausgangspunkt des Gens lagen. Das deutet darauf hin, dass Performer das Training über Individuen effektiv nutzt, um Varianten, die mit der Genexpression verknüpft sind, genauer zu identifizieren.
Beibehaltung funktioneller Signaturen
Eine interessante Erkenntnis war, dass Performer ähnliche funktionelle Eigenschaften wie Enformer beibehalten konnte, wenn es um die Identifizierung hochbewerteter Varianten ging. Die Varianten, die mit Expressionsänderungen verknüpft waren, zeigten auch starke Signale in Bezug auf regulatorische Elemente, die die Genaktivität beeinflussen. Das bedeutete, dass Performer die Bedeutung verschiedener Varianten effektiv gewichten konnte, ohne die Fähigkeit zu verlieren, sie mit ihren biologischen Funktionen zu verknüpfen.
Die Rolle seltener Varianten
Da Deep Learning-Modelle oft weniger häufige genetische Varianten höher bewerten, haben wir die minor allele frequencies (MAFs) der hochbewerteten Varianten, die von Performer und dem linearen Modell gefunden wurden, untersucht. Wir fanden heraus, dass die hochbewerteten Varianten von Performer oft niedrigere MAFs hatten im Vergleich zu denen, die vom linearen Modell identifiziert wurden, was darauf hindeutet, dass es die Rolle seltener genetischer Veränderungen in der Variabilität der Expression effektiv adressieren konnte.
Identifizierung von Treiber-Varianten
Um weiter zu untersuchen, wie Performer funktioniert, haben wir für jedes Modell Treiber-Varianten identifiziert. Treiber-Varianten sind solche, die einen signifikanten Einfluss auf die Vorhersagen zur Genexpression haben. Wir haben ein lineares Modell verwendet, um eine kleine Anzahl von Treiber-Varianten für jedes Gen zu finden und diese mit den zuvor identifizierten hochbewerteten Varianten zu vergleichen. Beide Sets behielten funktionelle Eigenschaften bei, was impliziert, dass Performer wichtige Varianten effektiv priorisieren konnte.
Multi-Gen-Training
Wir haben auch getestet, ob das Training von Performer mit mehreren Genen auf einmal seine Leistung verbessern würde. Während das Multi-Gen-Training gute Ergebnisse zeigte, übertraf es die Modelle für einzelne Gene nicht signifikant. Die Modelle, die auf mehreren Genen trainiert wurden, erklärten eine ähnliche Menge an Variabilität bei ungesehenen Genen, waren aber immer noch weniger effektiv als Modelle, die speziell auf einzelne Gene trainiert wurden.
Exploration verschiedener Architekturen
Als nächstes haben wir ein anderes Modell namens Borzoi ausprobiert, das längere genetische Sequenzen verarbeiten kann. Als wir Borzoi für diese Aufgabe verfeinerten, schnitt es vergleichbar mit Performer ab. Allerdings hatten beide Modelle manchmal Schwierigkeiten, die Variabilität der Genexpression genau zu erfassen, besonders an verschiedenen genomischen Standorten. Das weist auf den Bedarf an fortlaufender Verfeinerung in den Trainingsansätzen und Modell-Designs hin.
Fazit
Unsere Forschung zeigt, dass das Training von Deep Learning-Modellen mit personalisierten genetischen Daten ihre Fähigkeit, Unterschiede in der Genexpression zwischen Individuen vorherzusagen, erheblich verbessert. Performer behält wertvolles Wissen aus früheren Modellen bei und verbessert gleichzeitig deren Vorhersagefähigkeiten. Unsere Forschung hebt die Bedeutung des trainingsübergreifenden Ansatzes für eine genaue Modellierung der Genexpression hervor. Zukünftige Studien sollten darauf abzielen, zusätzliche genetische Veränderungen über Einzel-Nukleotid-Varianten hinaus einzubeziehen, um die Leistung weiter zu verbessern und das volle Potenzial von Deep Learning in der Genetik zu erkunden.
Einschränkungen von Performer
Trotz der vielversprechenden Ergebnisse hat Performer seine Einschränkungen. Es konzentriert sich hauptsächlich auf die genetischen Aspekte der Variabilität der Genexpression und schneidet bei Genen mit geringer Erblichkeit nicht besonders gut ab. Ausserdem haben wir nur einzelne Nukleotid-Varianten analysiert, was bedeutet, dass zukünftige Bemühungen auch andere Arten genetischer Veränderungen, wie Insertionen und Deletionen, einbeziehen sollten. Obwohl es für spezifische Aufgaben gut abschneidet, hat es immer noch Verbesserungspotenzial und übertrifft bestehende Methoden nicht in jedem Aspekt.
Vorschläge für zukünftige Forschung
Um das Potenzial von Sequenz-zu-Expression-Modellen vollständig auszuschöpfen, könnte zukünftige Forschung von Trainingsstrategien profitieren, die die stärksten eQTL-Signale berücksichtigen, möglicherweise indem man sie maskiert, um das Modell zu ermutigen, andere Muster zu lernen. Die Kombination von Daten aus verschiedenen Quellen, wie Hochdurchsatz-Experimenten, könnte ebenfalls helfen. Neue Modell-Designs und Verlustfunktionen, die besser auf biologische Variabilität eingehen, sind ebenfalls eine weitere Exploration wert. Insgesamt verbessert die Feinabstimmung genetischer Variationen die Fähigkeit, Ausdrucksunterschiede vorherzusagen, und zeigt das Potenzial von Deep Learning in diesem Bereich.
Titel: Deep-learning prediction of gene expression from personal genomes
Zusammenfassung: Models that predict RNA levels from DNA sequences show tremendous promise for decoding tissue-specific gene regulatory mechanisms1-5, revealing the genetic architecture of traits6-10, and interpreting noncoding genetic variation10,11. Existing methods take two different approaches: 1) associating expression with linear combinations of common genetic variants (training across individuals on single genes)12,13, or 2) learning genome-wide sequence-to-expression rules with neural networks (training across loci using a reference genome)11,14,15. Since limitations of both strategies have been highlighted recently16-20, we sought to combine the sequence context provided by deep learning with the information provided by cross-individual training. We utilized fine-tuning to develop Performer, a model with accuracy approaching the cis-heritability of most genes. Performer prioritizes genetic variants across the allele frequency spectrum that disrupt motifs, fall in annotated regulatory elements, and have functional evidence for modulating gene expression. While obstacles remain in personalized expression prediction, our findings establish deep learning as a viable strategy.
Autoren: Katherine S. Pollard, S. Drusinsky, S. Whalen
Letzte Aktualisierung: 2024-07-27 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2024.07.27.605449
Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.07.27.605449.full.pdf
Lizenz: https://creativecommons.org/licenses/by-nc/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.