Neue Methode verbessert die Schätzung der Genbedeutung
Ein neuer Ansatz verbessert die Bewertung der Genwichtigkeit in der Gesundheits- und Krankheitsforschung.
― 9 min Lesedauer
Inhaltsverzeichnis
Die Identifizierung der Rollen spezifischer Gene in der menschlichen Gesundheit und Krankheit ist ein zentrales Ziel in der Genetik. Eine nützliche Methode, um die Bedeutung eines Gens zu messen, ist der Blick darauf, wie stark die Natürliche Selektion darauf einwirkt. Natürliche Selektion arbeitet oft daran, schädliche Mutationen aus einer Population zu eliminieren. Wenn ein Gen also entscheidend für die Gesundheit ist, werden schädliche Veränderungen (genannt Funktionsverlust-Mutationen) in der Population seltener vorkommen. Forscher haben verschiedene Möglichkeiten entwickelt, um dies zu messen und Gene zu finden, die wichtig für Krankheiten und die allgemeine Fitness sind.
Die Untersuchung von Funktionsverlust-Mutationen ist eine Methode, die Forscher verwenden, um zu schätzen, wie sehr die natürliche Selektion ein Gen einschränkt. Wenn ein Gen entscheidend ist, versucht die natürliche Selektion, schädliche Mutationen aus der Population zu entfernen. Forscher haben verschiedene Masse entwickelt, die sich darauf konzentrieren, wie viele dieser Mutationen in einem bestimmten Gen vorkommen. Wenn viele schädliche Mutationen auftreten, kann das darauf hindeuten, dass das Gen wichtig ist.
Eine gängige Methode, dies zu messen, besteht darin, die tatsächliche Anzahl der schädlichen Mutationen in einem Gen mit der Anzahl zu vergleichen, die wir erwarten würden, wenn das Gen keinem Selektionsdruck ausgesetzt wäre. Dieser Vergleich hat zur Schaffung von Metriken wie pLI und LOEUF geführt, die helfen, Gene zu identifizieren, die schädliche Mutationen nicht tolerieren können. Diese Metriken haben jedoch auch ihre Grenzen.
Erstens können diese Masse schwer zu interpretieren sein. Sie zeigen nicht klar, wie sich schädliche Mutationen auf die Fitness auswirken. Der Zusammenhang zwischen diesen Metriken und der natürlichen Selektion kann je nach Stichprobengrösse und anderen technischen Details variieren. Zweitens fehlt ein solides Modell der Populationsgenetik, was es schwierig macht, die Stärke der Selektion für Gene über diese Funktionsverlust-Mutationen hinaus direkt zu vergleichen.
Um diese Mängel anzugehen, konzentriert sich eine Forschung darauf, die Auswirkungen der Fitness für Träger einer Funktionsverlust-Mutation in einem bestimmten Gen zu schätzen. Im Rahmen dieser Forschung wird dieser Einfluss als shet bezeichnet. Die Methode zur Schätzung von shet hat sich verbessert, indem die Auswirkungen zufälliger genetischer Veränderungen über die Zeit hinweg berücksichtigt wurden, die beeinflussen können, wie oft wir Mutationen in der Population sehen.
Eine grosse Herausforderung ist, dass viele Gene unter neutralen Bedingungen nicht genug erwartete Mutationen haben, weil sie kurze kodierende Sequenzen haben. Zum Beispiel wurde beim ersten Auftreten von LOEUF festgestellt, dass es keine verlässliche Bewertung von Genen mit weniger als zehn erwarteten Mutationen durchführen kann, was etwa 25 % der Gene betrifft. Diese Einschränkung betrifft alle bestehenden Metriken und macht sie weniger verlässlich für diese Gruppe von Genen.
Um diese Probleme zu überwinden, wurde ein neuer Ansatz entwickelt, der shet auch für Gene mit wenigen erwarteten Mutationen genau schätzen kann. Diese Methode bewahrt zudem die Klarheit und Verständlichkeit, die früheren Metriken gefehlt haben.
Neue Methode zur Schätzung der Genbedeutung
Die neue Methode bringt zwei Hauptinnovationen mit sich. Die erste ist ein detailliertes Modell der Populationsgenetik, das die Häufigkeiten des Auftretens von Funktionsverlust-Allel untersucht. Frühere Methoden berücksichtigten oft nur die Gesamtzahl der einzigartigen Mutationen und ignorierten, wie häufig diese Mutationen auftraten, was zu einem Verlust nützlicher Informationen führen kann. Einige Mutationen, die als schädlich angesehen werden, könnten tatsächlich die Funktion des Gens nicht stören und sich neutral entwickeln.
Dieser neue Ansatz modelliert die Häufigkeiten einzelner Funktionsverlust-Varianten, sodass die Häufigkeitsdaten besser genutzt werden können. Ausserdem wird die Möglichkeit berücksichtigt, dass einige Mutationen fälschlicherweise als schädlich eingestuft wurden. Die Methode verwendet neue computergestützte Techniken, um die Wahrscheinlichkeit des Auftretens einer Variante bei einer bestimmten Häufigkeit genau zu bewerten, ohne auf Simulationen oder Annäherungen angewiesen zu sein.
Die zweite Innovation besteht darin, eine Vielzahl von Genmerkmalen wie Genexpressionsniveaus, Proteinstruktur und evolutionäre Erhaltung zu nutzen, um die Schätzungen für Gene mit wenigen erwarteten Mutationen zu verbessern. Durch die Einbeziehung dieser zusätzlichen Merkmale kann das Modell Informationen zwischen ähnlichen Genen teilen. Dieses Teilen von Daten verbessert die Schätzungen für diese unterversorgten Gene, indem es Daten von ähnlichen Genen nutzt, die vollständigere Mutationsdaten haben.
Kürzlich hat ein weiteres Forschungsprojekt versucht, die Schätzungen zur Genbeschränkung zu verbessern, indem es Merkmale in einem Deep-Learning-Modell verwendet hat. Obwohl dieses Verfahren ebenfalls darauf abzielte, die Schätzungen zu verbessern, kam es nicht mit einem Populationsgenetikrahmen daher, was zu ähnlichen Interpretationsproblemen führte, wie sie bei pLI und LOEUF zu beobachten waren.
Diese neue Methode wurde auf einen beträchtlichen Datensatz von Exom-Sequenzierungen angewandt. Die Ergebnisse zeigten, dass diese neue Schätzung von shet die vorherigen Metriken beim Identifizieren essenzieller und krankheitsbezogener Gene deutlich übertraf. Ausserdem untersuchten die Forscher, wie Genmerkmale mit natürlicher Selektion zusammenhängen. Sie fanden heraus, dass Merkmale wie evolutionäre Erhaltung, Proteinstruktur und Expressionsniveaus in bestimmten Geweben besser prädiktiv für shet waren als Methoden, die sich auf andere genetische Interaktionsmerkmale stützten.
Ergebnisse der neuen Gen-Schätzmethode
Die neue Methode, bekannt als GeneBayes, bietet eine flexible Möglichkeit, die Schätzung von Gen-Eigenschaften über shet hinaus zu verbessern. Die Implementierung dieses Rahmens steht zur Nutzung offen.
Die Verwendung von Daten zu Funktionsverlusten zur Bewertung der Genbedeutung ist komplex, insbesondere für Gene mit weniger erwarteten Mutationen. Die Hypothese war, dass die Einbeziehung weiterer Informationen, die prädiktiv für die Genbeschränkung sein könnten, zu besseren Schätzungen führen würde. Verschiedene Merkmale wie die Genexpression in verschiedenen Geweben und die Proteinstruktur wurden einbezogen. Die Annahme war, dass Gene mit ähnlichen Merkmalen ähnliche Beschränkungsniveaus aufweisen würden.
In der Analyse zeigte ein Histogramm die erwartete Anzahl einzigartiger Mutationen pro Gen. Die Gene, die von der früheren Methode als unbeschränkt eingestuft wurden, wurden rot markiert, während die beschränkten Gene blau waren. Viele Gene hatten weniger als 10 erwartete einzigartige Mutationen, was ein erhebliches Problem für die alten Metriken darstellte.
Der neue Rahmen, GeneBayes, schätzt die Reduktion der Fitness aufgrund von Funktionsverlust-Mutationen und verbessert die früheren Methoden in Bezug auf Robustheit und Interpretierbarkeit. Es zeigt, dass es möglich ist, die Beschränkung zuverlässig zu bewerten, selbst wenn nur begrenzte Mutationsdaten vorliegen.
Die Ergebnisse verdeutlichten, dass GeneBayes ein nuancierteres Verständnis der Genbedeutung ermöglicht. Gene, die zuvor in ihrem potenziellen Einfluss auf die Fitness unterschätzt wurden, wurden nun genau klassifiziert, was zu bedeutenden Einblicken für weitere Forschungen führt.
Genmerkmale und deren Einfluss auf die Schätzung
Die neuen Ergebnisse zeigen, dass die Fitnessauswirkungen von Genmutationen mit verschiedenen Merkmalen verbunden sind. Die Forscher analysierten, wie unterschiedliche Genmerkmale, wie Expressionsniveaus und Erhaltungsraten, shet beeinflussen. Sie unterteilten die Genmerkmale in Kategorien und fanden heraus, dass Beschränkungen im Zusammenhang mit Missense-Mutationen und Expressionsmustern besonders aufschlussreich für die Vorhersage der Fitnessauswirkungen waren.
Die Ausdrucksmerkmale wurden weiter in Untergruppen basierend auf Gewebetypen oder Entwicklungsstadien unterteilt. Besonders erwähnenswert ist, dass Gene, die hauptsächlich im Gehirn oder während der Entwicklung exprimiert werden, als entscheidend für das Verständnis der Selektionsdrucks angesehen wurden.
Insgesamt ergab sich ein grösseres Bild, das zeigt, dass Gene, die zentral in regulatorischen Netzwerken involviert sind und eine komplexere Struktur aufweisen, tendenziell höhere Beschränkungsniveaus zeigen. Das bedeutet, dass solche Gene eher von natürlicher Selektion betroffen sind, was die Bedeutung ihrer Funktionen bestätigt.
Die Bedeutung von shet in der Genforschung
Shet ist eine entscheidende Kennzahl, die unser Verständnis der natürlichen Selektion und ihrer Auswirkungen auf die Genfunktionen verbessert. Ein wesentlicher Vorteil von shet ist, dass es ein klares Mass für die Fitnessreduktion bietet, was den Vergleich von Beschränkungen über verschiedene Studien oder Arten hinweg erleichtert.
Beispielsweise können Forscher durch die Betrachtung der Verteilungen der shet-Werte Gene in unterschiedliche Selektionsdrücke kategorisieren. Gene, die aufgrund von Bedingungen wie Haploinsuffizienz wichtig sind, fallen in eine Kategorie extremer Selektion, was bedeutet, dass der Verlust sogar einer Kopie solcher Gene die Überlebenschancen stark beeinträchtigt. Auf der anderen Seite können einige Gene Mutationen tolerieren, ohne signifikante Auswirkungen auf die Fitness zu haben.
Dieser vergleichende Ansatz ermöglicht es Forschern, Gene hervorzuheben, die eine weitere Untersuchung verdienen, insbesondere solche mit hohen shet-Werten, deren Funktionen noch nicht gut verstanden sind.
Anwendungen der neuen Methode
Der neue Ansatz hat mehrere potenzielle Anwendungen in der genetischen Forschung. Zunächst kann er Studien bereichern, die nach Genen suchen, die mit Krankheiten oder essenziellen Funktionen in Zellen verbunden sind. Durch die Bereitstellung besserer Schätzungen dafür, welche Gene unter Selektionsdruck stehen, hilft er, die zu identifizieren, die wahrscheinlich mit bestimmten Merkmalen oder Bedingungen verbunden sind.
Die Methode eignet sich auch gut zur Identifizierung wichtiger Gene bei entwicklungsbezogenen Störungen und bietet ein detaillierteres Verständnis dafür, wie Genvariationen die Gesundheitsauswirkungen beeinflussen.
Darüber hinaus kann die Methode in andere genetische Studien integriert werden, wie solche, die sich auf komplexe Merkmale oder Reaktionen auf Behandlungen konzentrieren. Während die Forscher ein umfassenderes Bild der Genbedeutung unter Verwendung von shet aufbauen, eröffnet dies auch Wege, die evolutionäre Geschichte von Genen und deren Verbindungen zu Merkmalen über Arten hinweg zu studieren.
Fazit
Die Entwicklung des GeneBayes-Rahmens stellt einen bedeutenden Fortschritt darin dar, wie Forscher die Bedeutung von Genen in Bezug auf ihre Funktionen in Gesundheit und Krankheit abschätzen können. Durch die effektive Integration von Populationsgenetik mit umfangreichen Genmerkmalen bietet dieser Ansatz eine klarere, informativere Sicht darauf, wie die natürliche Selektion die Genfunktionen beeinflusst.
Während wir weiterhin genetische Variationen und deren Implikationen erforschen, wird die shet-Kennzahl und die Methoden, die sie unterstützen, zweifellos eine wesentliche Rolle spielen. Forscher können diese Erkenntnisse nutzen, um Krankheitsmechanismen besser zu verstehen, diagnostische Methoden zu verbessern und Therapien zu zielen, die die komplexen Rollen von Genen in der menschlichen Gesundheit berücksichtigen.
Titel: Bayesian estimation of gene constraint from an evolutionary model with gene features
Zusammenfassung: Measures of selective constraint on genes have been used for many applications including clinical interpretation of rare coding variants, disease gene discovery, and studies of genome evolution. However, widely-used metrics are severely underpowered at detecting constraint for the shortest ~25% of genes, potentially causing important pathogenic mutations to be over-looked. We developed a framework combining a population genetics model with machine learning on gene features to enable accurate inference of an interpretable constraint metric, shet. Our estimates outperform existing metrics for prioritizing genes important for cell essentiality, human disease, and other phenotypes, especially for short genes. Our new estimates of selective constraint should have wide utility for characterizing genes relevant to human disease. Finally, our inference framework, GeneBayes, provides a flexible platform that can improve estimation of many gene-level properties, such as rare variant burden or gene expression differences.
Autoren: Jonathan K Pritchard, T. Zeng, J. P. Spence, H. Mostafavi
Letzte Aktualisierung: 2024-04-10 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2023.05.19.541520
Quell-PDF: https://www.biorxiv.org/content/10.1101/2023.05.19.541520.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.