Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Biologie# Genetik

Neue Modelle zur Vorhersage genetischer Krankheitsmechanismen

Fortgeschrittene Modelle helfen dabei, genetische Variationen zu identifizieren, die mit Krankheitsprozessen verbunden sind.

― 8 min Lesedauer


GenetischeGenetischeKrankheitsvorhersageentfesseltvon krankheitsbezogenen Genmutationen.Neue Modelle verbessern die Vorhersage
Inhaltsverzeichnis

Genetische Krankheiten sind Krankheiten, die durch Veränderungen in Genen verursacht werden. Diese Veränderungen können beeinflussen, wie Proteine in unserem Körper funktionieren. Proteine sind wichtig für verschiedene Funktionen, und wenn sie nicht richtig arbeiten, kann das zu Gesundheitsproblemen führen.

Eine Art, wie diese Genveränderungen, die Mutationen genannt werden, Probleme verursachen können, ist, indem sie dazu führen, dass ein Protein seine Funktion verliert. Das nennt man Funktionsverlust (LOF). Manchmal kann die Mutation sogar verhindern, dass das Protein überhaupt hergestellt wird, oder sie kann eine Version des Proteins schaffen, die nicht richtig funktioniert. Wenn das passiert, entstehen viele genetische Krankheiten. Die meisten rezessiven Störungen beinhalten LOF-Mutationen. Rezessive Störungen benötigen zwei Kopien des mutierten Gens, damit die Krankheit auftritt, während dominante Störungen auch mit nur einer mutierten Genkopie auftreten können.

In manchen Fällen kann die verbleibende funktionsfähige Kopie des Gens den Verlust durch die Mutation nicht ausgleichen. Diese Situation nennt man Haploinsuffizienz, und sie kann zu dominanten Krankheiten führen. Andererseits werden manche dominante Krankheiten durch andere Mechanismen verursacht, die nicht nur auf LOF beruhen. Zu diesen Mechanismen gehören Funktionsgewinn (GOF), bei dem die Mutation eine neue oder veränderte Funktion im Protein schafft, oder dominante-negative (DN) Effekte, bei denen das mutierte Protein mit dem normalen interferiert.

Zu verstehen, wie diese Mutationen Proteine beeinflussen, kann echt hilfreich sein, um genetische Störungen besser zu diagnostizieren und zu behandeln. In den letzten Jahren hat sich die Technologie verbessert, sodass Wissenschaftler viele Varianten gleichzeitig studieren können. Neue Methoden, wie das tiefe mutationsbasierte Scannen, werden genutzt, um besser zu verstehen, wie spezifische Veränderungen in Genen die Proteinfunktionen beeinflussen.

Verschiedene Mechanismen genetischer Krankheiten

Dominante genetische Krankheiten können durch verschiedene molekulare Mechanismen verursacht werden. Zum Beispiel kann eine Herzerkrankung namens Kardiomyopathie von Genmutationen beeinflusst werden, die sowohl LOF- als auch DN-Effekte hervorrufen. Das bedeutet, dass eine Mutation dazu führen kann, dass ein Protein sowohl die Funktion verliert als auch die normale Proteinaktivität stört.

Obwohl jede Mutation in einem Gen normalerweise einen Haupt-Effekt hat, hat die Forschung gezeigt, dass viele Gene dazu neigen, spezifische Mechanismen häufiger zu zeigen als andere. Dieser Einblick hat zur Identifizierung von Merkmalen geführt, die mit nicht-LOF-Proteinen verbunden sind. Allerdings haben die aktuellen Werkzeuge zur Vorhersage, wie genetische Varianten Proteine beeinflussen, Schwierigkeiten, nicht-LOF-Varianten genau zu identifizieren.

Es ist entscheidend, diese Vorhersagewerkzeuge zu verbessern, da wir möglicherweise wichtige Varianten übersehen könnten, weil wir ihre Effekte nicht genau vorhersagen können. Ein Modell, das molekulare Mechanismen vorhersagt, könnte helfen, Gene zu finden, bei denen bestehende Werkzeuge versagen könnten, und somit verhindern, dass wertvolle Informationen übersehen werden.

In früheren Arbeiten wurde ein einfaches Modell erstellt, um Gene, die wahrscheinlich mit nicht-LOF-Mechanismen verbunden sind, zu identifizieren. Die ersten Vorhersagen waren jedoch aufgrund unvollständiger Informationen über die strukturellen und funktionalen Merkmale der Proteine begrenzt, insbesondere da sie auf detaillierten strukturellen Daten basierten, die nicht immer verfügbar sind. Zudem wurden DN- und GOF-Mechanismen, die ähnliche Eigenschaften aufweisen, in eine Kategorie zusammengefasst, was die Vorhersagen weniger präzise machte.

Verbesserung der Vorhersagemodelle

Um diese Herausforderungen anzugehen, wurden drei separate Vorhersagemodelle unter Verwendung fortgeschrittener statistischer Techniken erstellt. Jedes Modell konzentriert sich darauf, zwischen verschiedenen Klassen molekularer Mechanismen zu unterscheiden, speziell LOF versus nicht-LOF, DN versus LOF und GOF versus LOF. Dadurch maximieren sie die Menge an Informationen, die für das Training verwendet wird, und ermöglichen eine flexible Klassifizierung.

Die Analyse von Proteinen, die mit Krankheiten verbunden sind, zeigt, dass diese vorhergesagten Mechanismen mit bekannten Merkmalen der zugrunde liegenden Prozesse übereinstimmen. Das deutet stark darauf hin, dass der neue Modellansatz nützlich ist.

Um der breiteren Gemeinschaft zu helfen, genetische Varianten zu verstehen, wurden Vorhersagen für alle menschlichen protein-codierenden Gene verfügbar gemacht. Diese Vorhersagen können helfen, den wahrscheinlichen Mechanismus einer Variante in dominanten Genen zu identifizieren, die zuvor mit keinem bekannten Prozess in Verbindung standen. Ausserdem können sie Forschern dabei helfen, Gene für Laborstudien zu priorisieren und die Merkmale zu untersuchen, die mit diesen Mechanismen verbunden sind.

Werkzeuge und Techniken, die in der Studie verwendet wurden

In diesem Projekt wurden verschiedene Werkzeuge und Datenbanken genutzt, um Daten zu sammeln und zu analysieren. Die Studie stützte sich auf von AlphaFold vorhergesagte Proteinstrukturen, die Einblicke in die Strukturen menschlicher Proteine lieferten. Berechnungen von Eigenschaften wie Oberfläche und Proteinstabilität wurden unter Verwendung spezieller Software-Tools durchgeführt.

Um die Vorhersagemodelle zu erstellen, wurden mehrere wichtige Messungen von den Proteinen genommen, einschliesslich Merkmale, die auf ihre potenzielle Funktion und Interaktionen mit anderen Proteinen hinweisen. Diese Merkmale wurden sowohl aus experimentellen Daten als auch aus Vorhersagen, die von verschiedenen computergestützten Methoden gemacht wurden, abgeleitet.

Maschinenlerntechniken wurden dann angewendet, um Klassifizierer zu erstellen. Diese Klassifizierer lernten aus den Trainingsdaten, um Vorhersagen über neue Daten zu treffen und die Wahrscheinlichkeit zu bewerten, dass eine gegebene Mutation zu einem dominanten molekularen Mechanismus im Kontext genetischer Krankheiten führt.

Modellentwicklung und Datenverarbeitung

Die Verwendung von drei binären Klassifizierern anstelle eines einzigen Mehrklassenmodells verbesserte die Vorhersagen erheblich. Wenn ein einzelnes Modell verwendet worden wäre, hätte es zu viele Klassen behandeln müssen, was nicht gut funktioniert hätte aufgrund der begrenzten Fallzahlen für bestimmte Kombinationen.

In der Trainingsphase wurde die Datenverarbeitung so durchgeführt, dass sie normalisiert wurde und alle fehlenden Werte berücksichtigt wurden. Das beinhaltete das Entfernen hoch korrelierter Merkmale, die die Ergebnisse verzerren könnten. Durch die Erstellung eines nicht-redundanten Datensatzes von Proteinen, die nicht viele Sequenzähnlichkeiten aufwiesen, konnten die Forscher die einzigartigen Eigenschaften, die mit jedem molekularen Mechanismus verbunden sind, besser analysieren.

Evaluierung der Modelle

Die Leistung dieser Modelle wurde sorgfältig unter Verwendung verschiedener Metriken bewertet. Ein Prozess, der als Kreuzvalidierung bekannt ist, wurde verwendet, um sicherzustellen, dass die Modelle nicht überangepasst waren, was bedeutet, dass sie nicht nur gut auf den Trainingsdaten abschneiden, sondern auch effektiv auf neue, unbekannte Daten verallgemeinern.

Die Fähigkeit der Klassifizierer, genaue Vorhersagen zu treffen, wurde mithilfe spezifischer statistischer Tests gemessen. Die Forscher berechneten verschiedene Leistungsmetriken, wie die Fläche unter der ROC-Kurve (AUROC), um zu bewerten, wie gut jedes Modell darin war, zwischen den verschiedenen Mechanismen zu unterscheiden.

Die Modelle wurden daraufhin verglichen, wie konsistent sie genaue Vorhersagen über verschiedene Testsets hinweg getroffen haben, und ihre Vorhersagen wurden mit bekannten klinischen Daten verglichen.

Ergebnisse und Erkenntnisse

Die Modelle sagten erfolgreich die Merkmale von Proteinen in den verschiedenen molekularen Mechanismen voraus. Die Analysen zeigten, dass Mutationen in Proteinen mit DN- oder GOF-Funktionen oft weniger schädlich waren als solche in LOF-Proteinen. Das passt zur Idee, dass LOF-Mutationen normalerweise zu Destabilisierung führen, während GOF-Mutationen dazu neigen, Funktionen anzupassen, ohne schwerwiegende Schäden zu verursachen.

Die Modelle wurden weiter getestet, um zu sehen, wie gut sie die Clusterbildung pathogener Mutationen innerhalb der Proteinstrukturen vorhersagen konnten. Die Ergebnisse deuteten darauf hin, dass Proteine, die als DN oder GOF klassifiziert wurden, eine höhere Clusterbildung von Mutationen aufwiesen als LOF-Proteine. Diese Beobachtung unterstützt die Vorstellung, dass LOF-Mutationen weiter in der Proteinstruktur verteilt sind, während Mutationen, die mit nicht-LOF-Mechanismen verbunden sind, eher in funktionalen Regionen konzentriert sind.

Darüber hinaus zeigte die Analyse, dass die aktuellen Vorhersagewerkzeuge Schwierigkeiten haben, pathogene Missense-Mutationen, die mit DN- oder GOF-Proteinen verbunden sind, genau vorherzusagen. Diese Ergebnisse weisen klar auf die Notwendigkeit neuer Methoden hin, die Missense-Varianten in nicht-LOF-Kontexten besser interpretieren können.

Funktionale Bewertung von Proteinen

Um die Vorhersagen der Modelle weiter zu validieren, untersuchten die Forscher die molekularen Funktionen, die mit Proteinen, die als DN oder GOF klassifiziert wurden, verbunden sind. Die funktionale Analyse zeigte, dass Proteine mit DN-Eigenschaften oft Funktionen teilen, die mit ihrer Fähigkeit zusammenhängen, normale Proteininteraktionen zu stören, und so das Verständnis dafür verbessern, wie diese Mutationen die Proteinfunktion beeinflussen.

Im Vergleich dazu neigten Proteine mit GOF-Eigenschaften dazu, mit Funktionen in Verbindung gebracht zu werden, die empfindlicher auf Aktivierungsereignisse reagieren. Diese Funktionen beinhalten oft Signal- und Regulierungsrollen in zellulären Prozessen.

Durch die Identifizierung der angereicherten Funktionen, die mit jeder Kategorie verbunden sind, konnten die Forscher besser verstehen, welche breiteren Auswirkungen diese Mutationen auf das Verhalten von Proteinen und die Krankheitsentwicklung haben.

Fazit

Das Projekt hat erfolgreich Vorhersagemodelle erstellt und validiert, um zu verstehen, wie spezifische Mutationen in Genen zu verschiedenen molekularen Krankheitsmechanismen führen können. Durch den Fokus auf LOF-, GOF- und DN-Interaktionen können Wissenschaftler die Auswirkungen genetischer Veränderungen besser voraussehen.

Die Ergebnisse betonen die Notwendigkeit, die Vorhersagen für nicht-LOF-Mechanismen zu verbessern, insbesondere angesichts ihrer Bedeutung in der genetischen Forschung. Diese Modelle bieten einen Rahmen, um genetische Varianten für weitere Studien zu priorisieren und tiefere Einblicke in die molekularen Grundlagen von Krankheiten zu gewinnen.

Während das Wissen über genetische Krankheiten weiter wächst, werden die Erkenntnisse aus dieser Forschung den Weg für genauere Diagnosen und verbesserte therapeutische Strategien ebnen, was letztendlich den Betroffenen von genetischen Störungen zugutekommt.

Originalquelle

Titel: Proteome-scale prediction of molecular mechanisms underlying dominant genetic diseases

Zusammenfassung: Many dominant genetic disorders result from protein-altering mutations, acting primarily through dominant-negative (DN), gain-of-function (GOF), and loss-of-function (LOF) mechanisms. Deciphering the mechanisms by which dominant diseases exert their effects is often experimentally challenging and resource intensive, but is essential for developing appropriate therapeutic approaches. Diseases that arise via a LOF mechanism are more amenable to be treated by conventional gene therapy, whereas DN and GOF mechanisms may require gene editing or targeting by small molecules. Moreover, pathogenic missense mutations that act via DN and GOF mechanisms are more difficult to identify than those that act via LOF using nearly all currently available variant effect predictors. Here, we introduce a tripartite statistical model made up of support vector machine binary classifiers trained to predict whether human protein-coding genes are likely to be associated with DN, GOF, or LOF molecular disease mechanisms. We test the utility of the predictions by examining biologically and clinically meaningful properties known to be associated with the mechanisms. Our results strongly support that the models are able to generalise on unseen data and offer insight into the functional attributes of proteins associated with different mechanisms. We hope that our predictions will serve as a springboard for researchers studying novel variants and those of uncertain clinical significance, guiding variant interpretation strategies and experimental characterisation. Predictions for the human UniProt reference proteome are available at https://osf.io/z4dcp/.

Autoren: Mihaly Badonyi, J. A. Marsh

Letzte Aktualisierung: 2024-01-30 00:00:00

Sprache: English

Quell-URL: https://www.biorxiv.org/content/10.1101/2023.09.08.556798

Quell-PDF: https://www.biorxiv.org/content/10.1101/2023.09.08.556798.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel