Neue Methoden in der Evolutionsbiologie: Proteinstrukturen vs. DNA-Sequenzen
Forscher untersuchen Proteinstrukturen, um evolutionäre Beziehungen besser zu verstehen.
Giacomo Mutti, Eduard Ocaña-Pallarès, Toni Gabaldón
― 5 min Lesedauer
Inhaltsverzeichnis
In der Welt der Biologie versuchen Wissenschaftler ständig herauszufinden, wie verschiedene Lebewesen miteinander verwandt sind. Das ist wie das Lösen eines riesigen Stammbaums, aber anstelle von Onkel und Tante geht's um alle möglichen Lebewesen, von winzigen Bakterien bis hin zu grossen Blauwalen. Während die Forscher mehr Informationen über die Genome verschiedener Arten sammeln, können sie kompliziertere Fragen darüber stellen, wie das Leben sich im Laufe der Zeit entwickelt hat. Es gibt jedoch einige Herausforderungen, wenn es darum geht, traditionelle Methoden zur Kartierung dieser Beziehungen zu verwenden, besonders wenn die Organismen sehr unterschiedlich sind.
Die Herausforderungen traditioneller Methoden
Traditionelle Methoden zur Untersuchung der Beziehungen zwischen Arten basieren oft darauf, ihre DNA oder Proteinsequenzen anzuschauen. Diese Sequenzen können zeigen, wie eng verschiedene Arten miteinander verwandt sind. Aber hier kommt der Haken: Wenn die Sequenzen zu unterschiedlich sind, wird es schwer, eine klare Verbindung zu sehen. Es ist wie zu versuchen herauszufinden, ob zwei Gemälde vom selben Künstler sind, wenn das eine ein modernes Stück und das andere ein antikes Meisterwerk ist – ganz schön knifflig, oder?
Um dieses Problem zu umgehen, haben Wissenschaftler angefangen, über den Tellerrand hinauszudenken und in Erwägung gezogen, die Formen von Proteinen anstelle ihrer Sequenzen zu verwenden. Die Idee ist, dass sich Proteinstrukturen langsamer verändern könnten als Sequenzen, was sie potenziell zu besseren Indikatoren dafür macht, wie verschiedene Arten verwandt sind. Allerdings gibt es nicht so viele Proteinstrukturen für grossangelegte Studien, was ein bisschen ein Hindernis darstellt.
Ein Game Changer: AlphaFold2
Dann kam ein echter Game Changer: AlphaFold2. Dieses neue Tool hat es viel einfacher gemacht, Proteinstrukturen vorherzusagen, und hat neue Türen in der Biologieforschung geöffnet. Forscher können jetzt Proteinstrukturen über viele verschiedene Arten hinweg in einem Massstab betrachten, der zuvor für unmöglich gehalten wurde. Mit diesem Fortschritt sind neue Software-Tools erschienen, darunter Foldseek, das Wissenschaftlern hilft, Proteinstrukturen schnell und effektiv auszurichten.
Die Kraft der Proteinstrukturen
Mit dem Aufkommen von Foldseek und ähnlichen Tools schauen sich Forscher an, wie gut sie diese Proteinstrukturen nutzen können, um die Beziehungen zwischen menschlichen Genen und den Genen anderer Arten zu bestimmen. Damit wollen sie ein „Human Phylome“ erstellen, das wie ein Stammbaum ist, der alle verschiedenen Versionen von Genen bei Menschen zeigt und wie sie zu Genen in anderen Lebewesen stehen.
Der Prozess beginnt damit, dass eine Gruppe von verschiedenen eukaryotischen Arten ausgewählt wird, das sind Organismen mit komplexen Zellen. Die Forscher sammeln Proteinstrukturen aus einer speziellen Datenbank und stellen sicher, dass die Strukturen zuverlässig sind, indem sie alle entfernen, die nicht bestimmten Qualitätsstandards entsprechen. Danach vergleichen sie die menschlichen Proteine mit denen der ausgewählten Arten, und zwar sowohl mit traditionellen sequenzbasierten Methoden als auch mit den neuen strukturbasierten Methoden.
Die Ergebnisse verstehen
Bei der Suche nach Übereinstimmungen verwendeten die Forscher zwei Hauptmethoden: BLASTP, das traditionelle Sequenzvergleichstool, und Foldseek, das Proteinstrukturen vergleicht. Überraschenderweise fanden sie heraus, dass nicht alle Übereinstimmungen gleich waren. Nur ein kleiner Teil der Paare, die beide Methoden fanden, war identisch, was auf einen grossen Unterschied in der Funktionsweise der beiden Ansätze hinweist. Während BlastP viele einzigartige Übereinstimmungen fand, entdeckte Foldseek auch interessante Verbindungen in der sogenannten „Twilight Zone“ der genetischen Ähnlichkeit, wo Sequenzen zu unterschiedlich sind, um sie leicht zu vergleichen.
Diese Forschung zeigte, dass Foldseek zwar grossartig darin sein könnte, entfernte Verwandte zu identifizieren, die Sequenzen übersehen, es aber auch scheint, einige etablierte Beziehungen zu übersehen, die BlastP leicht findet. Es ist wie das Finden eines lange verlorenen Cousins in einem fernen Teil der Welt und gleichzeitig zu realisieren, dass man das Familientreffen um die Ecke verpasst hat.
Welche Methode funktioniert besser?
Jetzt, da die Forscher beide Methoden im Einsatz hatten, mussten sie sehen, welche bessere Ergebnisse beim Erstellen von Stammbaum-Diagrammen, den sogenannten Phylogenien, lieferte. Sie verwendeten verschiedene Methoden, um zu bewerten, wie genau ihre Bäume waren, wobei sie Dinge wie die Übereinstimmung mit bekannten Artengruppen betrachteten.
Es stellte sich heraus, dass die sequenzbasierten Methoden in fast allen getesteten Szenarien konstant besser abschnitten als die strukturbasierten. Das deutet darauf hin, dass, während Proteinstrukturen ihre Verwendung haben, DNA-Sequenzen nach wie vor der Schlüssel sind, um evolutionäre Beziehungen genau nachzuvollziehen.
Die Quintessenz
Also, was ist das Fazit? Während die Verwendung von Proteinstrukturen neue Einblicke in die Evolution bietet, überstrahlt sie die traditionellen Methoden noch nicht. Die Erforschung von Proteinstrukturen ist spannend und hat neue Forschungswege eröffnet, aber es scheint, dass es noch Raum für Verbesserungen bei strukturbasierten Methoden gibt.
Ein letzter lustiger Gedanke
Wenn Proteine Menschen auf einer Party wären, wären einige grossartig darin, Kontakte zu knüpfen und Verbindungen herzustellen (wie BlastP). Andere könnten ein bisschen skurril sein und nur mit entfernten Verwandten in Kontakt treten (Hallo, Foldseek). Aber zusammen könnten sie ein fantastisches evolutionäres Familientreffen veranstalten, wenn sie clever spielen!
Originalquelle
Titel: Newly developed structure-based methods do not outperform standard sequence-based methods for large-scale phylogenomics
Zusammenfassung: Recent developments in protein structure prediction have allowed the use of this previously limited source of information at genome-wide scales. It has been proposed that the use of structural information may offer advantages over sequences in phylogenetic reconstruction, due to their slower rate of evolution and direct correlation to function. Here, we examined how recently developed methods for structure-based homology search and tree reconstruction compare to current state-of-the-art sequence-based methods in reconstructing genome-wide collections of gene phylogenies (i.e. phylomes). While structure-based methods can be useful in specific scenarios, we found that their current performance does not justify using the newly developed structured-based methods as a default choice in large-scale phylogenetic studies. On the one hand, the best performing sequence-based tree reconstruction methods still outperform structure-based methods for this task. On the other hand, structure-based homology detection methods provide larger lists of candidate homologs, as previously reported. However, this comes at the expense of missing hits identified by sequence-based methods, as well as providing homolog candidate sets with higher fractions of false positives. These insights help guide the use of structural data in comparative genomics and highlight the need to continue improving structure-based approaches. Our pipeline is fully reproducible and has been implemented in a snakemake workflow. This will facilitate a continuous assessment of future improvements of structure-based tools in the Alphafold era.
Autoren: Giacomo Mutti, Eduard Ocaña-Pallarès, Toni Gabaldón
Letzte Aktualisierung: 2024-12-20 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2024.08.02.606352
Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.08.02.606352.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.