Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Biologie# Bioinformatik

Fortschritte in der Molekularen Ersetzung für Proteinstrukturen

Die Studie untersucht den Einfluss von AlphaFold 2 auf die Bestimmung der Proteinstruktur durch Molekulare Ersetzung.

― 6 min Lesedauer


Proteinstruktur mit KIProteinstruktur mit KIgelöstdas Phasenproblem.Proteinmodellierung und Lösungen fürAlphaFold 2 revolutioniert die
Inhaltsverzeichnis

Molekulare Ersetzung (MR) ist ein Verfahren, das dabei hilft, die Struktur grosser Moleküle, wie Proteine, zu bestimmen, indem ein komplexes Problem namens Phasenproblem gelöst wird. Dieses Problem tritt auf, weil es schwierig ist, vollständige Informationen über die Anordnung der Atome in einem Molekül nur aus den Daten zu erhalten, die während der Röntgenkristallographie gesammelt wurden. MR ist zur Haupttechnik geworden, um dieses Problem in der Welt der Makromoleküle zu lösen.

Um MR zu nutzen, suchen Wissenschaftler zunächst nach einem Suchmodell, das dem neuen Proteinstruktur ähnlich ist, die sie untersuchen. Dieses Suchmodell wird dann in die neue Struktur eingefügt, sodass die Forscher die anfänglichen Phasen berechnen können, was zur Erstellung von Elektronendichtemaps führt. Diese Maps dienen als Leitfaden zur Identifizierung der Positionen der Atome im Protein, was eine weitere Verfeinerung und Analyse ermöglicht.

Traditionell wurde das Suchmodell oft aus einem anderen, eng verwandten Protein abgeleitet. Allerdings haben Fortschritte in der strukturellen Bioinformatik neue Techniken eingeführt, um diese Modelle zu verbessern. Dazu gehört die Nutzung kleiner Teile von Proteinen, die durch die Vorhersage ihrer Sekundärstruktur identifiziert wurden, sowie verschiedene Ansätze zur Entdeckung nützlicher Substrukturen in weiter entfernten Proteinen.

Kürzlich haben Methoden des Deep Learnings, insbesondere AlphaFold 2, die Landschaft der MR erheblich verändert. Diese Methoden bieten hochpräzise Vorhersagen der Proteinstruktur, was es viel einfacher macht, das Phasenproblem für viele Zielstrukturen zu lösen, die zuvor als schwierig galten. Oft kann ein unverändertes Modell von AlphaFold 2 als passendes Suchmodell dienen, obwohl die Forscher die Bedeutung der Verfeinerung dieser Modelle erkannt haben, indem sie weniger sichere Abschnitte entfernen, insbesondere bei Multi-Domain-Proteinen.

In dieser Studie liegt der Fokus darauf, herauszufinden, wie gut Suchmodelle von AlphaFold 2 und anderen Methoden kürzlich hinterlegte Strukturen lösen können, die mittels einwellig-anomaler Beugung (SAD) bestimmt wurden. Durch die Analyse einer grösseren Fallanzahl zielt die Studie darauf ab, die Merkmale zu identifizieren, die einige Strukturen leichter oder schwieriger lösbar machen mit MR.

Auswahl der Ziele

Für diese Forschung wurden Proteinstrukturen ausgewählt, die SAD verwendet haben und innerhalb eines bestimmten Zeitrahmens hinterlegt wurden. Insgesamt wurden 408 Fälle analysiert, wobei einige aufgrund der Anwesenheit von modifizierten oder unnatürlichen Aminosäuren ausgeschlossen wurden. Diese Fallanzahl liefert Einblicke in die Arten von Strukturen, die mit den aktuellen Methoden gelöst werden können.

Modellierung und Charakterisierung der Zielsequenzen

Die Zielproteinsequenzen wurden sowohl mit AlphaFold 2 als auch dessen Variante ColabFold modelliert. Während beide Methoden auf ähnlicher Technologie basieren, unterscheiden sie sich darin, wie sie Multiple Sequence Alignments (MSAs) erzeugen, die für effektive Modellierung entscheidend sind. AlphaFold 2 nutzt mehrere etablierte Datenbanken für MSA, während ColabFold eine schnellere Methode einsetzt, die eine effizientere Verarbeitung ermöglicht.

Die Tiefe der MSAs wird durch einen Wert namens Neff gemessen, der die effektive Anzahl der Sequenzen darstellt. Jede Zielstruktur wurde basierend auf ihrer vorhergesagten Sekundärstruktur klassifiziert, was den Forschern hilft zu verstehen, ob das Protein hauptsächlich aus Alpha-Helices, Beta-Faltblättern oder einer Mischung aus beidem besteht.

Verarbeitung von Strukturvorhersagen in Suchmodelle

Die Vorhersagen von AlphaFold 2 werden von Vertrauensschätzungen für jedes Residuum begleitet. Diese Schätzungen werden auf einer Skala ausgedrückt, bei der höhere Werte zuverlässigere Vorhersagen anzeigen. Die Modelle wurden entweder unverändert oder nach dem Entfernen von Bereichen mit niedrigeren Vertrauensniveaus getestet.

Bei einigen Multi-Domain-Proteinen, bei denen die Vorhersagen keine erfolgreichen Ergebnisse lieferten, wurde eine Methode namens Slice’N’Dice verwendet, um die Modelle in separate Struktureinheiten zu splitten. Dieser Ansatz, kombiniert mit verschiedenen Algorithmen, hilft, die Suchmodelle zu verfeinern und die Chancen auf eine erfolgreiche Strukturdeterminierung zu verbessern.

Sekundärstruktur-basierte Suchmodelle

Neben Methoden wie AlphaFold 2 verwendeten Forscher auch andere Techniken für spezifische Ziele, die reich an Alpha-Helices sind. Dazu gehörten Werkzeuge, die für die Verarbeitung idealer Helices oder Ensembles von Helixstrukturen konzipiert wurden, was die Vielseitigkeit verschiedener Modellierungsansätze demonstriert.

Molekulare Ersetzung und Verfeinerung

Der Prozess zur Lösung der Struktur begann mit automatisierten Tests, bei denen die Vorhersagen von AlphaFold 2 und ColabFold in eine Pipeline für MR eingespeist wurden. Diese Pipeline bereitete Suchmodelle vor und liess sie durch einen MR-Algorithmus laufen. Der Erfolg der Lösung wurde anhand von Korrelationskoeffizienten bewertet, die messen, wie gut die platzierten Modelle mit der tatsächlichen Struktur übereinstimmten.

In Fällen, in denen automatisierte Methoden nicht ausreichten, war menschliches Eingreifen nötig. Dies beinhaltete die Nutzung eines cloudbasierten Projekts für eine interaktive Erkundung und Verfeinerung der Suchmodelle.

Ergebnisse aus Strukturlösungen

Erste Tests mit AlphaFold 2-Modellen ergaben eine hohe Erfolgsquote, wobei viele Strukturen direkt gelöst wurden. Die Modelle umfassten eine Reihe von Genauigkeitsstufen, und ein erheblicher Prozentsatz der Fälle erfüllte die Kriterien für eine erfolgreiche Platzierung und anschliessende Verfeinerung.

Die Analyse zeigte auch, dass ColabFold eine leicht andere Erfolgsrate im Vergleich zu AlphaFold 2 hatte. Einige Fälle erforderten die Einbeziehung von Template-Informationen, um die Genauigkeit des Modells zu verbessern. Darüber hinaus zeigten Alternativen wie ESMFold vielversprechende Ergebnisse in Fällen, in denen AlphaFold-Modelle Schwierigkeiten hatten, was das Potenzial verschiedener Modellierungswerkzeuge unterstreicht.

Bedeutung des Domain-Splittings

Multi-Domain-Proteine können Herausforderungen darstellen, da die Informationen über ihre Strukturen möglicherweise nicht so klar sind. Die Studie stellte fest, dass das Teilen grösserer Proteine in kleinere Domänen oft zu besseren Ergebnissen bei der Strukturbestimmung führte. Verschiedene Algorithmen zum Splitten wurden getestet, und in einigen Fällen funktionierte ein Ansatz besser als andere.

Alternative Ansätze

Forscher erkundeten auch andere Software-Optionen für Fälle, in denen traditionelle Methoden versagten. Die Verwendung von ESMFold lieferte nützliche Vorhersagen, die halfen, einige problematische Strukturen zu lösen. Zudem war die Erstellung von Modellen von Proteinkomplexen vorteilhaft für bestimmte hochkomplexe Strukturen, was den Vorteil zeigt, ein umfassenderes Suchmodell zu haben.

Coiled-Coil-Proteine und strukturelle Herausforderungen

Bestimmte Proteinstrukturen, insbesondere solche, die reich an Coiled-Coil-Regionen sind, erwiesen sich als schwieriger erfolgreich zu modellieren. Diese Regionen weisen oft einzigartige Merkmale auf, die aktuelle Vorhersagetools herausfordern. Fälle, in denen traditionelle MR-Techniken nicht ausreichten, verdeutlichen den anhaltenden Bedarf an spezialisierten Ansätzen in diesen Situationen.

Übrige Herausforderungen bei der Strukturbestimmung

Trotz der Fortschritte in der prädiktiven Modellierung bleiben einige Proteine gegen MR-Lösungen resistent. Dies liegt oft an der schlechten Qualität von MSAs, die nicht die notwendige evolutionäre Information für eine genaue Modellierung liefern. Zusätzlich können Proteine mit hohem Helixgehalt oder solche, die Metallionen enthalten, einzigartige Herausforderungen darstellen, die die Bemühungen zur Strukturbestimmung komplizieren.

Zukünftige Richtungen und Fazit

Das Aufkommen von Werkzeugen wie AlphaFold hat die Fähigkeit zur Lösung des Phasenproblems in der Röntgenkristallographie erheblich verbessert. Während die meisten Strukturen jetzt mit diesen modernen Methoden phasiert werden können, gibt es immer noch Fälle, in denen traditionelle experimentelle Phasierungsverfahren möglicherweise notwendig sind.

Die Studie schlägt vor, dass das Verständnis der spezifischen Merkmale schwieriger Ziele helfen kann, Fälle für experimentelle Ansätze zu priorisieren. Die fortlaufende Erforschung neuer Modellierungstechniken und Algorithmen wird entscheidend sein, um das Feld weiter voranzubringen und die weiterhin bestehenden Einschränkungen bei der Bestimmung der Proteinstruktur anzugehen.

Originalquelle

Titel: In the AlphaFold era, when is experimental phasing of protein crystals still required?

Zusammenfassung: The availability of highly accurate protein structure predictions from AlphaFold 2 (AF2) and similar tools has hugely expanded the applicability of Molecular Replacement (MR) for crystal structure solution. Many structures solve routinely using raw models, structures processed to remove unreliable parts or models split into distinct structural units. There is therefore an open question around how many and which cases still require experimental phasing methods such as single-wavelength anomalous diffraction (SAD). Here we address the question using a large set of PDB deposits that were solved by SAD. A large majority (87%) solve using unedited or minimally edited AF2 predictions. A further 17 (4%) yield straightforwardly to MR after splitting of the AF2 prediction using SliceNDice, although different splitting methods succeed on slightly different sets of cases. We also find that further unique targets can be solved by alternative modelling approaches such as ESMFold (four cases), alternative MR approaches such as ARCIMBOLDO and AMPLE (two cases each), and multimeric model building with AlphaFold-Multimer or UniFold (three cases). Ultimately, only 12 cases, or 3% of the SAD-phased set did not yield to any form of MR tested here, offering valuable hints as to the number and characteristics of cases where experimental phasing remains essential for macromolecular structure solution.

Autoren: Daniel J Rigden, R. Keegan, A. J. Simpkin

Letzte Aktualisierung: 2024-07-22 00:00:00

Sprache: English

Quell-URL: https://www.biorxiv.org/content/10.1101/2024.07.19.604295

Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.07.19.604295.full.pdf

Lizenz: https://creativecommons.org/licenses/by-nc/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel