遺伝子変異と適応度に関する新しい知見
D-LIMモデルは、遺伝子変異、特性、フィットネスを結びつけて、予測を改善するんだ。
― 1 分で読む
遺伝子の変異は、生物が環境にどれだけ適応できるかに影響を与える。遺伝子が変異すると、まず特定の特性に影響が出て、例えば特定のタンパク質の安定性が変わる。この変更は、遺伝子やタンパク質の複雑なネットワーク内で相互作用し、最終的には生物の適応度、つまり生存や繁殖能力に影響を与える。科学者たちは、こうした変異が適応度にどう影響するかを、大規模な実験「深い変異スキャン」を通じて研究することが多い。これらの研究では、科学者が遺伝子に変異を加えて、その適応度にどう影響するかを測定する。DNA編集やシーケンシングの進歩のおかげで、研究者はこれらの実験から数百万の適応度測定を集められるようになった。遺伝子と適応度の関係を示すマップは、疾患や感染の広がり、薬への耐性の発展を理解するために重要なんだ。
ジェノタイプと適応度のマップ
こうしたジェノタイプから適応度マップの数学モデルは、通常、変異を関数として適応度を表現する。これらのモデルは主に、変異と特性の2つのレベルに焦点を当てている。まず、変異は特定の特性、例えば酵素が基質にどれだけうまく結合するかと関連づけられる。この特性は、生体分子の折りたたみ方や相互作用の仕方によって決まる。残念ながら、研究者はこれらの特性を基本原理だけから予測することはできない。現在の機械学習のアプローチも、変異が生体分子の機能にどう影響するかを信頼性高く予測するのに苦労している。だから、科学者たちは実験データに基づいてこれらの特性を推定することが多い。
特性が推定されたら、科学者は代謝経路や調整ネットワークなど生化学的プロセスの理解に基づいてモデルを選ぶ。例えばある研究では、特定の代謝プロセスで相互作用する2つの遺伝子を分析した。研究者は確立された生化学的原則を用いてモデルを構築し、これらの遺伝子が適応度にどう影響するかを調査した。しかし、適切なモデルを開発し、変異間の相互作用を正確に予測するのは非常に複雑で、これらのパラメータを最適化する明確な方法もないため、似たような研究、特に大規模または理解の少ない遺伝子ネットワークにこのアプローチを適用するのは難しい。
機械学習の役割
機械学習は異なるアプローチを提供する。従来のモデルとは違って、機械学習では科学者が特定の生物学的ルールを持たなくてもモデルを構築できる。ニューラルネットワークなどの現代的な技術は、膨大な実験データを活用して予測精度を高める。ニューラルネットワークは、あらかじめ定義したモデルなしでも変異と適応度の関係を自動的に特定できる。この柔軟性により、機械学習は従来の方法よりも複雑なデータを効率的に扱える。
ただ、機械学習の結果を解釈するのは難しいことがある。線形回帰モデルは理解しやすいけど、変異間の複雑な相互作用を捉えることができない。これが、研究者が機械学習モデルを解釈可能で強力にすることに焦点を当てる理由だ。一つの革新的なアプローチは、ニューラルネットワークが表す情報を制約することだ。この制約が、研究者が変異の特定の変更が適応度の結果にどう関連するかを理解するのを助ける。
別の方法では、MAVE-NNモデルが導入され、科学者が変異と特性の関係の種類を指定できるようになり、モデルの開発がスムーズになる。このシステムにより、研究者は結果をより簡単に解釈できるようになるけど、モデルの次元を実際の生物学的結果に関連づけるのにはまだ課題が残っている。
新しいアプローチ:D-LIM
ここでは、変異が適応度に与える影響を測定したデータから学び、変異、特性、適応度の間の関係を作る新しいフレームワーク「D-LIM」を紹介する。D-LIMモデルは、異なる遺伝子の変異は、関連する特性を決定する際に相互作用しないと仮定している。しかし、これらの特性は適応度との間に非線形の関係で相互作用する可能性がある。このモデルは、遺伝子が特性にどう影響するかについて強い仮定をしているけど、これらの特性が何であるべきかのあらかじめの知識は必要ない。
このモデルの効果をテストするために、研究者たちは遺伝子相互作用に特化したデータセットを分析した。D-LIMモデルは、遺伝子間の相互作用が適応度にどう影響するかを予測するのに非常に高い精度を達成した。特定の仮定をすることで、モデルの構造は研究者が膨大なサンプリングを必要とせずに特性に関する貴重な情報を抽出できるようにしている。結果は、モデルの推測された特性と測定された生物学的特性の間に強い関係があることを示した。
その後、研究者たちはD-LIMモデルがこれまでテストされていない新しい遺伝的相互作用をどれだけ予測できるかを評価した。モデルはこれらの相互作用をうまく特定できたことを示し、モデルによって設定された制約が新しいシナリオへの一般化能力を高めていることを示唆している。
D-LIMのアーキテクチャと動作
D-LIMフレームワークは、変異、特性、適応度の3つのレベルで動作する。特性は、適応度に影響を与える要因として広く定義され、基本的な分子特性や大きな測定可能な特性も含まれる。モデルは、ユーザー定義の変異、遺伝子、特性の間の接続に基づいている。
トレーニングプロセス中、D-LIMは特性値をランダムに初期化し、適応度を予測するために最適化する。このモデルは測定の不確実性を考慮して設計されていて、実験データにうまくフィットできるようになっている。モデルがトレーニングされるにつれて、各変異に関連するさまざまな特性を推測する。これらの推測された特性は、実際の生物学的特性を反映することが理想的であり、適応度との関係をより良く理解できるようにする。
D-LIMは、従来のメカニズムモデルと機械学習の中間に位置する。生物学的モデルの解釈のしやすさを保ちながら、データ駆動型の特長も取り入れている。つまり、研究者は異なる遺伝子が適応度にどう影響するかについて明確な洞察を得つつ、先進的な予測能力を使うことができる。
予測力と性能
研究者たちは、既存のモデル、特に潜在空間に制約がないモデルとD-LIMモデルを比較テストした。D-LIMが適応度や遺伝的相互作用を予測する能力を調べ、他の手法の結果と比較した。D-LIMモデルは最先端のアプローチと同等のパフォーマンスを示し、特性の独立性に制約を課すことが予測能力に大きな妨害を与えないことを示唆している。
さらに、データが少ない状況でもD-LIMの性能が向上し、モデルの堅牢性と実世界の応用での潜在能力が強調された。生物学におけるデータ収集はしばしば限界があるため、貴重な洞察を提供できるモデルを持つことは非常に有益だ。
表現型の推定と外挿
D-LIMでは、変異が特性に影響を与える際に独立に作用するという仮定がなされている。モデルは特性を直接測定することはないけど、推測し、生物学的特性と相関があると仮定している。研究者がD-LIMをテストするためにデータをシミュレートしたとき、推測された特性が真の表現型に近いことが観察され、モデルが重要な生物学的関係を効果的に捉えられることを示した。
D-LIMは、初期データを超えて外挿する可能性も示した。推測された特性と実際に測定された特性の間に数学的関係をフィットさせることで、研究者は測定された表現型データを使って未知の変異の適応度を予測できる。
追加データソースの取り入れ
実験による適応度 screening は、可能な変異の完全な範囲をカバーしないことが多く、データがまばらになるのは生物学的研究でよくある課題だ。これに対処するために、研究者は文献や他の実験からの追加情報を取り入れることができる、たとえその情報が厳密に定量的でなくても。
類似の変異間の関係を捉えた知識グラフを作成することで、研究者はトレーニングプロセスを導く。類似の変異が特定されると、モデルはそれらの推測された特性値を合わせるように学ぶ。このアプローチは、データが少ない状況におけるD-LIMの性能を大幅に向上させ、さまざまなデータ品質に適応するモデルの柔軟性を示した。
結論
D-LIMモデルは、遺伝子の変異、特性、適応度の関係を理解する上での重要な進展を表している。生物学的仮説を機械学習フレームワークに統合することで、モデルは解釈性と予測力のバランスを実現している。研究者はD-LIMを使って、複雑な遺伝データを分析し、個々の変異が適応度にどう影響するかの洞察を得ることができる。
構造化されたアプローチを通じて、D-LIMは進化的適応を理解するのに不可欠な生物学的特性の推定を可能にする。トレーニングデータを超えて外挿する能力は、新しい文脈での遺伝的相互作用を探求するための新しい道を開く。さらに、追加のデータソースを活用できることで、データが限られたシナリオでも研究者が意味のある予測を行うのを助ける。
科学コミュニティが適応度に対する遺伝的影響を理解しようとし続ける中で、D-LIMのようなモデルは重要な役割を果たす。従来のメカニズムモデルと現代の機械学習のギャップを埋めることで、D-LIMは複雑な生物システムのより効果的な分析への道を開いている。この革新的なアプローチは、遺伝的変異と健康、病気、進化に対する影響に対する理解を深めることを促進する。
タイトル: Hypothesis-driven interpretable neural network for interactions between genes
概要: Mechanistic models of genetic interactions are rarely feasible due to a lack of information and computational challenges. Alternatively, machine learning (ML) approaches may predict gene interactions if provided with enough data but they lack interpretability. Here, we propose an ML approach for interpretable genotype-to-fitness mapping, the Direct-Latent Interpretable Model (D-LIM). The neural network is built on a strong hypothesis: mutations in different genes cause independent effects in phenotypes, which then interact via non-linear relationships to determine fitness. D-LIM predicts interpretable genotype-to-fitness maps with state-of-the-art accuracy for gene-to-gene and gene-to-environment perturbations in deep mutational scanning of a metabolic pathway, a protein-protein interaction system, and yeast mutants for environmental adaptation. The hypothesis-driven structure of D-LIM offers interpretable features reminiscent of mechanistic models: the inference of phenotypes, identification of trade-offs, and fitness extrapolation outside of the data domain.
著者: Vaitea Opuu, S. Wang, A. Allauzen, P. Nghe
最終更新: 2024-09-19 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.04.09.588719
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.04.09.588719.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。