Simple Science

最先端の科学をわかりやすく解説

# 生物学# 遺伝学

パフォーマーで遺伝子発現予測を改善する

新しいモデルが大規模な遺伝子データセットでトレーニングして予測を強化する。

― 1 分で読む


次世代遺伝子発現予測次世代遺伝子発現予測タのトレーニングによって予測を向上させるパフォーマーモデルは、拡張された遺伝デー
目次

深層学習と線形モデルは、特に遺伝学においてデータを分析するための二つの異なる方法だ。それぞれに強みと弱みがあるんだ。線形モデルは、遺伝情報のセットを使って、グループ内の一つの遺伝子の発現がどう関連しているかを理解するのが得意だけど、新しい遺伝子やあまり一般的でない遺伝子変異を扱うのが苦手なんだ。一方、深層学習モデルはリファレンスゲノムを使って、さまざまな組織での遺伝子の発現を予測するんだ。特定の特徴や病気に重要な遺伝子を提案する能力を示してきたけど、個人間で発現が変わる理由を説明できないという限界もあるんだ。

改善の必要性

ニューラルネットワークが遺伝子発現を予測する方法をより良く理解するためには、より多くの個人を使ってテストする必要があるんだ。少人数を使った過去の研究は、その効果を正確に評価していなかったからね。それを解決するために、 Performer という方法を作ったんだ。これは、多くの個人を通じてトレーニングして予測を改善するために深層学習モデルを微調整するんだ。

Performer とは?

Performer は Enformer という既存の深層学習アーキテクチャを修正するんだ。遺伝子発現を広範囲に予測するのではなく、個別の遺伝子に結びついた特定の発現レベルを予測することに集中するんだ。この変更によって、Enformer からの有用な知識を保持しながら、個人間での遺伝子発現の変動を扱う能力を向上させたんだ。

Performer の動作

Performer をテストするために、大規模な研究から集めた遺伝データと遺伝子発現情報を使ってトレーニングしたんだ。670人からの血液サンプルを使って、トレーニングの基盤を作ったんだ。そして、遺伝的構成に基づいて異なる発現を示すことが知られている約300の遺伝子を選んだんだ。研究に参加している各人のために、遺伝子のスタートポイントをカバーした遺伝配列を作り、その人の発現データと組み合わせたんだ。

トレーニングの結果

Performer の評価をするために、その予測を元の Enformer モデルと標準の線形モデルの予測と比較したんだ。トレーニングセットに含まれていない個人に対する発現レベルの予測がどれだけうまくいくかを見た結果、Performer は Enformer よりも一貫して優れていて、特に発現の変動が大きい遺伝子を見るとその傾向が強かったんだ。

パフォーマンスメトリクス

各モデルのパフォーマンスを測るために、決定係数 (R2) とピアソン相関係数 (PCC) という二つの主要な統計を使ったんだ。これらのメトリクスは、私たちのモデルが遺伝子発現の変動をどれだけ説明できたかを理解するのに役立つんだ。結果として、Performer は Enformer よりも遺伝子発現の違いを捕えるのがうまく、たくさんの遺伝子に対して線形モデルと同じかそれ以上だったんだ。

バリアントの重みを探る

次に、各モデルが特定したハイスコアのバリアントを調べたんだ。ハイスコアのバリアントは、遺伝子の重要な発現レベルに関連する遺伝的変化なんだ。線形モデルはそれらのバリアントを遺伝配列全体に分散させていたけど、Performer と Enformer はそれらがしばしば遺伝子のスタートポイントに近いことを見つけたんだ。これは、Performer が個人を通じたトレーニングをうまく活用して、遺伝子発現にリンクするバリアントをより正確に特定できることを示唆してるんだ。

機能的特徴の保持

興味深い発見は、Performer がハイスコアのバリアントを特定する際に Enformer と似た機能的特性を保っていたことなんだ。例えば、発現変化に関連するバリアントは、遺伝子活性に影響を与える調節要素に関連する強い信号も示したんだ。これは、Performer が異なるバリアントの重要性を効果的に評価できて、同時にそれを生物学的機能に結びつける能力を失わないことを意味してるんだ。

希少バリアントの役割

深層学習モデルが一般的でない遺伝バリアントに高いスコアをつけることが多いため、Performer と線形モデルが見つけたハイスコアのバリアントのマイナーアレル頻度(MAF)を調べたんだ。Performer のハイスコアのバリアントは、線形モデルが特定したものと比べて MA フィーが低いことが多く見られた。これは、発現の変動における希少な遺伝的変化の役割を効果的に扱えることを示してるんだ。

ドライバーバリアントの特定

Performer の動作をさらに調べるために、各モデルのドライバーバリアントを特定したんだ。ドライバーバリアントは、遺伝子の発現予測に大きな影響を与えるものだ。線形モデルを使って各遺伝子のために少数のドライバーバリアントを見つけ、それを前に見つけたハイスコアのバリアントと比較したんだ。両方のセットは機能的特性を保持していて、Performer が重要なバリアントを優先できることを示してるんだ。

複数遺伝子のトレーニング

Performer を使って複数の遺伝子を同時にトレーニングした場合のパフォーマンスもテストしたんだ。複数遺伝子のトレーニングは良い結果を示したけど、単一遺伝子モデルを大きく上回ることはなかったんだ。複数の遺伝子でトレーニングされたモデルは、見えない遺伝子間の変動を同様に説明したけど、個別の遺伝子に特化してトレーニングされたモデルよりも効果的ではなかったんだ。

異なるアーキテクチャの探求

次に、長い遺伝配列を扱える Borzoi という別のモデルを試してみたんだ。このタスクのために Borzoi を微調整したら、Performer と同等のパフォーマンスを示したんだ。しかし、どちらのモデルも時々遺伝子発現の変動を正確に捉えるのに苦労していて、特に異なるゲノムの位置ではそれが顕著だったんだ。これはトレーニングアプローチやモデルデザインのさらなる洗練が必要であることを示してるんだ。

結論

私たちの研究は、パーソナライズされた遺伝データで深層学習モデルをトレーニングすることで、個人間の遺伝子発現の違いを予測する能力が大幅に向上することを示してるんだ。Performer は以前のモデルからの貴重な知識を保持しながら、予測能力も向上してるんだ。研究は、正確な遺伝子発現モデリングのために個人間のトレーニングの重要性を強調しているんだ。将来の研究では、単一ヌクレオチドバリアントだけでなく他の遺伝的変化も取り入れて、パフォーマンスをさらに向上させて、深層学習の可能性を探求するべきなんだ。

Performer の限界

期待が持てる結果にもかかわらず、Performer には限界があるんだ。主に遺伝子発現の変動の遺伝的側面に焦点を当てていて、遺伝率が低い遺伝子に対しては優れたパフォーマンスを示さないんだ。また、単一ヌクレオチドバリアントだけを分析したから、将来的には挿入や欠失など他のタイプの遺伝的変化を含めるべきなんだ。特定のタスクにはうまく機能するけど、すべての側面で既存の方法を上回るわけじゃないんだ。

将来の研究への提案

シーケンスから発現モデルの可能性を最大限に引き出すために、将来の研究では最も強力な eQTL 信号を考慮したトレーニング戦略が役立つかもしれない。モデルが他のパターンを学ぶことを促すために、それらをマスキングするのもいいかもしれない。さまざまなソースからのデータを組み合わせることで、高スループット実験などが役立つかも。生物学的変動により良く対応するための新しいモデルデザインや損失関数の探求も重要だ。全体として、遺伝的変動を微調整することで発現の違いを予測する能力が向上し、この分野における深層学習の可能性が示されているんだ。

オリジナルソース

タイトル: Deep-learning prediction of gene expression from personal genomes

概要: Models that predict RNA levels from DNA sequences show tremendous promise for decoding tissue-specific gene regulatory mechanisms1-5, revealing the genetic architecture of traits6-10, and interpreting noncoding genetic variation10,11. Existing methods take two different approaches: 1) associating expression with linear combinations of common genetic variants (training across individuals on single genes)12,13, or 2) learning genome-wide sequence-to-expression rules with neural networks (training across loci using a reference genome)11,14,15. Since limitations of both strategies have been highlighted recently16-20, we sought to combine the sequence context provided by deep learning with the information provided by cross-individual training. We utilized fine-tuning to develop Performer, a model with accuracy approaching the cis-heritability of most genes. Performer prioritizes genetic variants across the allele frequency spectrum that disrupt motifs, fall in annotated regulatory elements, and have functional evidence for modulating gene expression. While obstacles remain in personalized expression prediction, our findings establish deep learning as a viable strategy.

著者: Katherine S. Pollard, S. Drusinsky, S. Whalen

最終更新: 2024-07-27 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.07.27.605449

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.07.27.605449.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事