系統的拡張によるゲノム研究の強化
科学者たちは、ゲノミクスにおいてディープラーニングモデルを改善するために相同配列を使ってるよ。
― 1 分で読む
遺伝学の世界では、遺伝子が異なる状況でどう振る舞うかを理解するのがめっちゃ大事だよね。科学者たちは特に、調節配列と呼ばれるDNAの特定の領域が遺伝子にどう影響するかに興味を持ってる。この調節配列は遺伝子にオンオフを指示したり、タンパク質をどれだけ作るかを教えたり、他にも重要な役割を果たしてるんだ。
ディープラーニングっていうAIの一種が、科学者たちがこれらの遺伝子の振る舞いを予測するのを助けてる。大量のデータでコンピュータモデルをトレーニングすることで、以前は研究が難しかったDNAの側面を分析できるようになるんだ。
ゲノミクスにおけるディープラーニングの役割
ディープラーニングモデルは、DNAの配列がどう振る舞うかを予測するのにめっちゃ役立ってる。特定のDNAの部分がどれだけアクセスしやすいかとか、転写因子と呼ばれるタンパク質がどこに結合するか、エンハンサーがどう動作するかを予測できるんだ。この予測は、モデルを教えるために使ったデータとは別のテストセットで評価される。これによって、モデルが本当に学んでるのか、ただトレーニングデータを覚えてるだけなのかを確認できるんだよね。
さらに重要なのは、これらのディープラーニングモデルがデータの中で生物学的パターンを見つけると、生物学的プロセスについての理解が深まることなんだ。研究では、これらのモデルがDNA配列の中でおなじみのパターンや新しいパターンを特定できることが示されていて、貴重な洞察をもたらしているんだ。
データの入手可能性の課題
でも、効果的なディープラーニングモデルを作るには大量のデータが必要なんだよね。多くの生物、特にあまり研究されていないものには情報が足りない場合が多い。詳細なデータは人間やマウスのようなよく知られた種から来ることがほとんどだから、科学者たちは限られたデータで複雑なモデルを作るのが難しいっていう課題がある。
一つの解決策として、実験室でランダムなDNA配列をテストして、それを実際のゲノム配列と評価することで人工データを生成することが提案されてる。自然のDNA配列にはモデルが必要なすべての情報を教えるには変化が少ないって考えられてるんだ。
データ増強技術
トレーニングデータの量を増やすために、科学者たちはデータ増強と呼ばれる技術をよく使うんだ。このプロセスでは、既存のデータの修正コピーを作るんだ。例えば、画像処理では、研究者が画像を反転させたり、回転させたり、色を変えたりして新しいバージョンを作り出すことができる。
ゲノミクスでは、特別に調整された増強方法はあまりないけど、科学者たちは配列の逆補完を作ったりDNA鎖に沿ってシーケンスをシフトさせたりする技術をよく使ってる。最近では、DNA配列にランダムな変化を加える進化を模倣するような方法がモデルの性能を向上させる可能性があることが示されているんだ。
ホモログ配列の力
ホモログ配列っていうのは、異なる種からのDNA配列で共通の祖先を持ってるやつらのことだよ。見た目は違っても、しばしば似たような生物学的役割を果たしてるんだ。このホモログ配列は機能や進化に関する貴重な情報を提供できるから、研究者たちはこれをトレーニングデータセットを増強する手段として考えてるんだ。
関連する種からのホモログ配列を取り入れることで、科学者たちはトレーニングデータの多様性を高められるかもしれなくて、モデルの性能向上につながる可能性があるんだ。この方法はさまざまな生物学的シナリオで特に効果的だって証明されてる。
系統的増強の仕組み
系統的増強っていうのは、ある種のDNA配列を別の種のホモログに変換することを指すんだ。この技術は、複数種のゲノム整列を利用してトレーニングデータを豊かにするんだ。ホモログをトレーニングシーケンスの増強版として含めることで、モデルはより広範な配列に触れることができるようになるんだよ。
この方法の適用は3つの主要なステップがある。まず、研究者たちは複数種のゲノム整列を使ってトレーニングセットの各DNA配列に対するホモログを特定するんだ。次に、モデルのトレーニングプロセス中にこれらの配列に系統的増強を適用する。最後に、トレーニング後、モデルを元の配列で微調整して精度を向上させ、バイアスを減らすんだ。
系統的増強の利点
系統的増強を使った初期の実験は良い結果を示してる。例えば、Drosophila属の特定の活動を予測するモデルをトレーニングしたとき、系統的増強を使ったモデルが使わなかったモデルよりも性能が良かったんだ。ある例では、密接に関連する種のホモログを含めたときにモデルの性能が大幅に向上したんだ。
さらに、系統的増強は小さいデータセットで作業する時にも役立つんだ。効果的な機械学習のために興味のある領域が不足している場合でも、ホモログ配列でトレーニングデータを増強すると、少ないデータでもモデルの性能が向上する可能性があるんだ。
実世界での応用
科学者たちは系統的増強法を実世界のゲノムデータセットに適用して、その効果をさらにテストしてる。ある研究では、Drosophila S2細胞株のデータを分析して、エンハンサー活動を予測したんだ。彼らは複数のDrosophila種からホモログを抽出して、それをトレーニングデータセットに組み込んだんだよ。
別の分析では、さまざまなヒト細胞株からのバイナリDNase-seqピークを見たんだ。この場合、研究者たちは密接に関連する哺乳類のホモログを使った。系統的増強を使ったときにモデルの予測が著しく改善されたって結果が出たんだ。
さらに、この方法は酵母のRNA結合タンパク質を調べるような小さいデータセットでモデルをトレーニングする際にも役立ったんだ。研究者たちは系統的増強を適用したことで、モデルが関連する生物学的特徴を予測する能力が大幅に向上したって分かったんだ。
ハイパーパラメータの影響を探る
系統的増強の効果を評価するために、研究者たちはハイパーパラメータと呼ばれるさまざまな要素を探求したんだ。彼らが分析した重要な分野の一つは、増強プロセスに含まれる種の数だった。彼らは異なる種でモデルをトレーニングして、予測パフォーマンスの改善を測定したんだ。
また、モデルのトレーニング中に適用される増強の割合が結果にどう影響するかも調べたんだ。初期の発見では、適度な割合で増強を適用した方が、すべてのトレーニングシーケンスに過剰に使用するよりも良い結果をもたらすことが分かった。これは、パフォーマンスを最大化するために必要な最適な増強の量があることを示唆してるんだ。
結論
系統的増強は、ディープラーニングを使ったゲノム研究を進めるための強力なツールを示してる。関連する種からのホモログ配列を利用することで、研究者たちはデータの制限を克服して、予測能力を改善したモデルを作ることができるんだ。
ディープラーニングが遺伝学の理解において重要な役割を果たし続ける中、系統的増強のような方法は、これらのモデルの効率性と効果を大幅に向上させる可能性があるんだよ。
大規模なデータセットがますます可用性が高くなっている時代に、この方法は研究者が重要な生物学的洞察を得るのを助け、最終的には複雑な遺伝メカニズムの理解に貢献するかもしれないんだ。
いろんな生物や実験条件に広く適用できる系統的増強は、ゲノミクスの未来の進展に期待が持てるんだ。
タイトル: Improving the performance of supervised deep learning for regulatory genomics using phylogenetic augmentation
概要: Structured abstractO_ST_ABSMotivationC_ST_ABSSupervised deep learning is used to model the complex relationship between genomic sequence and regulatory function. Understanding how these models make predictions can provide biological insight into regulatory functions. Given the complexity of the sequence to regulatory function mapping (the cis-regulatory code), it has been suggested that the genome contains insufficient sequence variation to train models with suitable complexity. Data augmentation is a widely used approach to increase the data variation available for model training, however current data augmentation methods for genomic sequence data are limited. ResultsInspired by the success of comparative genomics, we show that augmenting genomic sequences with evolutionarily related sequences from other species, which we term phylogenetic augmentation, improves the performance of deep learning models trained on regulatory genomic sequences to predict high-throughput functional assay measurements. Additionally, we show that phylogenetic augmentation can rescue model performance when the training set is down-sampled and permits deep learning on a real-world small dataset, demonstrating that this approach improves experimental data efficiency. Overall, this data augmentation method represents a solution for improving model performance that is applicable to many supervised deep learning problems in genomics. Availability and implementationThe open-source GitHub repository agduncan94/phylogenetic_augmentation_paper includes the code for rerunning the analyses here and recreating the figures. [email protected]
著者: Alan M Moses, A. G. Duncan, J. A. Mitchell
最終更新: 2024-01-17 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2023.09.15.558005
ソースPDF: https://www.biorxiv.org/content/10.1101/2023.09.15.558005.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。