ディープラーニングモデルが遺伝子調節研究を進化させる
新しいモデルが、がんに関連する遺伝子調節要素の特定を改善した。
― 1 分で読む
遺伝子がどう制御されてるかを理解するのは、健康や病気を研究するうえでの重要な部分だよ。こうした制御の一つの重要な側面は、DNAのコーディングされてない部分、つまりシス調節要素で起こるんだ。これらの要素は、遺伝子の活動を調整するのを助ける転写因子(TF)っていうタンパク質の結合部位として機能することが多いんだけど、これらの結合部位を見つけるのは特に、制御する遺伝子から遠くにあるときは難しいんだ。
転写因子の役割
ほとんどのTFの結合部位は、エンハンサーと呼ばれるDNAの領域にある。これらのエンハンサーはターゲット遺伝子からかなり遠くにあることが多くて、こうした重要な配列を特定するのが難しいんだ。CTCFっていう特定のTFは、独特の機能を持っていて、DNAに結合してループを作り、ゲノムを整理するのを助けているんだ。これにより、異なる遺伝子領域同士の不要な相互作用が防がれるんだけど、CTCFの結合が乱れると、遺伝子の発現が変わって、がんをはじめとするいろんな病気で見られることがあるよ。
研究者たちは、異常なCTCFの結合パターンが多くの種類のがんに共通して見られることを発見したんだ。これらの変化は、近くの領域に他のがん原性TFが結合することで引き起こされることが多いから、CTCFの結合部位の周りのエリアを研究することががんの発生に関わる要因を明らかにするのに重要だよ。
特定の難しさ
今のところ、TFの結合部位を特定するための従来の方法には限界がある。たとえば、TFの結合部位とCTCFの部位の関係を理解するのは難しいんだ、特にこれらの部位がかなり離れてることが多いからね。分析すべきDNA配列の量も多くて、この作業をさらに複雑にしているんだ。この領域で特定のDNAモチーフを探そうとする試みは、しばしば明確な結果を得られず、新しい技術が必要だってことがはっきりしてる。
ディープラーニングの登場
ディープラーニング技術、特に深層畳み込みニューラルネットワーク(CNN)は、ゲノミクスやがん研究で人気のあるツールになってるんだ。こうした高度なモデルは、広範なDNA配列を含む複雑なデータを分析して、意味のあるパターンを分類・特定することができるんだ。そんな中、研究者たちは、DNAResDualNet(DARDN)という方法を開発して、こうした課題に取り組んでる。
DARDNは、2つのCNNモデルが協力して、CTCF結合に関連するがん特異的領域で強化されたDNA配列を特定するための特徴発見技術を使ってる。このモデルはDNA配列データのみに基づいて動作するように設計されてるから、異なる生物学的シナリオでのトレーニングや適用が楽になるんだ。
データと手法
この研究では、人間のゲノムから得たゲノム配列を使って、CTCFの結合が起こる領域に焦点を当ててる。研究者たちは、がんに関連するCTCF結合に関連した特定のパターンを特定したよ。データが不均衡な場合(場合によっては、特定のデータタイプがあまり多くない)、シーケンスシフトやリバースコンプリメントといった手法を使ってバランスを管理してる。これによって、データが均等に分布してなくてもモデルの効果が確認できるんだ。
データをディープラーニングモデル向けに準備するために、シーケンスをCNNが解釈できるフォーマット(一熱エンコーディング)に変換するんだ。それぞれのシーケンスには、がん特異的か通常の結合部位かを示すラベルが付けられる。で、DARDNモデルはこれらのラベル付きシーケンスでトレーニングして、異なる種類のCTCFサイトを区別するんだ。
モデルの評価
DARDNモデルの有効性は、マシューズ相関係数(MCC)っていう統計的な指標を使って評価されてて、モデルが真のラベルと偽のラベルをどれだけ正確に予測できるかを示してる。その傍ら、モチーフ分析を行って、既知のがん原性因子に関連したシーケンスの共通パターンを特定してるんだ。
研究者たちは、幅広いテストを通じて、DARDNがT細胞性白血病に関連する重要な転写因子モチーフ、例えばRBPJを特定する能力を示せたんだ。モデルをさまざまながんのデータに適用することで、それぞれのがんに関連したユニークなモチーフが明らかになるよ。
ロバスト性と柔軟性
DARDNは、ロバスト性を確保するためにいろんな条件下でテストされてるんだ。サブシーケンスの長さや入力シーケンスの長さの変化がモチーフ発見にどう影響するかを調べた結果、モデルは基盤データの調整を行っても強いパフォーマンスを示したんだ。
さらに、さまざまなデータの背景を使ったときにモデルが適応できることも確認されて、さまざまなシナリオでの柔軟性が示されたよ。この適応性は重要で、遺伝子の調節に関わる特定の要因が異なるがんの種類によって異なることがあるからね。
T-ALL以外の応用
このモデルはもともとT細胞性白血病に適用されたけど、急性骨髄性白血病、乳がん、大腸がん、肺腺がん、前立腺がんなど、他のがんにも適用できるフレームワークになってるよ。それぞれのがんのタイプに応じて、CTCFの結合に関連する強化されたシーケンスをモデルが特定してて、遺伝子調節のメカニズムががんによって大きく異なることを示唆してるんだ。
結論
DARDNモデルは、私たちのゲノム内の調節要素を理解するうえでの大きな進展を示してる。ディープラーニングと特徴発見を組み合わせることで、特にがんの文脈で遺伝子調節を研究するための強力なツールを提供してるんだ。このモデルの将来的な応用は、遺伝子がどのように制御されているのか、そうしたプロセスが病気にどのように寄与するのかの理解をさらに深めることができるよ。
このアプローチは特定のがんに対する洞察を提供するだけじゃなく、複雑な生物学的データ内の隠れたつながりを見つけるためのより広い応用への道を開いてる。研究が進むにつれて、DARDNは個々の腫瘍のユニークな調節特性に基づく個別化治療戦略の開発に役立つかもしれないね。
タイトル: DARDN: A deep-learning approach for CTCF binding sequence classification and oncogenic regulatory feature discovery
概要: Characterization of gene regulatory mechanisms in cancer is a key task in cancer genomics. CCCTC-binding factor (CTCF), a DNA binding protein, exhibits specific binding patterns in the genome of cancer cells and has a non-canonical function to facilitate oncogenic transcription programs by cooperating with transcription factors bound at flanking distal regions. Identification of DNA sequence features from a broad genomic region that distinguish cancer-specific CTCF binding sites from regular CTCF binding sites can help find oncogenic transcription factors in a cancer type. However, the long DNA sequences without localization information makes it difficult to perform conventional motif analysis. Here we present DNAResDualNet (DARDN), a computational method that utilizes convolutional neural networks (CNNs) for predicting cancer-specific CTCF binding sites from long DNA sequences and employs DeepLIFT, a method for interpretability of deep learning models that explains the models output in terms of the contributions of its input features [1], for identifying DNA sequence features associated with cancer-specific CTCF binding. Evaluation on DNA sequences associated with CTCF binding sites in T-cell acute lymphoblastic leukemia (T-ALL) and other cancer types demonstrates DARDNs ability in classifying DNA sequences surrounding cancer-specific CTCF binding from control constitutive CTCF binding and identifying sequence motifs for transcription factors potentially active in each specific cancer type. We identified potential oncogenic transcription factors in T-ALL, acute myeloid leukemia (AML), breast cancer (BRCA), colorectal cancer (CRC), lung adenocarcinoma (LUAD), and prostate cancer (PRAD). Our work demonstrates the power of advanced machine learning and feature discovery approach in finding biologically meaningful information from complex high-throughput sequencing data.
著者: Hyun Jae Cho, Z. Wang, Y. Cong, S. Bekiranov, A. Zhang, C. Zang
最終更新: 2024-01-17 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2023.11.17.567502
ソースPDF: https://www.biorxiv.org/content/10.1101/2023.11.17.567502.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。