多様なデータを使って慢性疾患リスクを予測する
研究は、個人のデータ、遺伝的データ、臨床データから慢性疾患リスクを予測するモデルを調べてるよ。
― 1 分で読む
慢性疾患はアメリカでの死亡や病気の大きな原因だよ。多くの研究が、遺伝子やライフスタイル、栄養、個人の詳細みたいな要因に注目して、これらの疾患のリスクを予測する方法を探ってきたんだ。目的は、これらの状態を早期に検出、予防、治療する方法を見つけること。でも、これらのデータが疾患リスクを評価するのにどれくらい効果的かは不明なんだよね。
この研究では、個人の詳細、遺伝情報、メタボロミクスデータ、臨床マーカーの4種類のデータを使って慢性疾患のリスクを予測するモデルを訓練したよ。個人の詳細には年齢や性別が含まれてて、臨床マーカーは血糖値やコレステロール値みたいな測定値なんだ。この2種類のデータは、病気の診断のために医者のオフィスでよく使われるけど、もっと複雑なデータタイプは患者の病気がいつ始まるかについて追加の洞察を提供できるかもしれない。
遺伝データは、生まれたときからの疾患の遺伝的な側面についての情報を提供するんだ。このデータは疾患リスクを理解するのに重要かもしれない。一方で、メタボロミクスデータは体内の代謝物に注目していて、臨床データや個人データの予測を向上させる有用な情報を追加できるかもしれない。
従来の予測モデル
従来の疾患予測モデルのほとんどは、1種類のデータのみに頼ってきた。このアプローチは、異なる生物学的および個人的な要因間の複雑な関係を見逃しがちなんだ。最近の研究では、メタボロミクス、個人の詳細、遺伝データを別々に使うことで、老化や死亡に関連する疾患を効果的に予測できることが示されている。この結果は、機械学習モデルを使って大規模なデータセットを分析し、異なるタイプの予測因子間の複雑なつながりをよりよく理解する可能性を浮き彫りにしているよ。
機械学習の方法は、さまざまなタイプのデータを組み合わせる新しい方法を提供してくれる。この研究では、22の疾患に対してさまざまな分類モデルを使ってマルチオミックリスクスコア(MRS)を開発したよ。また、一部の疾患については生存モデルも訓練して、リスクが時間とともにどのように変化するかを見たんだ。結果は、より広くアクセスできるように公的なプラットフォームを通じて公開されたよ。
バイナリ分類モデル
13年間にわたる疾患の発展と診断を予測するために、個人の詳細、遺伝情報、メタボロミクス、臨床マーカーの組み合わせデータを使ってモデルを訓練したよ。4つの分類器に焦点を当てたんだ:ADAブーストとXGブースト(どちらも木ベースのモデル)、ラッソ回帰、そして多層パーセプトロン(ニューラルネットワークの一種)だ。各モデルのパラメーターを微調整した後、異なる疾患で全体的にパフォーマンスが似ていることがわかったよ。
我々の発見では、XGブーストがトレーニングに最も早く、ADAブーストは最も少ない選択機能で最もシンプルなモデルを提供したんだ。ラッソ回帰が最も良いパフォーマンスを示し、全体の分類パフォーマンスが最高だったよ。具体的には、ラッソは0.739の平均パフォーマンススコアを達成し、XGブーストは0.727、ADAブーストは0.726、多層パーセプトロンは0.675だった。
次に、異なるロジスティック回帰の方法が我々のモデルにどう影響するかを調べたよ。ゼロでない特徴の数の違いは、モデルの解釈の複雑さや重要性を示していた。たとえば、糖尿病を予測する際、両方のモデルは同じ主要な予測因子の多くを特定したけど、特徴のランキングにはいくつかの違いがあったんだ。
異なるデータタイプの寄与を調査する
どのデータタイプが我々のモデルにどれだけ役立つかを見るために、最もパフォーマンスの良いモデルを異なるデータタイプの組み合わせを使って訓練したよ。そのパフォーマンスを比較することで、興味深い傾向に気づいたんだ。たとえば、心筋梗塞を予測する際、遺伝的データを追加してもパフォーマンスの改善は見られなかったけど、臨床マーカーを組み入れることでモデルの効果が大幅に向上したよ。メタボロミクスの完全な特徴セットを追加したときは、わずかな改善が見られたんだ。
一般的に、遺伝データと臨床マーカーデータは、いくつかの疾患のモデルパフォーマンスを向上させるのに有益だったよ。いくつかの条件では、遺伝データを追加することで顕著な改善があったけど、他の疾患では主に臨床マーカーからの利点が大きかったんだ。
サバイバル分析モデル
分類モデルに加えて、関心のある疾患についてコックス比例ハザードモデルも訓練して、患者のリスクが時間とともにどう変化するかを観察したよ。以前のモデルと同様に、さまざまなデータタイプの寄与をコンサーンデンスインデックス(C-index)を使って評価したんだ。C-indexは、モデルが結果をどれだけ予測できるかを測定するんだ。
遺伝的特徴を追加することで、いくつかの疾患でモデルパフォーマンスが改善されたけど、大部分の疾患ではわずかな改善しか見られなかった。だけど、人口統計的データと臨床マーカーデータを組み合わせると、いくつかの疾患でモデルパフォーマンスが大幅に向上することがわかったんだ。結果は、分類モデルから得られた発見と一致していたよ。
遺伝的データとメタボロミクスデータを人口統計的および臨床マーカーデータと組み合わせたとき、目立った改善を示したのはほんの数疾患のモデルだけだった。ほとんどは安定していたし、一部はパフォーマンスが低下したくらいだよ。
それから、L1正則化コックスモデルをフルデータセットを使って訓練して、モデルの有効性を評価したんだ。糖尿病や腎不全のような疾患では、モデルが0.8を超える高いC-indexを達成して、強い予測能力を示したよ。
訓練したモデルを使って、データセット内の個々の疾患のリスク軌道を予測できるんだ。つまり、データに基づいて、誰かが病気になる可能性を時間とともに示すことができるんだ。
予測モデルの分析
我々の分析は、異なる分類器の強みと弱みを明らかにするんだ。XGブーストが最も早く、各モデルをフィットさせるのに平均20秒かかったけど、ADAブーストは156秒かかったよ。ADAブーストは選択された機能が少ないモデルを生成したから、解釈がしやすいんだ。ラッソ回帰は時間がかかるけど、全体的に最良の結果を出したよ。注目すべきは、ラッソがほとんどの疾患で最高の分類パフォーマンスを示したことだ。
興味深いことに、多層パーセプトロンは心筋梗塞のためのテストスコアを改善するなど、いくつかの条件で良いパフォーマンスを示した。この研究は、線形モデルが疾患予測において他の方法よりも効果的であることを示す以前の研究に付け加えるものだよ。
バイナリ分類モデルに加えて、コックス比例ハザードモデルを使って生存分析も行ったんだ。これにより、異なるデータタイプの寄与を比較して、各疾患に関連する特徴を特定できたよ。生存分析の結果は、分類モデルからの以前の結果を確認するものだった。
異なるデータタイプを両方のモデルタイプで評価することで、強い遺伝的またはメタボロミクス的要因のある疾患を特定できたよ。遺伝的データとメタボロミクスデータを組み合わせたときにわずかな改善も見られたけど、多くの疾患では多くの代謝物を追加しても大きな改善は見られなかった。
限界と今後の研究
我々の研究の一つの限界は、データセット内の疾病ケースが少ないことだよ。ケースが少ない疾患の結果は信頼性が低くなるかもしれない。バイオバンクのデータセットが成長し続ける中で、これらの疾患についての洞察が得られるかもしれないけど、それはまた時間の経過による異なる健康のスナップショットを意味するんだ。データセット内の患者の健康の継続的な評価が、不均衡の問題に取り組むのに役立つかもしれない。
我々のモデルは主にUKバイオバンクの特定の集団のデータを使っているから、結果は異なる背景や民族の人々には適用されないかもしれない。以前の研究では、一つの民族グループのために開発されたモデルは他のグループに対して同じように機能しない可能性があることが示されているよ。今後の研究では、他の集団で我々のモデルがどう機能するかを調査することができるかもしれない。
さらに、マルチオミックリスクスコアの不確実性の指標を提供することで、これらのモデルを実施するのに役立つかもしれないし、マルチオミックアプローチからわずかな利益を示した疾患についてもさらに調査が必要だよ。一つの方法として「協調学習」を考慮するのもありで、異なるデータタイプからの予測がより良く整合するように促すことができるんだ。これにより、プロテオミクスや他のマルチモーダルデータといった追加のデータセットを統合できるようになるよ。
結論
我々は、UKバイオバンクからの4つの主要なデータセットを活用して、個人の詳細、遺伝情報、メタボロミクス分析、臨床マーカーをカバーしたんだ。フルデータセットは数十万人の個人からの情報を表しているよ。発見は、さまざまなデータタイプが慢性疾患の予測にどのように役立つかについての貴重な理解を提供するものだよ。
我々の疾患予測モデルは、訓練とテストの目的のために特定の個人のサブセットに依存しているんだ。この分析はさまざまな慢性疾患を含み、疾患リスクに影響を与えるさまざまな要因を評価することを可能にしているんだ。
この研究を通じて、さまざまなデータタイプを使うことで疾患リスク予測を改善する重要性を強調したよ。これらのデータセットを継続的に分析し、モデルを洗練することで、慢性疾患の特定と管理のためにより効果的な戦略を開発できるんだ。
タイトル: Integrative machine learning approaches for predicting disease risk using multi-omics data from the UK Biobank
概要: We train prediction and survival models using multi-omics data for disease risk identification and stratification. Existing work on disease prediction focuses on risk analysis using datasets of individual data types (metabolomic, genomics, demographic), while our study creates an integrated model for disease risk assessment. We compare machine learning models such as Lasso Regression, Multi-Layer Perceptron, XG Boost, and ADA Boost to analyze multi-omics data, incorporating ROC-AUC score comparisons for various diseases and feature combinations. Additionally, we train Cox proportional hazard models for each disease to perform survival analysis. Although the integration of multi-omics data significantly improves risk prediction for 8 diseases, we find that the contribution of metabolomic data is marginal when compared to standard demographic, genetic, and biomarker features. Nonetheless, we see that metabolomics is a useful replacement for the standard biomarker panel when it is not readily available.
著者: Manuel A Rivas, O. T. Aguilar, C. Chang, E. Bismuth
最終更新: 2024-04-20 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.04.16.589819
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.04.16.589819.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。