Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 医療情報学

パーソナライズドケアのための病気サブタイプの進展

患者の治療と結果をより良くするために、病気の分類を改善する。

― 1 分で読む


機械学習と病気のサブタイプ機械学習と病気のサブタイプ分けする。病気の分類を改善するために機械学習を利用
目次

病気のサブタイプ化、または疾患の層別化って、異なる病気をよりよく理解して分類する手助けをする方法なんだ。このプロセスによって、患者に最適なケアを提供するための、より個別化された治療ができるようになるよ。遺伝子、分子、または臨床的特徴を見て、病気をいくつかのサブタイプに分けることができるんだ。

個別化医療が進むにつれて、病気のサブタイプ化は、さまざまな医療分野における病気のメカニズムの理解を深めることができる。これは研究や効果的な治療、潜在的な治療法を見つけるために重要なんだ。薬の中には特定の患者グループや異なる病気の表れにしか効果がないものもあるし、病気の進行もかなり異なることがあるから、それに応じて異なる治療計画が必要になる場合もある。

この記事では、病気を区別すること、つまりサブタイプ化の臨床的に重要な実践に焦点を当てるよ。例えば、COVID-19のパンデミックを引き起こしたウイルスの異なる変異株は、すべての変異株が臨床的に有用な違いを持っているわけではないことを示している。むしろ、COVID-19の患者を急性期に病気を経験している人と、ロングCOVIDの人に分類することが、治療にとって重要なんだ。

もう一つの例が糖尿病だ。主にタイプ1とタイプ2の2つがある。どちらもインスリンに問題があるけど、その治療や管理、可能な治癒法はかなり異なるんだ。同様に、アルツハイマー病やパーキンソン病などの神経系に影響を与える病気は、同じ臨床カテゴリーに入るけど、ユニークな特徴や異なる治療アプローチがある。パーキンソン病のサブタイプの違いを理解することは、効果的な治療法の開発に欠かせないよ。

病気のサブタイプ化の重要性

歴史的に、医療コミュニティは病気のさまざまな側面を特定するために努力してきた。臨床医は主に国際疾病分類(ICD)を使っている。この分類は、病気についての新しい知識を反映するために定期的に更新されている。

例えば、糖尿病(ICD-10コードE10-E14)は、タイプ1(E10)、タイプ2(E11)、および明確でない糖尿病(E14)に分けられ、さらにサブタイプに分かれている。オープンターゲットプラットフォーム(OTP)は、病気を正しく分類するために、さまざまな分子、遺伝子、バイオメディカルデータを集めている。

情報は豊富にあるけど、データの増加は知識のエントリーに間違いを引き起こすこともあるよ。だから、大きなデータベースの中で誤ったエントリーを特定し修正する自動化された方法を開発することが重要なんだ。病気やその特徴を正確に分類するために、遺伝子の機能を種を超えてマッピングするのを助けるようなプロジェクトが支援している。

既存の多くの方法は、以前の分類や厳格なルールに依存している。一部のアプローチは癌のような特定のタイプのデータにのみ焦点を当てている一方で、新しい薬と病気のリンクを探しているが、新しい病気のサブタイプを発見することを目指していない。私たちの焦点は、未知のサブタイプを見つけ、既存の知識ベースに存在する誤分類を修正することにあるんだ。

病気のサブタイプ化への新しいアプローチ

私たちは、病気の分類を改善するために機械学習を使った新しい方法を提案するよ。OTPは多くのキュレーションされたデータを提供していて、病気のサブタイプを予測することを目指した新しいベンチマークデータセットを作成できる。このデータセットは、病気をよりよく理解するための方法を開発し評価するのに役立つ。さらに、私たちのアプローチは、未知のサブタイプや不正確な注釈を持つ病気を特定しランク付けするのに役立つ。

私たちのアプローチのステップは次の通り:まず、既存のOTPデータからターゲットマトリックスを形成し、データベースにサブタイプがあるかどうかを定義する。次に、OTPから提供される直接的な証拠から予測的特徴を集める。その後、既知のターゲットを使って機械学習モデルを訓練する。データセットの各エントリーについてクロスバリデーションと呼ばれる方法を使用して予測を行い、結果を解釈し分析する。予測されたターゲットと既知のターゲットの間に一貫した不一致が見つかった場合、新しいサブタイプの候補や現在のデータベースの不正確さを特定するんだ。

病気のサブタイプ化のためのデータソース

私たちの機械学習モデルを開発するために、OTPに統合されたさまざまなソースを使用した。これらのソースは、病気に関する広範な概要を提供し、説明、名前、既知の薬、文献、および臨床症状などのデータを含んでいる。

例えば、タイプ2糖尿病の場合、OTPは病気に関連するテキスト、他のデータベースからの同義語、既知の薬や臨床的サインなどの関連統計とともに病気を提示している。私たちが作成したデータセットは17,222の病気をカバーしていて、そのうち5,848、つまり約34%が既知のサブタイプを持っている。私たちが利用した特徴は重要性と予測力が高く、特定の病気に対する新しい治療法の発見につながる可能性があるんだ。

機械学習モデルの評価

私たちは、既知の病気のサブタイプを予測するために、ロジスティック回帰、ランダムフォレスト、CatBoostと呼ばれるブースティングツリーモデルなど、いくつかの機械学習モデルをテストした。性能を評価するためにクロスバリデーションと呼ばれる方法を使用し、データセットを何度も訓練用とテスト用に分けてモデルの予測を評価した。

私たちの分析は、CatBoostモデルが最も良い結果を出し、優れた曲線下面積スコアに到達したことを示した。このモデルは新しいサブタイプのさらなる予測に使われ、テキスト特徴を使用することで性能が大幅に向上したことが分析されている。

潜在的な新しいサブタイプの特定

私たちの機械学習モデルの強力なパフォーマンスを考慮して、未知のサブタイプを持っている可能性がある病気を予測するためにそれらを使用した。繰り返しの安定性アプローチを用いて、モデルが一貫して異なるラベルを予測したケースを探した。1,546件のインスタンスを特定し、そのうち515件はデータベースに現在文書化されていないサブタイプを持っていると思われた。

これらの潜在的な新しいサブタイプの予測に寄与する特徴は、既知のサブタイプをサポートするものと似ていた。これは、新しいサブタイプの候補が共通の特徴を共有していることを示しており、モデルの全体的な妥当性を強化している。

文献を通じた予測の検証

新しいサブタイプの予測を評価するための既存の真実がないので、私たちは科学文献を検証方法として利用した。これらの候補の病気がサブタイプ、サブマニフェステーション、または関連条件を持っているとされる言及を探した。分析の結果、私たちの予測した候補がサブタイプに関連する文献に登場する可能性が著しく高いことが明らかになり、私たちの発見の妥当性が示唆された。

安定した予測候補の別のサブセットについては、文献の言及において有意な差は見られなかった。これは、これらのケースが現在の研究でまだ認識されていない本当に新しい候補である可能性があることを支持している。

時間をかけた予測の評価

予測のさらなる検証のために、より最近のOTPデータのバージョンを分析した。更新の間に238の病気のサブタイプに変化があることが分かった。私たちの予測した候補の中で、かなりの数がサブタイプ注釈が調整されていて、私たちのモデルの予測が relevancyだけでなく影響を持っていることを示している。

潜在的な新しい病気のサブタイプの理解

未知のサブタイプを持つ可能性がある515の病気を特定した後、これらの予測を理解することが重要だ。これらの予測の理由は一般的にいくつかのカテゴリーに分けられる。

いくつかの病気は多面的な現れを示すことがあり、つまり、異なる原因からのさまざまな表れがあるんだ。重複する臨床的特徴は誤診につながる可能性もある。また、病気の経過や治療のばらつきもこの複雑さに寄与するかもしれない。

私たちのモデルのアプローチは、専門家にこれらの候補をレビューしてもらう必要があることを強調している。なぜなら、いくつかのインスタンスはモデルのエラーや既存の注釈の不正確さから生じるかもしれないから。私たちは、ウイルスの異なる変異株が誤分類される例を示している。

病気のサブタイプ化の影響

病気のサブタイプを理解し特定することは、基本的な研究と個別化された治療アプローチの両方に大きな利益をもたらすことができる。病気にサブタイプがあるかもしれないことを認識することは、効果的でターゲットを絞ったケアを提供するために重要なんだ。

歴史的に、広範な分類の病気は効果的ではない治療につながってきた。目標は、これらの広範な診断を特定のサブタイプに分けることで、よりターゲットを絞った介入を可能にすること。例えば、パーキンソン病は、治療結果を改善するためのサブタイプを特定するために多くの努力がなされている。

興味深いことに、私たちの発見は、明確なサブタイプを持つ病気は、病気自体やその研究の歴史に基づいて検出できる可能性があることを示唆している。例えば、遺伝子変異によって引き起こされる病気は、遺伝性遺伝子障害を持つものとは異なる特徴を示すことができる。

結論

病気のサブタイプ化は、臨床および科学的実践を改善するために重要な難題だ。高品質の医療データベースは存在するけれど、似た症状を持つ多くの病気が異なるサブタイプとして適切に注釈されていないことがある。これが、既存の知識ベースにおけるターゲット-インディケーション関係に関する重要な情報の取得を妨げる可能性がある。

病気のサブタイプを認識し検証する制限が、歴史的に手動のプロセスを生み出し、時間がかかり、かなりの専門知識を必要とした。私たちの提案するアプローチは、さまざまな直接的な証拠を統合して、機械学習手法を使用して病気の分類を改善することを目指している。

そうすることで、新しいサブタイプや潜在的に誤分類されたサブタイプのランキングリストを提供し、専門家がそれをレビューして既存のデータベースを洗練させることができるようにする。これは、病理の理解や治療戦略の向上のために病気のサブタイプを正確に特定する必要性を強調している。最終的に、この研究で使用された手法は、臨床診断や薬剤開発に対しても広い影響を持ち、患者の結果の改善につながる道を切り開くことになる。

オリジナルソース

タイトル: Automated Annotation of Disease Subtypes

概要: BackgroundDistinguishing diseases into distinct subtypes is crucial for study and effective treatment strategies. The Open Targets Platform (OT) integrates biomedical, genetic, and biochemical datasets to empower disease ontologies, classifications, and potential gene targets. Nevertheless, many disease annotations are incomplete, requiring laborious expert medical input. This challenge is especially pronounced for rare and orphan diseases, where resources are scarce. MethodsWe present a machine learning approach to identifying diseases with potential subtypes, using the approximately 23,000 diseases documented in OT. We derive novel features for predicting diseases with subtypes using direct evidence. Machine learning models were applied to analyze feature importance and evaluate predictive performance for discovering both known and novel disease subtypes. ResultsOur model achieves a high (89.4%) ROC AUC (Area Under the Receiver Operating Characteristic Curve) in identifying known disease subtypes. We integrated pre-trained deep-learning language models and showed their benefits. Moreover, we identify 515 disease candidates predicted to possess previously unannotated subtypes. ConclusionsOur models can partition diseases into distinct subtypes. This methodology enables a robust, scalable approach for improving knowledge-based annotations and a comprehensive assessment of disease ontology tiers. Our candidates are attractive targets for further study and personalized medicine, potentially aiding in the unveiling of new therapeutic indications for sought-after targets.

著者: Dan Ofer, M. Linial

最終更新: 2024-03-28 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2023.09.24.23296020

ソースPDF: https://www.medrxiv.org/content/10.1101/2023.09.24.23296020.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

類似の記事