機械学習によるグリカン分析の進展
研究者たちは、マシンラーニングを使ってグリカンシーケンシング技術を向上させている。
― 1 分で読む
目次
糖鎖は、生物学的プロセスにおいて重要な役割を果たす糖分子だよ。これらの糖鎖は、ヒトを含むすべての生物に存在していて、タンパク質が正しく折りたたまれるのを助けたり、免疫系をサポートしたり、細胞間のコミュニケーションを促進したりするんだ。糖鎖の構造が正しく形成されないと、さまざまな病気につながる可能性があるし、癌のような病気の早期警告サインになることもあるんだ。適切な糖鎖修飾は、多くの薬やワクチンの効果にも必要不可欠なんだ。
糖鎖をどう研究するの?
今は、科学者たちは質量分析(MS)を使って糖鎖を分析することが多いんだ。この方法は強力だけど、すごく高価で特別な知識もたくさん必要なんだよ。他にも、核磁気共鳴(NMR)や特定の酵素を使った処理などの技術もあるけど、同じような欠点があるんだ。質量分析には限界があって、糖鎖の構造の正確な結合の配置を特定するのが難しいことがあるんだ。それが身体内での機能に影響するのにね。
こうした課題に対処するために、研究者たちは伝統的に炭水化物に結合するタンパク質、いわゆる糖鎖結合タンパク質(GBP)を使って、特定の糖鎖パターンが存在するかどうかをすぐに見分けてきたんだ。これには、レクチンや抗体が含まれていて、商業的に入手可能なものが多いんだ。これらのタンパク質のアレイを使うことで、科学者たちは糖タンパク質の結合プロファイルを作成し、細胞との相互作用を評価できるんだよ。
糖鎖分析における機械学習の役割
最近の機械学習(ML)の進展は、糖鎖生物学に新しい扉を開いたんだ。機械学習は、研究者がさまざまなレクチンのデータを分析するのを助けて、異なる糖鎖構造の結合の特性を特定できるようにしてるんだ。
機械学習はまた、糖鎖を分類したり、タンパク質上での糖鎖修飾の発生場所を予測するのにも使われてるんだ。研究者たちは、機械学習が糖鎖分析を改善する可能性を示す研究を行ってきたよ。これにより、レクチンの結合パターンだけを基に糖鎖構造を特定できるかどうかの疑問が生まれてるんだ。
糖鎖配列の新しいアプローチ
この研究では、研究者たちは糖鎖の配列を特定することに焦点を当てていて、未知の糖鎖の構造や成分を解明しようとしてるんだ。詳細なレクチンのパネルを使って糖鎖構造を予測するモデルを提案してるよ。結果は、このモデルが多くの糖鎖サンプルの構造を近似できることを示唆してるんだ。
体系的なアプローチを使って、特定のレクチンからの結合データを分析することで、N-糖鎖とO-糖鎖の構造を高い割合で特定できたんだ。彼らは、治療用タンパク質の生産に一般的に使われる中国ハムスター卵巣(CHO)細胞の糖鎖も調査したんだ。このモデルは、多くのCHO細胞の糖鎖の構造を正しく予測し、強力なレクチン-モチーフの結合ペアを特定したんだ。
モデルが示すこと
このモデルは、レクチンからの結合結果に基づいて糖鎖構造を予測するのを助けるんだ。可能性に基づいて動作していて、各糖鎖について、モデルは可能性スコアを生成してランク付けするんだ。このシステムは、正しい糖鎖を単に特定するだけでなく、正しい糖鎖がトップ予測にどれだけ頻繁に現れるかも見るようになってるんだ。
大規模なデータセットを使って、研究者たちは糖鎖サンプルをトレーニンググループとテストグループに分けたんだ。特定の結合データでモデルをトレーニングすることで、多くのN-糖鎖を正確に予測できたんだ。このモデルは、特定の問題のあるサンプルを除外するようにデータセットを精製した後、O-糖鎖の予測精度が大幅に向上したんだ。
研究者たちが自分たちのモデルのパフォーマンスを詳しく見たとき、予測が容易な特定のモチーフと難しいものがあることがわかったんだ。この分析は、糖鎖の構造や特定のモチーフに結合する異なるレクチンの効果についての洞察を明らかにしたんだ。
他の糖鎖への発見の一般化
このモデルは、CFGアレイの糖鎖を予測するだけでなく、CHO細胞の糖鎖に対してもその発見を一般化できたんだ。これは重要で、CHO細胞は製薬産業でさまざまな薬用タンパク質を生産するためによく使われるからなんだ。
2つのデータセットからの糖鎖サンプル間には限られた重複があったけど、CHO糖鎖の予測は依然として強力だったんだ。このモデルは、テストセット内の大多数の糖鎖を特定できて、実際のシナリオでの適用が期待できることを示唆しているよ。
レクチン結合の課題
成功はあったけど、すべての糖鎖モチーフが研究されたレクチンを使って簡単に特定できるわけではないんだ。一般的に、糖鎖の末端モチーフは、他の糖分子に隠されにくいため、特定しやすいんだけど、いくつかの末端モチーフは依然として捉えられなかったから、新しいまたは工学的に設計されたGBPが必要だと思われるんだ。
最も信頼できるレクチン
研究者たちは、すべてのレクチンが同じように効果的ではないことを認識したんだ。特定のモチーフに対して強い結合を示すレクチンもあれば、ほとんどは1つの主要なモチーフにしかよく結合できないことがわかったんだ。この理解は、将来の研究が最も信頼できる結合情報を提供するレクチンに焦点を当てるのに役立つんだよ。
今後の研究への影響
最終的な目標は、糖鎖分析を糖鎖生物学の分野以外の科学者にとっても簡単でアクセスしやすくすることなんだ。機械学習を使った糖鎖配列の実用的な利用を示すことで、研究者たちは、これらの技術を使って科学的発見を進めるさらなる研究を刺激したいと思ってるよ。この発見は、糖鎖を効果的に研究するために関連するレクチンを選ぶ際の将来の研究者に対する指針にもなるんだ。
さらに、DNAバーカードレクチンや次世代シーケンシングなどの高度な技術を使う潜在性もあるんだ。そういった方法論は、従来の方法で遭遇する問題を解決する柔軟性を提供するかもしれないよ。
結論
糖鎖は、生命を維持する生物学的プロセスの重要な役割を果たしているんだ。科学が糖鎖生物学の複雑さを解明し続ける中で、この理解を促進するためには新しいツールや技術が必要になるよ。機械学習の方法を取り入れて信頼性のあるレクチンを特定することで、科学コミュニティは糖鎖分析の改善に向けて取り組むことができ、最終的にはより良い健康成果や治療法の進展につながると思うんだ。
タイトル: A Boltzmann model predicts glycan structures from lectin binding
概要: Glycans are complex oligosaccharides involved in many diseases and biological processes. Unfortunately, current methods for determining glycan composition and structure (glycan sequencing) are laborious and require a high level of expertise. Here, we assess the feasibility of sequencing glycans based on their lectin binding fingerprints. By training a Boltzmann model on lectin binding data, we predict the approximate structures of 88 {+/-} 7% of N-glycans and 87 {+/-} 13% of O-glycans in our test set. We show that our model generalizes well to the pharmaceutically relevant case of Chinese Hamster Ovary (CHO) cell glycans. We also analyze the motif specificity of a wide array of lectins and identify the most and least predictive lectins and glycan features. These results could help streamline glycoprotein research and be of use to anyone using lectins for glycobiology.
著者: Nathan Lewis, A. Yom, W.-T. CHIANG
最終更新: 2024-03-12 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2023.06.03.543532
ソースPDF: https://www.biorxiv.org/content/10.1101/2023.06.03.543532.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。