CodonTransformerの紹介:コドン最適化のための新しいツール
さまざまな生物でコドンの使い方を最適化するために設計された深層学習モデル。
― 1 分で読む
目次
遺伝子コードは、細胞がたんぱく質を作るために使うシステムで、これはすべての生物の構造や機能にとって必須なんだ。このコードは64個の3文字の組み合わせ、つまりコドンから成り立ってる。各コドンは20種類のたんぱく質の構成要素であるアミノ酸の1つに対応しているんだけど、面白いことに、いくつかのアミノ酸は複数のコドンで表現できる。この特徴をコドンの退化と呼ぶんだ。
生物によって、同じアミノ酸を表すコドンの使い方が違うんだよ。これは特定のタイプの転写RNA(tRNA)の入手可能性、細胞内でのたんぱく質の折りたたみ方、進化の歴史など、いろんな要因に影響されるんだ。こうした異なる生物が特定のコドンを使う頻度の違いはコドン使用バイアスと呼ばれてる。
科学者がある生物の遺伝子を別の生物に導入したいとき(例えば、クラゲの遺伝子をマウスに入れるような場合)は、コドン使用バイアスについて考えなきゃいけない。新しい遺伝子を宿主生物のコドンの好みに合うようにするプロセスはコドン最適化って呼ばれてるんだ。
コドン最適化の課題
コドンを宿主生物に適した形で並べるのはとても複雑な作業なんだ。例えば、300個のアミノ酸からなるたんぱく質をデザインしようとしたら、コドンの並べ方はほぼ不可能な数になるかもしれない、宇宙の原子の数以上かも。
従来のコドン最適化の方法は、よく使われるコドンを選ぶだけのことが多いんだけど、これには問題が生じることがある。宿主細胞のリソースが枯渇したり、たんぱく質が正しく折りたたまれなかったりする原因になることもあるんだ。それに、あまり使われないコドンをランダムに挿入すると、たんぱく質の生産中にストールすることもあるから、最適化の戦略はたんぱく質生産を増やすだけじゃなく、宿主細胞に害を与えないように気をつけなきゃいけない。
最近のアプローチでは、自然のたんぱく質における既存のコドン使用パターンを見ているけど、これらはしばしば近縁な生物にしか効果がないんだ。
コドン最適化における深層学習の役割
最近のテクノロジーの進歩で、深層学習が登場してきた。深層ニューラルネットワークは、複雑なデータの中からパターンを認識する能力があるんだ。コドン使用の最適化をもっと効率的で情報に基づいて行える可能性を持っているんだ。
深層学習を使って作られたモデルは、コドン最適化の可能性を示しているけど、まだ多くの制限があるんだ。ほとんどの既存のトレーニングデータは単一の生物に焦点を当てていて、異なる種に適用した時のモデルの効果が制限される。また、多くのモデルはアクセスしにくかったり使いにくかったりして、研究者にとってあまり役に立たないことがある。
CodonTransformerの紹介
私たちは、CodonTransformerを紹介できることにワクワクしてる。これは深層学習を活用した新しいアプローチで、さまざまな生物のコドン使用の最適化を目指してる。私たちは、164種類の異なる種からの約100万の遺伝子-たんぱく質ペアのデータでモデルをトレーニングした。この広範なトレーニングにより、モデルはコドン使用の普遍的なルールを学びながら、特定の生物に合わせた推奨を行えるようになったんだ。
文脈をより意識できるように、新しい方法で配列を表現することを考えた。これは生物に関する情報と、コドンに対するアミノ酸のペアを組み合わせたものなんだ。この方法をSTREAM(Shared Token Representation and Encoding with Aligned Multi-masking)と呼んでる。
CodonTransformerの特徴
CodonTransformerは、多種多様な生物の間で学習し、宿主生物に特化したDNA配列を生成できるマルチスペシーズモデルなんだ。コドン使用に強い類似性を持つ遺伝子でトレーニングすることで、自然な配列を生成する能力が向上したんだ。
この新しいモデルを提供するだけじゃなく、研究コミュニティにもアクセス可能にしたよ。これには基本モデルと微調整されたバージョンが含まれてる。データの処理からモデルのトレーニング、生成された配列の評価まで、コドン最適化全体のプロセスを簡単にするためのPythonパッケージも提供してる。もっとユーザーフレンドリーなアプローチを好む人のためには、Google Colabノートブックも作ったよ。
モデル構造の理解
コドン最適化は、たんぱく質の配列をDNA配列に戻すことだと考えられる。このプロセスは、異なるシステム(エンコーダーデコーダーやデコーダーのみのアプローチなど)を使って言語間の翻訳のようにモデル化されることが多い。でも、これらの標準的な方法は、コドンを選ぶ際に配列の一部が他の部分に影響を与える可能性があるから、コドン最適化にとっては課題になることがある。
そこで、私たちはマスクされた言語モデル法を使用したエンコーダーのみのアーキテクチャを採用した。この技術によって、モデルは配列の一部を隠して、残りの情報を使ってマスクされた部分を予測できる。このデザインは、より均一な配列の最適化を可能にするんだ。
トレーニングプロセス
CodonTransformerモデルは、長い配列を扱うために特別に設計されたトランスフォーマーアーキテクチャの変種に基づいている。このモデルは前処理と微調整の2段階でトレーニングされた。
前処理フェーズでは、多様なデータセットを使って入力配列の一般的な特徴を学ぶ。微調整フェーズでは、選ばれたデータのサブセットを使って、特定の生物に対してDNA配列を最適化する方法をモデルに学ばせるんだ。
モデルの評価
CodonTransformerの性能を評価するために、生成されたDNA配列を複数の生物の自然な配列と比較したんだ。私たちの調査結果は、モデルが実際のコドン使用に近い配列を生成できることを示している。
CodonTransformerは、自然なパターンの配列を作るのにおいて、多くの既存のツールよりも優れた性能を発揮した。モデルは、コドンの自然な出現に似たDNAを生成することができたので、たんぱく質が宿主生物内で正しく折りたたまれて機能する可能性を高めるんだ。
カスタム微調整と柔軟性
CodonTransformerの目立った特徴の一つは、特定のタスクのために微調整できる能力だ。研究者は、特定の遺伝子のセットや配列に求める特性に最適化するようにカスタマイズできる。この柔軟性が、たんぱく質設計の課題を扱うためのより広範なアプリケーションに対応できるようにしているんだ。
モデルのオープンアクセスな性質は、誰でも自分の研究のために使えることを意味する。このことが科学コミュニティにより協力的な雰囲気を生み出すんだ。
利点のまとめ
CodonTransformerは、さまざまな生物に対してたんぱく質生産のためにDNA配列を最適化する能力において重要な進展を示している。このモデルは、研究者がコドン使用パターンを効率的に利用し、発現に最適化された配列を生成することを可能にするだけじゃなく、遺伝子発現を妨げる可能性のある調節要素を含まない配列を生成する可能性も高めるんだ。
特定のアプリケーションに適したモデルの微調整が可能なことは、バイオテクノロジーや合成生物学を含むさまざまな分野での使いやすさを高めるんだ。さらに、大量の進化的に最適化されたゲノムデータを活用することで、CodonTransformerは、たんぱく質や他の生物分子をより効果的に設計するのに役立つ洞察を提供するんだ。
現状、CodonTransformerは遺伝子工学における新しい機会を開き、多くの種にわたって望ましいたんぱく質をより簡単かつ効率的に生産することができるようにする。さまざまな生物に対してコドン使用を効果的に最適化できることの意味は大きく、この技術が今後の科学的進展において重要な役割を果たすだろう。
今後の方向性
今後は、CodonTransformerの能力をさらに拡張するために、より複雑なデータを統合したり、遺伝子発現に関与する追加の調節要素を考慮したりする研究が進むだろう。こうしたツールを開発し続けることで、新しいアプリケーションの可能性はさらに広がるんだ。
研究の焦点は、宿主生物内の周囲の遺伝的コンテキストなど、さまざまな要因がコドン最適化にどのように影響するかに移るかもしれない。これにより、特定の生物学的タスクに特化した配列の設計においてさらなる精度が得られるようになるんだ。
結論として、CodonTransformerは、幅広い生物にわたるコドン最適化のプロセスを改善するために深層学習を活用した画期的なツールなんだ。これは、たんぱく質生産を向上させることを目指す研究者にとって重要なリソースを提供し、遺伝子工学やバイオテクノロジーの未来に向けた一歩を踏み出す助けになるんだ。
タイトル: CodonTransformer: a multispecies codon optimizer using context-aware neural networks
概要: The genetic code is degenerate allowing a multitude of possible DNA sequences to encode the same protein. This degeneracy impacts the efficiency of heterologous protein production due to the codon usage preferences of each organism. The process of tailoring organism-specific synonymous codons, known as codon optimization, must respect local sequence patterns that go beyond global codon preferences. As a result, the search space faces a combinatorial explosion that makes exhaustive exploration impossible. Nevertheless, throughout the diverse life on Earth, natural selection has already optimized the sequences, thereby providing a rich source of data allowing machine learning algorithms to explore the underlying rules. Here, we introduce CodonTransformer, a multispecies deep learning model trained on over 1 million DNA-protein pairs from 164 organisms spanning all kingdoms of life. The model demonstrates context-awareness thanks to the attention mechanism and bidirectionality of the Transformers we used, and to a novel sequence representation that combines organism, amino acid, and codon encodings. CodonTransformer generates host-specific DNA sequences with natural-like codon distribution profiles and with negative cis-regulatory elements. This work introduces a novel strategy of Shared Token Representation and Encoding with Aligned Multi-masking (STREAM) and provides a state-of-the-art codon optimization framework with a customizable open-access model and a user-friendly interface.
著者: Amir Pandi, A. Fallahpour, V. Gureghian, G. J. Filion, A. B. Lindner
最終更新: 2024-09-13 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.09.13.612903
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.09.13.612903.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。