Simple Science

最先端の科学をわかりやすく解説

# 生物学# ゲノミクス

大腸菌の遺伝的な地形をマッピングする

研究者たちは、E. coliのゲノムを分析して多様性や特性を理解しようとしている。

― 1 分で読む


大腸菌のゲノム分析が進展中大腸菌のゲノム分析が進展中診断を改善してるよ。coliの特性と遺伝子に関する発見が感染新しいE.
目次

1995年、科学者たちは生物の最初の完全なゲノムを成功裏に配列決定した。1997年にはE. coli K-12株の配列が続いて決定された。その後、2001年にはO157:H7として知られる別のE. coli株が配列決定された。この株はK-12株に比べて長いゲノムと異なる遺伝子を持っていた。2000年代後半にはDNA配列決定のコストが大幅に下がり、さらに多くのE. coli株が配列決定された。2013年には、研究者たちは55のE. coliゲノムを分析し、遺伝子の配列に基づいて特定の特性を予測できるようになった。

より多くのゲノム配列が利用可能になったことで、研究は遺伝的構成に基づいてE. coliのさまざまなグループの特性を特定できるようになった。研究者たちはE. coli株を分類するために、物理的特性から遺伝的特性にシフトした。最初は多重座位配列タイプ(MLST)と呼ばれるシステムがこれらの株を分類するために作成された。後に、異なる株間の関係を分析するために、全ゲノムベースのアプローチなど、より高度な方法が開発された。

今日、E. coliの配列は10万以上が公開されている。この膨大なデータは、これらの株のゲノムを研究するための新しい分析方法の必要性を生み出した。科学者たちは、現在、多くのゲノムにおいてどの遺伝子が存在または不在であるかを調べ、E. coliの遺伝的多様性を分析するためのマトリックスを作成することができる。

パンゲノムマトリックスの構築

E. coliを研究するために、研究者たちは公開データベースからゲノム配列を集めた。データが正確で信頼できることを確保するために品質管理を適用した。最終的なコレクションには、1万以上の高品質なゲノム配列が含まれていた。その中から、さらに分析するために2,377の完全な配列が選ばれた。これらの株は、人間、陸上動物、鳥などさまざまなソースから来ていた。ほとんどのゲノムは、プラスミドと呼ばれる余分なDNA要素を含んでいなかった。

これらの配列のコレクションはGENOMiCUSと呼ばれ、E. coliの遺伝的構成を包括的に見ることを可能にする。このデータセットを分析することで、科学者たちは異なる株のプロファイルを作成し、特性をよりよく理解できるようになる。

ゲノムデータの分析

ゲノム配列を比較することで、異なる株がどれほど関連しているかを判断できる。この分析では、ゲノム配列間の違いを計算するために数学的な方法が使われる。ヒートマップは、遺伝的類似性に基づいて株がどのようにクラスタリングされるかを示すことができる。

ゲノム配列に分類技術を適用することで、研究者たちはE. coli株を異なるグループに分類できる。それぞれのグループは特定の遺伝的特性を共有する株で構成されている。これらの株を分類することで、株間で観察される違いの遺伝的基盤を特定するのに役立つ。科学者たちがゲノム配列から特定の特性を導き出せれば、培養することなく感染症の迅速な診断が向上するかもしれない。

パンゲノム構造

E. coliのパンゲノムは、主に3つのカテゴリーの遺伝子に分けられる:

  1. コアゲノム:ほぼすべての株に見られる遺伝子を含んでいて、種を定義する。分析された株のコアゲノムは2,398の遺伝子で構成されており、大部分に機能が知られている。

  2. アクセサリーゲノム:多くの株に見られるが、すべての株には存在しない遺伝子を含んでいる。5,182のアクセサリー遺伝子があり、これらが異なるE. coliグループの遺伝的多様性に寄与している。

  3. レアゲノム:ごく少数の株にしか見られないユニークな遺伝子で、調査された株では合計163,619の遺伝子がある。

科学者たちは、株での遺伝子の出現頻度を使って、遺伝子をコア、アクセサリー、レアのカテゴリーに分類する。コアゲノムは安定した遺伝的基盤を提供し、アクセサリーとレアゲノムは株間の遺伝的変異を示す。

遺伝子の頻度と機能

策定されたゲノム全体の遺伝子頻度を分析することで、パンゲノム内の遺伝子の分布が明らかになる。研究者たちは、特定の遺伝子を含むゲノムがいくつあるかを示すヒストグラムでこのデータを可視化できる。累積分布は、コア、アクセサリー、レアゲノムの境界を定義するのに役立つ。

コアゲノムには、これらの株を統合する多くの重要な機能と特性がある。例えば、代謝プロセスや運動に関連する特定のシステムがコア遺伝子に見られる。しかし、コア遺伝子の中には機能が未知のものも多く、さらなる調査が必要な分野を示している。

アクセサリーゲノムの特徴

アクセサリーゲノムは、異なるE. coli株の多様性とユニークな特性についての洞察を提供する。遺伝子のカテゴライズは、研究者がこれらの遺伝子が株の挙動や能力にどのように寄与しているかを理解するのに役立つ。アクセサリーゲノムの分析は、遺伝子レベルの違いを詳細に調べることを可能にする構造化された組織を明らかにする。

非負マトリックス因子分解(NMF)などの技術を使用して、科学者たちは遺伝的データをさらに分解し、共通の遺伝子に基づいて類似した株をグループ化するパターンを明らかにする。この数学的アプローチは、株間の遺伝的関係を明らかにし、特定のグループに共通する遺伝子のセットを表す「フィロン」を定義するのに役立つ。

フィロンの特徴付け

フィロンは、特定の系統群の株に見られる遺伝子構成に基づいて定義される。これらのフィロンの分析は、株がどのように集まっているかを明らかにし、遺伝子の存在パターンを示す。系統群A、B1、Cなどは明確なクラスターを形成し、遺伝的類似性と違いを強調する。

この分析を通じて、研究者は特定の遺伝子がE. coli株の特性や挙動にどのように関連しているかについての洞察を得る。これにより、病原性や抵抗性に関連する特性を特定でき、臨床診断や治療戦略が改善される可能性がある。

パンゲノム研究の意義

E. coliの遺伝的構造の包括的な分析は、いくつかの意義を持っている。株との関係や遺伝的特徴を定義することで、研究者たちはこれらの細菌がどのように機能し、環境と相互作用するかをよりよく理解できる。この知識は、E. coliによる感染症の治療プロトコルをインフォームするのに役立つ。

さらに、大量の配列データを生成できる能力を持つことで、科学者たちは広範な分類群にわたる同様の研究が行えると期待している。これにより、多くの細菌の遺伝的定義が明確になり、微生物の多様性や進化に対する理解が進む。

結論

E. coliのパンゲノムの研究は、遺伝的景観について貴重な洞察を提供した。遺伝的内容に基づいて株を分類することで、研究者たちはその挙動や病原性を定義する特性を特定できる。もっと多くのゲノム配列が利用可能になるにつれて、この知識を公衆衛生に応用する可能性が大幅に向上する。

E. coliに関する研究は、他の細菌種を理解するための青写真を提供し、微生物学における診断や治療法の向上への道を切り開いている。遺伝的多様性の探求は、微視的なレベルでの生命の複雑さを明らかにし、健康や病気に対するアプローチに影響を与え続けている。

オリジナルソース

タイトル: The Pangenome of Escherichia coli

概要: Thousands of complete genome sequences for strains of a species that are now available enable the advancement of pangenome analytics to a new level of sophistication. We collected 2,377 publicly-available complete genomes of Escherichia coli for detailed pangenome analysis. The core genome and accessory genomes consisted of 2,398 and 5,182 genes, respectively. We developed a machine learning approach to define the accessory genes characterizing the major phylogroups of E. coli plus Shigella: A, B1, B2, C, D, E, F, G, and Shigella. The analysis resulted in a detailed structure of the genetic basis of the phylogroups differential traits. This pangenome structure was largely consistent with a housekeeping-gene-based MLST distribution, sequence-based Mash distance, and the Clermont quadruplex classification. The rare genome consisted of 163,619 genes, about 79% of which represented variations of 315 underlying transposon elements. This analysis generated a mathematical definition of the genetic basis for a species.

著者: Siddharth M Chauhan, O. Ardalani, J. C. Hyun, P. V. Phaneuf, J. M. Monk, B. O. Palsson

最終更新: 2024-06-08 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.06.07.598014

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.06.07.598014.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事