GALEON: 遺伝子ファミリー分析の新しいツール
GALEONは研究者が遺伝子ファミリークラスターとその進化を理解するのを手助けするよ。
― 1 分で読む
遺伝子クラスターは、特定の機能を果たすために一緒に働く遺伝子のグループだよ。これらのクラスターは、生物のゲノム、特に植物、動物、菌類を含む真核生物に見られることが多い。よく知られている遺伝子クラスターの一つは、遺伝子ファミリーと呼ばれてるんだ。遺伝子ファミリーは、共通の祖先から進化した似たような遺伝子から成り立っていて、遺伝子重複というプロセスを介して形成されることが多い。この重複は、細胞分裂の際に遺伝物質が混ざる時によく起こるんだよ。
最近、いろんな種のゲノム情報がもっと揃ってきたけど、研究者たちはこれらの遺伝子ファミリーの進化を完全には分析できてないんだ。いくつかの要因がこの分析を難しくしてる。DNAをシーケンスする際に起こりうるエラー、繰り返しのDNA部分によって引き起こされる不完全なゲノムデータ、遺伝子の特定におけるミスなどが含まれるんだ。
これらの課題から、約10から100の遺伝子を含む中規模の遺伝子ファミリーの研究が難しくなってる。数百または数千の遺伝子を持つ大規模なファミリーは、さらに分析が難しい。でも、DNAシーケンシングのコストは下がってきてて、長いDNAのシーケンシングのための新しい技術も出てきてる。さらに、遺伝子ファミリーを全体のゲノムの文脈で理解するのを助ける新しいコンピュータプログラムもあるんだ。こうした増え続けるツールのセットは、以前の課題を克服する希望を提供してるよ。
遺伝子ファミリー分析の課題
遺伝子ファミリーの分析を複雑にする主な問題は二つある。まず、遺伝子ファミリーが非常に大きいこと。次に、最近の遺伝子重複が多く含まれていることがさらに複雑さを増すんだ。現在のゲノム分析技術、特に長いDNAリードを使ったものでも、繰り返しや非常に似た大きなDNAセクションを組み立てるのが難しい。この能力の不足は、遺伝子ファミリーのメンバーがいつどのように起こったのかを特定する際にエラーを引き起こす可能性がある。
また、これらの課題は、遺伝子ファミリーの進化につながる異なるプロセスを区別するのを難しくしてる。例えば、遺伝子重複が密接に関連する遺伝子間でDNAセグメントの交換によって起こる場合、これは遺伝子ファミリーの進化的歴史に影響を与えることがある。正確に測定されないと、これらの遺伝子が進化の観点でどのように関連しているかについて誤解を招くことになるかもしれない。
さらに、遺伝子ファミリー内で頻繁に遺伝子重複が起こると、異なる遺伝子間の関係を研究する研究者を誤導する可能性がある。より良い染色体レベルのゲノムアセンブリが、この遺伝子ファミリーの進化と組織についてさらに深く掘り下げるのに役立つかもしれない。
遺伝子分析の現在のツール
現在、偏りなく遺伝子クラスターを見つけるためのバイオインフォマティクスツールはいくつかあるけど、すべての分析を組み合わせて遺伝子の機能について意味のある洞察を与える単一の包括的なツールは存在しないんだ。このギャップのせいで、研究者たちは必要な情報を得るために複数のツールを使わなきゃならず、これは時間がかかるし、複雑になることが多いんだ。
このニーズに対応するために、GALEONという新しいバイオインフォマティクスツールが開発された。GALEONは、科学者がゲノムデータ内の遺伝子ファミリークラスターを特定、分析、可視化するのを助けることを目的としたツールなんだ。このツールは使いやすくて、遺伝子の位置情報と、オプションでタンパク質配列を含むシンプルな入力ファイルが必要なんだ。
GALEONの働き
GALEONはまず、遺伝子ファミリーのクラスターを特定するところから始まる。すると、似たような遺伝子が偶然より近くにあるかどうかをチェックするんだ。もし、特定の距離内に密接に位置している遺伝子の数が一定数以上であれば、GALEONはそれらをクラスターと見なすんだ。
さらに、GALEONはこれらの遺伝子クラスターの物理的配置とその進化的歴史との関係を分析する。この分析は、これらの遺伝子ファミリーがどのように起こり、進化してきたかについての洞察を提供するんだ。
この分析を文脈に位置づけるために、GALEONは既存のツールを使って遺伝子ファミリーのメンバーがコードするタンパク質の複数の配列アライメントを作成する。このステップは、タンパク質間の類似点と相違点を理解するのに重要なんだ。GALEONは、FastTreeまたはIQ-TREEの二つの方法から選んで、遺伝子ファミリーのメンバー間の進化的関係を地図にする系統樹を構築するんだ。
この木から得られる情報は、研究者が遺伝的距離を見積もるのに役立つ。それは遺伝子間の物理的距離と比較できるんだ。GALEONはまた、非クラスター遺伝子コピーに起因する遺伝的距離のどのくらいが特定の統計を計算することで示すんだ。これにより、遺伝子のクラスター化が進化に影響を与えるかどうかを深く理解することができるんだよ。
結果と可視化
GALEONからの出力には、さまざまなテーブルや可視化が含まれていて、その結果はレポートにまとめられる。テーブルは焦点となる遺伝子ファミリーのメンバーの概要を提供し、クラスター化されているものとされていないもの(シングルトンとして知られる)として分類されるんだ。さらに詳しいテーブルは、クラスター内の個々の遺伝子に関する追加情報も提供するよ。
それに加えて、GALEONは異なる染色体にわたる各クラスターに含まれる遺伝子の数を示す棒グラフを生成する。ヒートマップは、ゲノムの足場上でこれらのクラスターがどこに位置しているかを正確に示すんだ。タンパク質データが提供されると、GALEONは物理的距離と進化的距離の関係を示すグラフを含む追加の視覚表現を作成するよ。
ユーザーはGALEONからの視覚出力をカスタマイズできて、パラメータを調整して分析ニーズや好みによく合うようにできる。この柔軟性は、研究者が成果を効果的に提示しようとする際に重要なんだ。
結論
GALEONは、全ゲノム内の遺伝子ファミリークラスターを研究する科学者たちにとって強力で包括的なツールを提供してる。このツールは、遺伝子の物理的配置とその進化的歴史を一緒に分析する統合的な方法を提供することで、遺伝子ファミリーの機能や重要性を明らかにするのに役立つんだ。
シーケンシング技術やバイオインフォマティクスの進展が続いている中で、GALEONは遺伝子がどのように進化し、相互作用するのかを理解するための一歩前進を示してる。このツールは、遺伝子ファミリーの起源、維持、進化に関心のある科学者にとって重要なリソースとなり、さまざまな生物における遺伝子機能や関係についての知識を向上させるものになるんだ。
タイトル: GALEON: A Comprehensive Bioinformatic Tool to Analyse and Visualise Gene Clusters in Complete Genomes
概要: MotivationGene clusters, defined as a set of genes encoding functionally-related proteins, are abundant in eukaryotic genomes. Despite the increasing availability of chromosome-level genomes, the comprehensive analysis of gene family evolution remains largely unexplored, particularly for large and highly dynamic gene families or those including very recent family members. These challenges stem from limitations in genome assembly contiguity, particularly in repetitive regions such as large gene clusters. Recent advancements in sequencing technology, such as long reads and chromatin contact mapping, hold promise in addressing these challenges. ResultsTo facilitate the identification, analysis, and visualisation of physically clustered gene family members within chromosome-level genomes, we introduce GALEON, a user-friendly bioinformatic tool. GALEON identifies gene clusters by studying the spatial distribution of pairwise physical distances among gene family members along with the genome-wide gene density. The pipeline also enables the simultaneous analysis and comparison of two gene families, and allows the exploration of the relationship between physical and evolutionary distances. This tool offers a novel approach for studying the origin and evolution of gene families. Availability and ImplementationGALEON is freely available from http://www.ub.edu/softevol/galeon, and from https://github.com/molevol-ub/galeon
著者: Julio Rozas, V. A. Pisarenco, J. Vizueta
最終更新: 2024-04-17 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.04.15.589673
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.04.15.589673.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。