タンデムリピートが健康に与える影響を理解する
DNAのタンデムリピートは、さまざまな遺伝的疾患や検出の難しさに関連してるよ。
― 1 分で読む
目次
タンデムリピート(TR)は、DNAの中で小さなセグメントが繰り返されるパターンのことだよ。これには短いもの(短タンデムリピート、STR)もあれば、長いもの(可変数タンデムリピート、VNTR)もあって、STRは1から6塩基対、VNTRは7塩基対以上となる。これらのTRはヒトのゲノムの約3%を占めていて、残念ながら多くの病気と関連しているんだ。STRだけでも色んな遺伝的障害に関与していて、60以上の病気がこのリピートの拡張にリンクされているみたい。約3000人に1人がこのSTRに関連する病状に影響を受けていると推定されていて、その多くは診断されていないんだ。
タンデムリピートの検出の課題
TR関連の病気がよく診断されない理由の一つは、これらの変異を検出して解釈するのが難しいから。単一塩基変異(SNV)とは違って、TRは複雑であまりよく理解されていない。研究者たちは、ゲノム中でこれらの反復配列を正確にマッピングするのが難しくて、大きな課題に直面しているんだ。技術的な問題のせいで、次世代シーケンシング技術が進んでも、TRはしばしば無視されてきた。
ショートリードシーケンシングは、リピートの長さがリード自体と似たり、場合によってはそれより長くなったりすることで苦しむことがある。ロングリードシーケンシングは、より長いDNAのストレッチを読み取れる利点があるんだけど、シーケンシングプロセスからのノイズやリピートのカバレッジが低いなど、独自の課題もある。結果として、TRは遺伝子研究からしばしば除外されたり、よく知られたものだけが調べられることが多い。この無関心さは大きなギャップで、特にTRが遺伝病の「失われた遺伝性」の一部を説明するかもしれないから重要だよ。
TR変異の解釈の複雑さ
研究者がTRを遺伝子検査に含めたとしても、見つかった変異の解釈は依然として複雑なんだ。遺伝データをフィルターする一般的な方法、例えば遺伝のパターンやシーケンシング深度を確認することで、いくらかの洞察を得ることができるけど、TRはさらに複雑な層を追加する。たとえば、ほとんどのTRはゲノムのコーディング領域に位置してるけど、一部はノンコーディング領域で重要な役割を果たすこともある。数千人を含む広範な研究からの集団頻度データは、病気に関連する希少変異の特定に役立つけど、TRの通常のリピート範囲は、しばしばずっと小さな研究に基づいているんだ。
TRは、非反復的なゲノム領域よりもずっと高い率で変異することが知られている。この高い変異率は先祖によって大きく異なることもあって、これらの変異を理解し解釈するのがさらに難しくなるんだ。多くのTR関連の病気では、リピートの長さが有害になる閾値が不明確で、これは現在進行中の研究のテーマになっている。
TRの特徴をカタログ化する必要性
TR病の複雑さから、診断や研究の目的でこれらの座位に関連する特徴をカタログ化する必要が明らかになっている。いくつかのTR病はさまざまなリソースに記録されているけど、情報のレベルにはばらつきがある。オンラインの遺伝リソースは貴重な情報を提供するけど、TRに特化していない場合が多く、簡潔で実行可能なデータが欠けていることがあるんだ。
STRchiveは、現在の文献、研究成果、大規模なゲノムデータベースを基に、ヒトのTR病の座位に関する情報を集約するダイナミックなリソースなんだ。このリソースは、TR変異を特定し理解するプロセスを簡素化することを目指している。自動システムと専門家の監視を組み合わせることで、STRchiveは自分のコンテンツの正確性とタイムリーさを確保しているんだ。
TR病座位の理解に貢献する
STRchiveは、文献、臨床報告、および主要なゲノムデータベースから得られた68の病気関連座位に関する情報を現在含んでいる。TR座位の選定は、信頼性を確保するために複数の証拠に基づいている。各座位には、ゲノムの位置、リピートモチーフ、病気を引き起こすアレルの範囲など、重要なデータが含まれている。
自動システムが新しい文献で定期的にデータベースを更新している。これに手動でのキュレーションと専門家からの貢献が加わることで、STRchiveは各病気関連座位に関する詳細な情報を提供できるんだ。
TR病の影響を評価する
研究によれば、多くのTR病は子供の頃に現れることがあり、主に大人に影響を与えるという一般的な認識に反しているんだ。実際、文書化されたTRの条件の82%は子供に影響を与えられて、3分の1以上は生後1年以内に症状が現れることがある。この発見は、特にこれらの条件のいくつかが重篤な健康結果をもたらす可能性があるため、若い人々のTR病に対する認識を高める必要性を強調しているよ。
アレルのサイズ、臨床的な結果、および発症年齢の関係もTR病を理解するのに重要だ。大きなリピート拡張は、より早い発症やより重篤な症状と関連していることが多いんだ。例えば、ハンチントン病は通常成人期に現れるけど、大きな拡張があると若い人に症状が現れることがあるんだ。
モチーフの複雑さと変異の解釈
STRchiveは、各座位で特定された異なるモチーフを文献の重要性に基づいて分類して記録しているよ。多くの場合、ゲノム内の参照モチーフが病原性のもので、病原性は主にリピートのサイズによって決まるんだ。ただし、一部の座位には異なる病原性の意味を持つ複数のモチーフが存在している。だから、これらのモチーフの生物学的な影響を特定するのは、今もなお大きな課題なんだ。
STRchiveにある情報は、異なる配列が健康にどう影響するか理解するのに役立つ。これは正確な診断には重要なことだよ。アレルのサイズが可能な健康結果を決定する上で重要だけど、配列そのものやその中の中断も重要な役割を果たすことがある。
集団データを使ったTR分析
集団レベルのデータを分析することで、TR座位の理解が大いに進むんだ。ゲノム集積データベース(gnomAD)は、大規模な集団からの遺伝子型データを提供していて、研究者はリピートサイズの分布を既知の病気の発生率と比較できるようになっている。これにより、特定の病原性遺伝子型が、見た目には影響を受けていない集団でどのくらい一般的かを推定することができるんだ。
これらの発見を発生率の推定と比較することで、特定の遺伝的変異の潜在的な影響をよりよく理解できるけど、現在の集団データの制限は、全範囲の変異とその健康への影響をキャッチするためにより広範な研究が必要だということを強調しているよ。
診断と研究におけるSTRchiveの役割
STRchiveは、研究者や臨床医にとっての道具箱として機能していて、TR変異を病気の文脈で評価するためのロードマップを提供しているんだ。既存の文献やデータを統合しながらキュレーションされた情報を提供することで、STRchiveは臨床の場でどの変異がより詳しく調べる価値があるかを優先するのに役立つよ。
各変異をアレルのサイズ、配列の構成、関連する表現型に基づいて評価することで、臨床医は患者の結果に対する期待を情報に基づいて作り出せる。これにより、より正確な診断と患者管理が可能になるんだ。
さらに、STRchiveのリソースは、TR病に関する今後の研究や進行中の研究を導くことができる。この情報は新しい座位の発見や既知のリピート拡張の病原性閾値の洗練をサポートすることができるんだ。
結論
タンデムリピートは、重要だけどしばしば見落とされがちなヒトの遺伝学の分野だよ。彼らが健康に与える影響をより包括的に理解するにつれて、STRchiveのようなリソースは知識のギャップを埋め、診断努力を向上させるために重要になる。TR病の複雑な性質を考えると、これらの変異をカタログ化し解釈する作業は今も続いているけど、特に子供のような過小評価された集団の患者の結果を改善するためには重要なんだ。研究の継続やシーケンシング技術の進展が、タンデムリピートに関する謎を解き明かし、関連する障害の診断や治療を改善する助けになるだろう。
タイトル: STRchive: a dynamic resource detailing population-level and locus-specific insights at tandem repeat disease loci
概要: Approximately 3% of the human genome consists of repetitive elements called tandem repeats (TRs), which include short tandem repeats (STRs) of 1-6bp motifs and variable number tandem repeats (VNTRs) of 7+bp motifs. TR variants contribute to several dozen mono- and polygenic diseases but remain understudied and "enigmatic," particularly relative to single nucleotide variants. It remains comparatively challenging to interpret the clinical significance of TR variants. Although existing resources provide portions of necessary data for interpretation at disease-associated loci, it is currently difficult or impossible to efficiently invoke the additional details critical to proper interpretation, such as motif pathogenicity, disease penetrance, and age of onset distributions. It is also often unclear how to apply population information to analyses. We present STRchive (S-T-archive, http://strchive.org/), a dynamic resource consolidating information on TR disease loci in humans from research literature, up-to-date clinical resources, and large-scale genomic databases, with the goal of streamlining TR variant interpretation at disease-associated loci. We apply STRchive --including pathogenic thresholds, motif classification, and clinical phenotypes--to a gnomAD cohort of [~]18.5k individuals genotyped at 60 disease-associated loci. Through detailed literature curation, we demonstrate that the majority of TR diseases affect children despite being thought of as adult diseases. Additionally, we show that pathogenic genotypes can be found within gnomAD which do not necessarily overlap with known disease prevalence, and leverage STRchive to interpret locus-specific findings therein. We apply a diagnostic blueprint empowered by STRchive to relevant clinical vignettes, highlighting possible pitfalls in TR variant interpretation. As a living resource, STRchive is maintained by experts, takes community contributions, and will evolve as understanding of TR diseases progresses.
著者: Harriet Dashnow, L. Hiatt, B. Weisburd, E. Dolzhenko, G. E. VanNoy, E. N. Kurtas, H. L. Rehm, A. Quinlan
最終更新: 2024-05-21 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.05.21.24307682
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.05.21.24307682.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。