EHRデータを使った糖尿病入院研究の再現
この研究は、COVID-19後の糖尿病入院に関する発見を国のデータを使って再現してるよ。
Richard Williams, D. Jenkins, T. Bolton, A. Heald, M. A. Mizani, M. Sperrin, N. Peek, CVD-COVID-UK/COVID-IMPACT Consortium
― 1 分で読む
電子健康記録(EHR)データを使った観察研究は、人口の健康理解において重要な役割を果たしてるんだ。貴重な洞察を提供するけど、結果が無作為化対照試験の結果と比べて信頼性が低いと見られることが多いのは、主に結果が広い人口に当てはまるかどうかや、結果に影響を与える可能性のあるバイアスについて懸念があるからなんだ。
再現性の重要性
再現性っていうのは、別のグループや異なるデータソースで研究を繰り返すプロセスのこと。これが重要なのは、元の結果が有効かどうかを確認できるから。別の場所で同じ結果が得られると、その結果に対する信頼度が増す。これは特に医療や公共政策の決定において重要だよ。
観察研究での再現性は大きな課題の一つなんだ。再現性には3つの側面がある:
- 方法の再現性 - どれだけ研究が情報を共有して、他の人が分析を繰り返せるか。
- 結果の再現性 - 他の研究者が同じ結果にたどり着けるか。
- 推論の再現性 - 異なる研究者が似た結果から同じ結論を引き出せるか。
以前、マンチェスター大都市圏でCOVID-19に感染した1型糖尿病(T1D)と2型糖尿病(T2D)の患者の入院率を調べたことがある。研究では、糖尿病のない似たような個人と比較したんだ。COVID-19感染後、何らかの要因が糖尿病患者の入院増加に関連していることが分かったんだ。
研究結果
T1D患者については、年齢が高いこと、社会的 disadvantaged、そして高血圧やCOPDといった条件が入院リスクを高める要因だった。T2D患者でも同じ要因が関連してたけど、男性、非白人の民族、重度の精神疾患も入院リスクを上げる役割を果たしてた。メトホルミンを服用していることや、低コレステロール値はリスクを下げるようだったよ。
この新しい研究では、イングランド全体をカバーする全国データベースを使って、これらの結果を再現できるかを目指したんだ。再現のための方法は簡単だったはずなんだけど、いくつかの課題に直面したんだ。その課題については、データ統治や構造の違いなどを含む別の論文で話し合ったよ。
再現研究の目標は、地域データセットと全国データセットの電子健康記録の間で、結果が似ているかを見ることだったんだ。
研究デザインとデータソース
この研究は、UKのプライマリ及びセカンダリーのヘルスケアソースから観察EHRデータを使った回顧的コホート研究の再現だった。
元のデータは、マンチェスター大都市圏の所有するケアレコードから得たもので、これはマンチェスターの住民のプライマリケアと入院データを含んでる。一方、再現研究では、COVID-19研究のために利用可能なNHSイングランドの全国セキュアデータ環境のデータを使ったんだ。
元の研究では、2020年1月1日から2021年5月31日までの間にCOVID-19の陽性反応があったマンチェスターのすべての患者を含めた。全国の研究では、2020年1月1日から2023年1月1日までの全英の患者に範囲を広げたことで、より完全なCOVID-19検査結果にアクセスできるようになったんだ。
2種類の分析を行った。最初の分析は、プライマリケアの検査データだけを使って元の研究の結果を再現することを目的にした。2つ目の分析では、全国データセットからのより包括的な検査データを含めた。
研究の主要なグループには、COVID-19の陽性反応を得る前にT1DまたはT2Dと診断された患者が含まれてた。さらに、糖尿病のないCOVID-19陽性反応を持つ対照患者とマッチングしたんだ。各患者は年齢、性別、COVID-19検査の時期でマッチさせた。
測定した結果は、COVID-19陽性反応から28日以内の理由を問わない入院だった。この再現では、全国データセットから入院データを収集し、元の研究はマンチェスターの個別の病院からのデータを使ってたんだ。
統計分析
元の研究は、糖尿病の人々の入院の可能性が高くなる要因を特定することを目指してた。今回は、前の研究と同様の統計的手法を用いてデータを分析した。初めに、対照なしの糖尿病患者を見て、その後に対照を加え、他の要因を調整したんだ。
データを分析した後、国家データの結果をマンチェスターの研究結果と比較した。特に、効果量やオッズ比が両研究の間で一貫しているかを確認したかったんだ。
人口の比較
2つの全国分析は、元の研究と比べてずっと大きなサンプルサイズの恩恵を受けた。元の研究では862人のT1D患者がいたけど、最初の全国分析は38,523人、2つ目は77,392人だった。T2D患者については、元の研究が13,225人だったのに対し、全国分析はそれぞれ448,829人と836,532人だった。
ほとんどの要因は研究間で似てたけど、いくつかの違いもあった。たとえば、全国分析ではかなり低い喫煙率が見られたけど、これは元の研究のカテゴリのエラーに起因してた。マンチェスターは多民族だから、民族データの比較に影響を与えたかもしれないね。
T1DとT2Dの分析結果
T1D患者の単変量分析では、分析した25の変数のうち、元のデータと全国データの間で効果量に有意な差が見られたのは3つだけだった。元の研究で有意だったほとんどの変数は、全国分析でも同様の関連を持ってた。
T2D患者については、最初の全国分析で4つの変数に有意な差があり、2つ目では8つ。とはいえ、すべての有意な結果は元の研究と同じ入院リスクとの関係を維持してたよ。
T1Dの多変量分析では、2つの変数がマンチェスターと全国データの間で効果量に有意な違いを示した。T2Dでは、より多くの変数が有意な差を示した。それでも、オッズの一般的な方向性はすべての研究で一貫してた。
結論と影響
この研究は、地域データベースからの結果が全国の文脈で再現できるかを確認することを目指してたんだ。EHRデータは質がさまざまだけど、大きなデータセットを分析すれば、欠損やバイアスのある情報の影響を軽減できるかもしれない。
我々の結果は、オッズ比が研究間でわずかに変わるかもしれないけど、全体の方向性や重要性はおおむね一貫していることを示してる。これは、地域の研究が特定の条件下で全国的に関連する可能性があることを示唆しているよ。
でも、データの設定が異なる観察研究の再現の重要性を強調する違いも見つかった。データソースや方法論の違いから不一致が起こるかもしれない。これは、さまざまな人口に対して結果が広く適用できるか確認するために、さらなる研究が必要だってことを示してるね。
改善のもう一つの道は、独立したチームが同じデータを分析することで、単一のチームでは見逃す可能性のあるエラーを発見できるかもしれないよ。
強みと限界
我々の分析は、マンチェスターと全国のデータセットからの包括的なデータを使ったおかげで良い結果が得られた。しかし、いくつかの限界もあった。使用したデータセットは完全に一致してなかったから、結果に影響を与える可能性がある。さらに、この研究から得られた結果は他の健康状態に対しては適用できないかもしれないけど、他の長期的な病気には関連性が高いと思われる。
それに、同じ研究チームが両方の研究に関わったことで、以前の結果を無意識のうちに強化するバイアスの可能性がある。ただ、元の研究に関わっていないチームメンバーがいることで、客観性を保つのに役立ったよ。
この研究は、異なる設定で結果が信頼できるかどうかを確認するために、研究を再現することの重要性を強調してる。これをすることで、より強固な証拠に基づいた医療の決定を改善できると思う。
タイトル: Replicating a COVID-19 study in a national England database to assess the generalisability of research with regional electronic health record data
概要: ObjectivesTo assess the degree to which we can replicate a study between a regional and a national database of electronic health record data in the United Kingdom. DesignA replication of a retrospective cohort study. SettingObservational EHR data from primary and secondary care sources in the UK. The original study used data from a large, urbanised region (Greater Manchester Care Record, Greater Manchester, UK). This replication study used a national database covering the whole of England, UK (NHS Englands Secure Data Environment service for England, accessed via the BHF Data Science Centres CVD-COVID-UK/COVID-IMPACT Consortium). ParticipantsIndividuals with a diagnosis of T1D or T2D prior to a positive COVID-19 test result. The matched controls (3:1) were individuals who had a positive COVID-19 test result, but who did not have a diagnosis of diabetes on the date of their positive COVID-19 test result. Matching was done on age at COVID-19 diagnosis, sex and approximate date of COVID-19 test. Primary and secondary outcome measuresHospitalization within 28 days of a positive COVID-19 test. ResultsWe found that many of the effect sizes did not show a statistically significant difference. Where effect sizes were statistically significant in the regional study, then they remained significant in the national study and the effect size was the same direction and of similar magnitude. ConclusionsThere is some evidence that the findings from studies in smaller regional datasets can be extrapolated to a larger, national setting. However, there were some significant differences and therefore replication studies remain an essential part of healthcare research. Strengths and limitations of this studyO_LIThe same team performed the original study and this replication study C_LIO_LIThe underlying data sources, while similar, had differences that may have affected the results C_LIO_LIThe focus of replication was a single outcome for a single condition and may not generalise to other disease areas C_LI
著者: Richard Williams, D. Jenkins, T. Bolton, A. Heald, M. A. Mizani, M. Sperrin, N. Peek, CVD-COVID-UK/COVID-IMPACT Consortium
最終更新: 2024-08-30 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.08.06.24311538
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.08.06.24311538.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。