デジタルヘルスケアにおけるデータギャップの管理
新しい方法がデジタル健康記録の欠損データを解決するのに役立つ。
― 1 分で読む
デジタルヘルスケアへのシフトが日常データを大量に生み出してるんだ。このデータは患者についての貴重な洞察を提供して、研究やサービス改善、公共の健康モニタリングに役立つ。でも、このデータを分析するのは、研究のために特別に集めたデータと比べて、全然違う課題があるんだ。
まず大きな問題は、ヘルスケアがデジタル化するにつれて、どんなデータが利用可能か、フォーマットがどうなってるか、どの情報が含まれてるかが頻繁に変わること。これが一貫性を欠く原因になって、複数の病院を巻き込む長期研究を進めるのが難しくなるんだ。
この問題を解決するために、いくつかの研究者はデータの突然の変化を見つけるツールを提案したり、分析する前にデータを標準化する方法を探したりしてる。でも、これらの初期ステップがあっても、まだ多くの課題に対処する必要があるんだ。
まず、データの時間による変化は、新しい技術や他の要因によるものかもしれない。技術の更新による変化とケアの実践の変化や患者の人口動態の変化によるものを分けるのが重要だ。
次に、関わる技術的な変化がどんどん複雑になってきてる。例えば、データシステムには複数の病院や部門が含まれていて、それぞれ独自の実践を持ってる。分析するデータの種類も増えてきていて、診断コード、臨床サマリー、テスト結果、画像、薬剤などが含まれてる。これらの変化を視覚的にデータを見ただけでモニタリングするのは膨大なリソースが必要で、自動化の必要性が浮き彫りになってる。
この研究では、病院のデジタル化が進む中で欠損しているデータを自動的に管理する方法が開発された。研究はパリ大規模病院グループのデータに焦点を当てて、さまざまな記録を集める新しい機能がどのように導入されて欠損データが発生するかを見てる。この機能が病院や部門、ユニットのレベルでどれくらい早く採用されたかを分析して、このモデルの効果をさまざまな質や健康に関する指標を使って評価した。
研究の目的は以下の質問に答えることだった:
- 健康記録のデジタル化の進行を自動的にモデル化できる?
- 特定の観察研究を行う際に、このプロセスで発生する欠損データに対してこのモデルを使って調整できる?
研究プロセス
研究は関連する倫理委員会から承認を受けた。地元の法律に従って、この種の研究には患者の同意は必要なかった。患者には研究について伝えられ、データが使われるのを望まない人は除外された。
データソース
パリ大規模病院グループは、パリ地域にある38の病院から成り、年間約150万件の入院を管理してる。共通の電子健康記録システムが2012年から徐々に導入された。研究では、入院、救急外来の訪問、診断コード、退院処方箋、コンサルテーションレポートなど、システムのさまざまな機能を使って収集されたデータが扱われてる。データは毎日処理され、研究は2023年7月に実施された。
EHR採用の理解
これらの病院での電子健康記録システムの導入は、さまざまな機能を通じて行われていて、各タイプのデータの収集は特定の機能に依存してる。例えば、入院記録の追跡機能は病院レベルで採用されてる一方で、救急部門や集中治療室など、特定の部門やユニットによっても採用されてる。
これらの機能がどのように使われているかの正確なデータを集めるのは簡単じゃなくて、現在は中央集権的な知識ベースが存在しないんだ。だから、データ駆動型の方法を使って分析することになった。このデータへの深掘りプロセスは新機能が即座に利用可能なデータの増加をもたらすこともあるけど、ヘルスケア提供者による徐々に使われることがその影響を和らげることもある。時々、古いシステムのデータが新しい電子システムにコピーされることもあって、データの状況をさらに複雑にしてる。
電子健康記録の機能が採用された時期を自動的に特定するために、各医療サイトでの各機能の完全性を計算して、時間に沿ってデータを分析するためにステップ関数を使った。
完全性を測定する方法は2つ使われて、その機能によって異なった。1つは、少なくとも1つのデータポイントを持つ入院記録のパーセンテージを見たもので、もう1つは、研究中に記録された最高のデータエントリー数に対して正規化した月ごとのデータエントリー数を用いた。このモデリング技術は、採用日とその日以降の平均的な完全性の安定性を推定するのに役立った。
質や健康に関連する指標は、電子健康記録データを使ってケアの質を評価したり、病気の流行を追跡するために分析できる。ただし、時間の経過とともに欠損データがあると不正確な推定が発生する。質の指標は記録された結果のある入院の月ごとのパーセンテージとして定義され、疫学指標は季節性の病気に関連する入院の週ごとの数として定義された。
統計分析
連続データは中央値と範囲で報告され、カテゴリカルデータは数値とパーセンテージで示された。質や疫学指標は、ある定義された開始日から2022年5月まで計算され、この時期に一部の問題が臨床レポートの統合を制限した。
質の指標の変化は線形関数を使ってモデル化された。モデルの係数とその信頼区間は回帰分析を通じて推定された。時間依存的な指標の変化について議論され、COVID-19パンデミックがブロンキオリティスやインフルエンザの季節性疾患にどのように影響したかに焦点が当てられた。
分析には2つの方法が使われた:デジタル化プロセスを考慮しないナイーブアプローチと、以前に確立されたモデルを使って結果を評価するデータをフィルタリングする新しいアプローチ(完全ソースのみの方法)。
ナイーブな方法を使うと、指標の値が時間とともに増加して、結果の検出が向上したことを反映することが期待された。一方、完全ソースのみの方法は、結果を分析するために使用されるデータソースを安定化させて、誤解を招く結果を防ぐことが期待された。
感度分析が行われ、開始日を変えて質の指標を検討し、病院のサブグループ分析を行った。
EHR採用モデリング
病院システムのデータウェアハウスには、1400万人以上の患者の記録が含まれてる。収集されるデータの量は着実に増加していて、さまざまなデータカテゴリーで顕著な違いが見られる。
電子健康記録機能の採用は医療サイトによって異なり、機能が統合される方法に合わせてステップ関数を使ってモデル化された。入院や救急外来の記録などは迅速に採用される一方で、コンサルテーションや処方レポートなどはより徐々に採用されていった。
選択された病院や部門の完全性の推定は、新しい機能が導入されるにつれてデータの可用性に差があることを示してた。
質の指標
研究では、ナイーブなアプローチと完全ソースのみのアプローチの両方を使って、さまざまな開始日の結果を比較することによって質の指標の変動が観察された。どちらのアプローチも、一部の指標では似たような結果を示したが、他の指標では不一致が見られた。ナイーブな方法では、一部の質の指標が時間とともに増加したのに対し、完全ソースのみのアプローチはデータをフィルタリングして安定性を追求したため、値が減少した。
感度分析でもこの傾向は確認され、完全ソースのみの方法がさまざまな病院で安定化効果を示したが、一般にこの方法は指標の値を低下させた。
疫学指標
研究では、ブロンキオリティスやインフルエンザの週ごとの入院数も両方のアプローチで追跡された。COVID-19がこれらの傾向に与えた影響はどちらの場合も確認されたが、ナイーブな方法ではデータ収集プロセスの変化を考慮していなかったため結果の解釈が難しかった。
完全ソースのみの方法に焦点を当てることで、季節性流行病をより正確に分析でき、デジタル化による歪みから解放された。
結論
この研究は、ヘルスケアのデジタル化によって引き起こされるデータの質や可用性の変動を克服する方法を提供することを目指してる。完全ソースのみの方法は、電子健康記録の不完全な採用によって結果を歪める可能性のあるデータポイントをフィルタリングする役割を果たす。
この方法は完璧な解決策ではないけど、進化するデータシステムから生じるバイアスの影響を最小限に抑える手助けにはなってる。研究は、リアルワールドデータプラットフォームを利用する際のいくつかの課題を強調している。具体的には、データアクセスを制限するプライバシーの懸念や、データ提供者と研究者との間の調整の必要性がある。
限界があるにも関わらず、この研究はヘルスケアデータを効果的に分析するためのツールや方法を作る方向に進んでる。常に変わりゆく技術の状況に対応するために、未来の研究も引き続き適応し、革新していく必要があるんだ。
タイトル: Adjusting for the progressive digitization of health records: working examples on a multi-hospital clinical data warehouse
概要: AO_SCPLOWBSTRACTC_SCPLOWO_ST_ABSObjectivesC_ST_ABSTo propose a new method to account for time-dependent data missingness caused by the increasing digitization of health records in the analysis of large-scale clinical data. Materials and MethodsFollowing a data-driven approach we modeled the progressive adoption of a common electronic health record in 38 hospitals. To this end, we analyzed data collected between 2013 and 2022 and made available in the clinical data warehouse of the Greater Paris University Hospitals. Depending on the category of data, we worked either at the hospital, department or unit level. We evaluated the performance of this model with a retrospective cohort study. We measured the temporal variations of some quality and epidemiological indicators by successively applying two methods, either a naive analysis or a novel complete-source-only analysis that accounts for digitization-induced missingness. ResultsUnrealistic temporal variations of quality and epidemiological indicators were observed when a naive analysis was performed, but this effect was either greatly reduced or disappeared when the complete-source-only method was applied. DiscussionWe demonstrated that a data-driven approach can be used to account for missingness induced by the progressive digitization of health records. This work focused on hospitalization, emergency department and intensive care units records, along with diagnostic codes, discharge prescriptions and consultation reports. Other data categories may require specific modeling of their associated data sources. ConclusionsElectronic health records are constantly evolving and new methods should be developed to debias studies that use these unstable data sources.
著者: Adam Remaki, B. Playe, P. J. Bernard, S. Vittoz, M. Doutreligne, G. Chatellier, E. Audureau, E. Kempf, R. Porcher, R. Bey
最終更新: 2023-08-21 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.08.17.23294220
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.08.17.23294220.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。