Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# データベース

医療におけるデータ共有とプライバシーのバランスを取る

プライバシー保護を確保しながらデータ共有の重要性を考える。

Tânia Carvalho, Luís Antunes, Cristina Costa, Nuno Moniz

― 1 分で読む


医療におけるデータプライバ医療におけるデータプライバシーーを守る。重要な健康データを共有しながらプライバシ
目次

コロナウイルスのパンデミックは、世界中の生活の多くの側面を変えてしまったよ。一つの大きな側面は、情報やデータの共有の必要性だった。この共有が、ウイルスやその影響を理解し、戦うためのカギとなったんだ。多くの国が日々のコロナウイルスの感染者数を共有し、研究者や医療従事者が状況をよりよく理解できるようにした。この取り組みは、異なる組織間の協力を促し、様々なプラットフォームを通じて一般の人々にデータを提供することもできた。

データを共有することには多くの利点があるけど、プライバシーについての重要な疑問も生まれる。健康データを公開する時には、個人のプライバシーを守ることがめっちゃ重要なんだ。データ共有のプロセスは、最初からプライバシーを優先する現代的な方法に焦点を当てるべきだよ。

私たちの仕事では、ポルトガルの大きな病院のコロナウイルス感染者データを調べたんだ。データをプライベートに保ちながら、研究に役立てることが可能であることを示したかった。私たちの目的は、健康の専門家、プライバシー専門家、データサイエンティストを集めてチームワークの重要性を強調することだった。この協力が、プライバシーを確保しつつデータの有用性を保つ戦略を作るのに役立つんだ。

オープンデータの共有は、進展や革新を促すから価値がある。社会問題に対処するのにも役立つし、コロナウイルスの文脈でも見られるよ。データがみんなに公開されると、より多くの人が研究に参加できて、早く結果が得られるようになる。さらに、透明性を促進する法律が公的データの利用可能性を高めるのを促している。特にEUやアメリカでは、公的セクターの情報をアクセスしやすくし、再利用できるようにする取り組みがあるんだ。

オープンデータへのアクセスの利点は、情報の取り扱いを大きく変えることにつながった。でも、その利点にはプライバシーのリスクも伴う。だから、データが責任を持って倫理的に使用されることを確保するための法律や規制が作られているんだ。

GDPRやCCPAみたいな新しい規制が、オープンデータの必要性と個人のプライバシーを守る必要性のバランスを取るために設けられている。こうした法律は、潜在的なリスクからの安全策を維持しつつ、革新を促進することを目指しているよ。

多くの組織や政府は、データ管理のためのFAIR(Findable, Accessible, Interoperable, and Reusable)原則を支持している。FAIRは、データを見つけやすく使いやすくすることの重要性を強調し、同時に安全に共有できるようにする。

オープンデータの期待がある一方で、コスト、法的問題、データフォーマット、インフラの制限などのいくつかの課題も解決する必要がある。また、収集されたデータの多くは、古くなったり、もう役に立たなかったりするから、データ収集はプライバシーを守る厳格な原則に従って行わなければならない。

GDPRの第25条は、組織がデータ処理プロセスの最初からプライバシーを優先させるための必要な対策を講じなければならないと規定している。これを「デザインによるデータ保護」と呼ぶんだ。この原則に従うことで、個人を守るだけでなく、組織のデータ管理も改善され、効率性や持続可能性が高まるよ。

データ共有の利点とプライバシーの懸念を考えると、様々な用途にデータの有用性を最大限に活かしつつ、人々のプライバシーを守ることが重要になるんだ。この二つの目標の間で右のバランスを取るのは難しいけど、二つの分野に専門知識を持つプロが不足している中では特にそうだね。最高の結果を得るためには、多様なチームが必要だよ。

パンデミックの間、ポルトガルの病院は研究目的でコロナデータへのアクセスを求める多くのリクエストを受けた。そこで、病院は質の高い非識別データセットを提供するための可能性を評価するための専門家チームを編成した。私たちの協力は、プライバシーの原則と基準に従って患者データを変換するための推奨を生み出したんだ。

多くの研究がデータの非識別化手法に焦点を当てている中、私たちのアプローチはデータを慎重に変換し、専門家の意見を考慮に入れることだった。データを理解するためだけでなく、適切なプライバシー保護技術を適用するために、医療専門家からのインサイトの重要性を強調したいと思っていた。さらに、プライバシーを強化する技術について医療従事者の意識を高めることも目指してたんだ。

私たちは、非識別化プロセスに関わるステップを概説し、プライバシーリスクとデータの有用性のバランスを取る努力を強調した。私たちのコミットメントは、プライバシー規制に準拠した質の高いデータセットを社会のために提供することだった。知識の共有やイノベーション、ツールの開発が、パンデミックの課題に取り組むのに不可欠だという考えをサポートしていたよ。

プライバシーを意識したオープンデータ

プライバシーを意識したデータ共有には、プライバシーおよびサイバーセキュリティ法に従った適切なガバナンスが必要だ。GDPRは、新しいデータ処理活動が個人の権利に高いリスクをもたらす場合、データ保護影響評価(DPIA)が必要とされる。DPIAは、プロジェクトの初期段階で潜在的なプライバシーリスクを特定するための積極的なアプローチなんだ。

プロジェクトの設計段階では、データ処理のための法的根拠が不十分だったり、個人の権利と衝突したりする可能性がある様々な問題が明らかになることがある。(擬似)匿名化手法が必要な場合、Five Safesフレームワークが役立つことがある。このフレームワークは、(擬似)匿名化プロトコルを作成する方法を概要し、厳格な基準に従う。データ共有の決定に関わるプライバシーリスクを評価するためのガイドとして機能する。

データ共有の緊急の必要性は、急速に変化するコロナウイルスの状況によりさらに重要になっている。データへのタイムリーなアクセスは、ウイルスの拡散を管理する上で重要な役割を果たしてきた。特に、マスクなどの必需品の不足に対処するためのデータ駆動型戦略が開かれた政府データの利用によって効果を発揮してきた。

現在のコロナウイルス情報を提供するための多くの取り組みが始まっていて、Google HealthのコロナウイルスオープンデータリポジトリやData Science for Social Good Portugalなどがある。しかし、フォーマットの不一致、古い情報、致死率の推定に関する困難など、利用可能なCovid-19データには課題が残っている。

公衆衛生当局や雇用者は、地域のプライバシー当局が定める条件に従って、コロナウイルスに関連する個人データを処理することが許可されている。パンデミックの開始以来、ポルトガルの多くの研究グループは、情報に基づく意思決定に貢献するために、Covid-19に関連する医療データの取得に強い関心を示してきた。これに応えて、ポルトガルの保健局は、研究者にデータへのアクセスを提供する努力をしたが、情報の質や個人を再特定するリスクについての懸念があった。

リスクと利益の評価

識別可能なデータがどのように処理されるかを理解することは、プライバシー法において重要な役割を果たす。基本的なフレームワークは、組織が最初からプライバシー規制を遵守できるようにするために役立つ。多くの組織にとって、非識別化はすでに収集された識別可能なデータから始まる。しかし、同じ組織内でデータを共有したり、外部と共有したりすると、様々な課題が生じる。

Five Safesフレームワークは、データ共有のリスクと利益を評価するための有効なツールだ。何年も前から、組織がデータの有用性とプライバシーのバランスを取るために活用してきた。このフレームワークは、研究者がデータを直接共有するべきか、オープンデータとして公開するべきかを決定するのに役立つ。

Five Safesフレームワークの各段階には、プライバシーリスクを軽減するための具体的なアクションやコントロールがある。

セーフプロジェクト

データの流れを理解することは、個人情報の共有の法的および倫理的な限界を特定する上で重要だ。データの出所、誰がアクセスするのか、個人のプライバシーをどのように保護するかを考慮することが必要だ。

セーフピープル

データは、主な受取人だけでなく、他の人にもアクセスされる可能性があるため、個人を再特定する可能性についての懸念が生じる。潜在的な攻撃者が何らかの情報にアクセスできると仮定し、データの対象を再特定しようとする動機を持っていると考える必要がある。

セーフセッティング

データの環境は安全でなければならない。熟練した攻撃者が個人を識別するのを防ぐために、重要なコントロールにはアクセス制限、協力協定、保持ポリシーなどが含まれる。

セーフデータ

データを管理する人々と環境が評価されたら、攻撃の可能性を評価する必要がある。これにより、管理すべき潜在的な脅威を特定できる。

セーフアウトプット

非識別化データが特定の用途を意図していても、受取人が異なる結論を引き出す場合がある。データの誤用を防ぐために慎重な考慮が必要だ。コンテクストに基づきプライバシーのしきい値を定義することが、出力の完全性を確保するために重要だよ。

利益の評価

データ共有の利益を評価することは、関連するリスクを評価することと同じくらい重要だ。一般的に、利益は特定のデータセットがどれだけ有用であるかによって判断される。

組織内や部門間でデータを共有することで、冗長性が減り、コラボレーションが向上し、リソースの使用がより効率的になる可能性がある。オープンデータにおける利益は、社会的、環境的、健康的、政治的、経済的な側面にわたることがある。これらの利益は、政府の透明性や公共の関与を高め、イノベーションを促進し、政府のプロセスの改善につながることがあるんだ。

利益を考慮する際には、データ収集、処理、共有の各段階でプライバシーリスクも考慮しなければならない。したがって、包括的なリスク・ベネフィット評価は、組織の正の成果、これらの利益が発生する形式、潜在的なデータユーザー、そしてそれらの利益を達成する可能性を考慮すべきなんだ。

リスク・ベネフィット分析

データ共有のリスクと利益を両方分析することは重要で、不適切な共有は、役に立たないデータや個人のプライバシーにリスクをもたらすデータの公開につながる可能性がある。バランスを取るべき二つの重要な側面は、個人や社会に対する合法的な利益と、不適切なデータ処理から生じる潜在的な損害だよ。

リスク・ベネフィットマトリックスは、リスクと利益のさまざまなレベルを視覚化するのに役立ち、データセットを公開すべきかどうかを判断するのに役立つ。これらのレベルを評価するための複数の表現があり、通常は低、中、高、または非常に高いと分類される。

最も一般的な公開レベルは中程度だよ。しかし、もし利益が非常に高い場合、リスクを考慮することが重要なんだ。

データの安全性を確保するためには、個人情報を保護するために設計されたプライバシー機構を適用する必要がある。非識別化はその一つの手段なんだ。必要な非識別化の量は、データの意図された使用によって異なることが多い。

非識別化プロセスには、通常、属性の分類、リスクと有用性の評価、プライバシー保護技術(PPT)の適用、リスクと有用性の再評価の4つの重要なステップがある。プライバシーと有用性のバランスが取れていない場合は、適用される技術を調整する必要があるよ。

開示リスクの評価は簡単ではない。リスクは通常、攻撃者が自分のリソースやスキルを持って、データの対象を特定しようとするときに懸念となる。攻撃者が予想以上の情報を持っている場合、開示リスクが過小評価されるかもしれない。だから、組織はプライバシーリスクを評価する際にさまざまなシナリオを考慮する必要があるんだ。

属性は、それらの識別の可能性に基づいてカテゴリに分類される。直接識別子は個人を明確に識別するが、準識別子は他のデータポイントと組み合わせると識別につながる可能性がある。センシティブな属性は非常に重要で、通常は法律で保護されている。

属性が分類されたら、再特定のリスクを人気のある測定基準を使用して評価する必要がある。これらの測定基準は、攻撃者がデータ内の個人を特定できる可能性がどのくらいあるかを評価するんだ。

開示リスクを最小限に抑えるために、非侵入的なプライバシー保護技術を適用することができる。これには、非撹乱的および撹乱的な方法がある。非撹乱的技術は情報を減らすことを目的とし、撹乱的技術は元の値を歪めるためにランダム性を導入する。

データ管理を担当する組織は、Five Safesフレームワークに対処し、徹底的なリスク・ベネフィット評価を実施しなければならない。この初期分析は、研究の関連性を判断し、各段階でのリスクを評価するために重要なんだ。

要するに、この文脈でのデータ共有の利益は、研究者にとってデータへのアクセスを簡素化し、サポートチームが同じデータの継続的なリクエストから解放されることだ。患者データのセンシティブな性質に取り組みながら、個人のプライバシーに対するリスクを最小限に抑え、個人の権利を尊重することが重要だよ。

対象となったデータは、ポルトガルのコロナウイルス感染者で、具体的には2020年3月から2021年1月までの入院データだった。このデータセットには1,716人と38の属性が含まれていて、年齢、最初の陽性検査日、入院日、結果などが含まれていた。私たちは、分布を分析し、新しい特徴を作成することでデータセットの価値を高めようとし、新しい属性が臨床分析に関連していることを確保した。

変更を検証するために、私たちは専門家と密に連携して、実施された変更がその意義を維持することを確認した。例えば、各患者の入院日数を計算する属性を作成し、分析を簡素化しつつ無関係なデータを排除したんだ。

初期の開示リスク

私たちの研究では、組み合わせれば再特定につながる可能性のある準識別子に関して、多くの仮定を行った。異なるシナリオに基づいて再特定リスクの割合を計算し、準識別子のセットを大きく考慮するほどリスクが増加することを特定した。日付属性の特異性は、リスクに大きな影響を与えた。詳細な日付情報はプライバシーに関する懸念を引き起こすことができる。

実行分析は、攻撃者が個人のサブセットについて正確な情報を持っている可能性を理解する上で重要だった。このため、再特定リスクが高まる。例えば、介護施設や集中治療室に関連する個人は、サンプルサイズが小さいため、より高いリスクがあるんだ。

稀な状態を持つ個人のサブセットにも特別な配慮が必要で、これらは公に利用可能な情報を使用して簡単に再特定される可能性がある。だから、プライバシーの潜在的な侵害を防ぐために、こうしたデータを集約することが重要だよ。

非識別化プロセスでは、私たちは通常、原データを使用して有用性を測定する。しかし、モデリングが目的の場合、有用性はプライバシー保護技術を適用した後に評価し、データセットへの影響を判断する必要がある。

プライバシー技術の効果

分析を進める中で、私たちは複数回入院した個人のケースを特定した。再特定の可能性を減らすために、行レベルでの情報を抑制することを決定した。この行動はデータセットのサイズを少し減少させ、プライバシーリスクを潜在的に高める可能性があった。だから、開示リスクを再評価した。

再特定リスクをさらに軽減するために、プライバシーに重大な影響を持つ日付関連の属性に焦点を合わせた。正確なタイムスタンプを削除するところから始め、そのプロセス全体でリスクを評価した。結果、再特定リスクは大幅に減少したが、特定の属性の組み合わせには依然として懸念が残った。

特定のサブセットを調べると、介護施設のような似た特性を持つ個人が追加の保護手段を必要とすることがわかった。プライバシーを損なうことなく情報共有を最小限に抑えるための戦略は、特定の属性をより広いカテゴリーにグループ化することだよ。

健康専門家との協力は重要で、データの有用性を維持しつつプライバシーリスクを最小限に抑える方法についての洞察を提供してくれた。例えば、入院日数の分布に基づいて連続データを四分位に変換し、データセットの整合性を効果的に維持したんだ。

また、年齢データを区間化する可能性も探求し、分布の上部で区間が少ないと、より多くのグループ化が生まれ、最終的に再特定リスクが低下することに気づいた。

この段階では、プライバシー保護の満足なレベルに達するために日付属性への継続的な変換が依存していた。データセットの粒度を保ちながら、日付にノイズを導入して、値を歪めて再特定リスクを下げる方法を採用した。

この方法により、個々のユニークな識別子は安全に保たれつつ、データの全体的な有用性が維持された。私たちはデータを定期的に評価し、個人に関連する個人識別情報が含まれていないことを確認したんだ。

私たちの最終的な再特定リスクの評価では、適用された方法により、特定のシナリオでゼロリスクを達成できる可能性があり、プライバシー基準に従ったデータの共有が可能であることが示されたよ。

結論

オープンデータは、さまざまな分野で社会に利益をもたらす可能性があることが長い間認識されてきた。パンデミックはデータの可用性の重要性を明らかにしたけど、個人のプライバシーを守ることが最優先であることは変わらない。プライバシーの懸念がしばしば過度に慎重なデータ処理につながるけど、データを無駄にしないためにはバランスを取ることが重要なんだ。

今日のプライバシーの風景には、プライベートデータを保護する重要性に対する認識の欠如、プライバシー保護手法の理解不足、プライバシーを守ることが必ずデータの有用性を損なうという信念の三つの重要な課題が存在している。これらの問題に対処することで、共有されるデータの有用性を損なうことなくプライバシーを保護できるようにすることができるんだ。

効果的な非識別化は、保護対象となるデータセットのクリーニングから始まる。コロナウイルスデータの質に対する懸念が提起されてきたけど、質の悪いデータはプライバシー変換も質が低くなる原因となる。研究者が重要でない属性を特定し、関連するケースを集約する徹底的な事前分析が不可欠だよ。

プライバシー保護チームとデータ管理者の協力は、作成されたデータセットが統計的に堅牢であり、プライバシー基準を守っていることを保証するために非常に重要だ。

私たちが経験やフィードバックから学んでいく中で、データ管理者のプライバシー保護技術に対する認識を高めることが利益を生むだろう。非識別化プロセス全体を示すことで、専門家がどのようにプライバシー技術を適切に適用してデータの有用性を維持するかをより良く理解できるようにすることが重要なんだ。

データ保護チーム、データ公開チーム、エンドユーザーの協力は、社会に大きく貢献できる意味のあるプライバシーを意識したデータセットを生み出すために不可欠なんだよ。

オリジナルソース

タイトル: Empowering Open Data Sharing for Social Good: A Privacy-Aware Approach

概要: The Covid-19 pandemic has affected the world at multiple levels. Data sharing was pivotal for advancing research to understand the underlying causes and implement effective containment strategies. In response, many countries have promoted the availability of daily cases to support research initiatives, fostering collaboration between organisations and making such data available to the public through open data platforms. Despite the several advantages of data sharing, one of the major concerns before releasing health data is its impact on individuals' privacy. Such a sharing process should be based on state-of-the-art methods in Data Protection by Design and by Default. In this paper, we use a data set related to Covid-19 cases in the second largest hospital in Portugal to show how it is feasible to ensure data privacy while improving the quality and maintaining the utility of the data. Our goal is to demonstrate how knowledge exchange in multidisciplinary teams of healthcare practitioners, data privacy, and data science experts is crucial to co-developing strategies that ensure high utility of de-identified data.

著者: Tânia Carvalho, Luís Antunes, Cristina Costa, Nuno Moniz

最終更新: 2024-08-30 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2408.17378

ソースPDF: https://arxiv.org/pdf/2408.17378

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事