サスカトゥーンの近隣データを推定する
革新的な方法が地元の健康計画で国勢調査データをより効果的に活用するのに役立ってる。
― 1 分で読む
目次
最近、地域レベルでの健康計画や意思決定を改善するためにソーシャルデータを活用することへの関心が高まってるよ。カナダでは、こういう情報の主なソースは「人口センサスのロングフォーム」なんだ。このセンサスは、カナダ人の約25%から人口のデモグラフィックや社会経済的特徴について詳細な情報を5年ごとに集めるんだ。でも、プライバシーを守るために、このデータは健康機関と直接共有できないんだ。
代わりに、カナダ統計局はウェブサイトで「センサスプロファイル」と呼ばれるものを提供してる。これらのプロファイルは概要の統計を提供するけど、地域の健康機関が使う特定のエリアに必ずしも合致してるわけではないんだ。特定のエリアの詳細なカスタムデータを買うこともできるけど、これには費用がかかるし、いろんなエリアの情報を集めるのが大変なんだよね。
この問題を解決するために、一部の組織はセンサスプロファイルの情報を組み合わせて特定の地域のデータを推定しようとしてるんだけど、これが最適な方法だというのはあまり知られてないし、その強みや限界についての理解も不足してる。
サスカトゥーン市は、独自の地域に基づいてさまざまな社会指標のカスタムデータを定期的に依頼してる。カナダ統計局がデータを提供する最小エリアは「配信エリア(DA)」で、地元の近隣よりずっと小さく、約400〜700人がいるんだ。サスカトゥーンの近隣は通常約4,100人いるから、この違いを利用して小さなDAから近隣データを推定する方法を見つけるチャンスなんだ。
私たちのアプローチでは、DAデータをサスカトゥーンの近隣境界と組み合わせるための6つの異なる方法を見て、これらの推定値を市が受け取った実際のデータと比較したんだ。26の異なる指標、例えば通勤手段、教育レベル、家庭のタイプ、住宅状況、主要な職業カテゴリーについて正確にデータを再現できることがわかったよ。
私たちの重要な発見の一つは、私たちの方法は完璧ではないけど、実際には多くの実用的な使い方ができるってこと。最も効果的だった方法は「加重空間結合」で、各DAが近隣とどれくらい重なっているかを考慮したんだ。この方法は、平均して近隣ごとに約12%の精度だったけど、人口が少ないエリアでは精度が下がることも観察された。
また、計算を行う前に湖や川のような居住者がいないことが知られているエリアを除くことで、精度を改善できることも学んだ。カナダ統計局のDA定義には、土地と水が含まれているけど、近隣には水域が含まれていないんだ。
データソース
私たちの分析を行うために、サスカトゥーン市は2016年のセンサスに基づいて64の近隣のカスタムデータをカナダ統計局から購入したよ。サスカトゥーンにはもっと多くの近隣があったけど、十分な人口がないエリアもあったから、すべては含まれてなかったんだ。
分析のために、センサスプロファイルデータと全国のDA境界ファイルをカナダ統計局から集めた。特にサスカトゥーン内の362のDAに焦点を当てたよ。DA境界ファイルは、これらの小さなエリアと大きな近隣とを比較する方法を提供してくれたんだ。
擬似近隣の作成
近隣の真の統計を推定するために、私たちはそれぞれの位置に基づいて2つの地理データ層を組み合わせる必要があったんだ。層は特定のエリアや点を関連情報とともに表すんだ。私たちの分析では、DAとセンサスデータをサスカトゥーン市の近隣境界に結合する作業が含まれていた。これを行うために6つの方法を探ったよ。
含有ルール: この方法では、DAデータは近隣内に完全に含まれている場合のみ含めたんだ。近隣の外に少しでもDAがあると、除外された。
重なりルール: ここでは、DAデータがどんなに部分的でも近隣と空間を共有する限り、結合したよ。
重心含有: この方法では、各DAの中心を表すポイントを作ったんだ。近隣がその重心ポイントを含んでいる場合、DAデータを近隣に含めたよ。
複数部分の重心: 前の方法に似てるけど、複数の部分を持つDAを考慮したよ。
加重アプローチ: 各DAが近隣とどう交差しているかの割合を計算し、結合時にDAデータをそれに応じて加重したんだ。
重心を使った加重: この方法は、精度をさらに向上させるために、重心アプローチと加重方法を組み合わせたものだよ。
精度向上のための方法の精緻化
最適な擬似近隣の方法を特定した後、結果を改善するために追加の地理情報を見たんだ。居住者がいないことが知られているエリアを含めることが、推定値にバイアスをもたらす可能性があることに気づいたよ。データ処理からこれらのエリアを除外することで、DA境界と近隣境界がより密接に一致するようになったんだ。
結果の分析
推定値の精度を評価するために、それをサスカトゥーンのカスタムデータの実際の数と比較したんだ。すべての指標と近隣にわたる総平方誤差を計算して、私たちの方法がどれだけ良かったかを見たよ。
6つの方法の中で、重心ポイントを使った加重データの結合が最も正確だったんだ。この方法は、他の方法に比べて総誤差が最も低かったよ。全体的に見ると、人口が少ないエリアでは精度が下がったけど、人口が多い近隣では精度が高かったんだ。
結論
私たちの研究は、境界が完全に一致しない時に小さな地理単位のデータを使って地域定義されたエリアのカウントを推定する方法を提案してるんだ。センサスDAデータとマッピングツールを使って、「擬似近隣」を作成して、さまざまな社会指標の近隣レベルの情報を推定したよ。
私たちが見つけた最も効果的な方法は、交差したDAと近隣から新しい加重層を生成して、重心ポイントを使って層を結合することだった。私たちの方法は可能性があるけど、精度は推定するエリアのサイズなどのいくつかの要因によって影響される可能性があるんだ。
要するに、この方法は役立つ可能性があるけど、大きな近隣やキャッチメントエリアでより良く機能するかもしれないし、小さなエリアに適用すると信頼性が低くなる可能性があるんだ。今後の研究は、私たちのアプローチを基にして推定をさらに洗練させることができるよ。今のところ、私たちの発見はサスカトゥーンや他の都市部での健康計画にソーシャルデータをより役立てるための大きな一歩を提供してるんだ。
タイトル: Pseudo-neighbourhoods: Approximating the Social Characteristics of Saskatoon's Locally-Defined Neighbourhoods using Statistics Canada's Census Profiles
概要: There is a growing desire to use social data to support local evidence-based health planning and decision-making. However, the geographic boundaries which social data are disseminated for do not usually align exactly with boundaries used by local health organizations. In this paper, we propose a method we call "pseudo-geography" to estimate counts for locally-defined geographic boundaries using data on smaller spatial units. We compared six different pseudo-geography methods, using data in Saskatoon, and identified the most accurate one, which incorporates the area-weighted spatial join technique. We further found that the pseudo-geography method can be refined by eliminating the areas with few or no residents before carrying out any spatial joins. We expect this method to be more accurate in larger cities and when the ratio of the locally-defined area to the smaller spatial units gets larger.
著者: Anousheh Marouzi, C. Plante, C. Neudorf
最終更新: 2023-08-23 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.08.18.23294274
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.08.18.23294274.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。