ラテンアメリカにおけるアイケアデータの進展
新しいデータセットがラテンアメリカの目の病気に対する理解を深める。
― 1 分で読む
目次
目のケアにおいて、画像診断はさまざまな目の病気の診断やモニタリングに重要な役割を果たしてる。後眼部の写真(網膜の写真)や前眼部の写真、視野検査などの技術がよく使われる。特に人工知能(AI)の新しい技術は、目の病気のケアを改善する可能性がある。AIはスクリーニングや診断を手助けできるし、資源の少ない地域では特に役立つ。そのため、糖尿病網膜症、加齢黄斑変性、緑内障などの病気には重要だ。ただ、AIが偏ったデータに頼ると不公平になる可能性があるっていう懸念もある。
ラテンアメリカでのオープンデータの不足
オープンサイエンス運動はデータや研究の共有を促進してるけど、ラテンアメリカでは目のケアに関してはあまり進展がない。利用可能なデータセットのほとんどは裕福な国から来ていて、低所得地域の状況を反映してない。これらのデータセットは重要な人口統計学的および健康情報が欠けてることが多く、異なる人口における眼疾患を理解するにはあまり役立たない。この地域では、ケアを必要とする人の数に対して眼科医が足りてないことが多い。自動化されたシステムがもっと多くの患者に届いて、予防可能な失明を減らす手助けができるけど、これらの病気に最も影響を受ける人々を正確に表すデータが必要だ。
BRSETデータセット
これらの問題に対処するための重要な取り組みの一つが、BRSETデータセットの作成で、ラテンアメリカからの初のオープンアクセスな眼科データセットだ。このデータセットには、様々な眼疾患情報と異なる社会的背景が含まれてる。研究倫理委員会に承認されたこのデータセットには、眼の後部の写真と臨床データが含まれてる。患者に関する識別情報はプライバシーを保つために削除されてる。
データソース
データは、ブラジルのサンパウロにある3つの外来眼科センターから、2010年から2020年の間に収集された。写真は、訓練を受けたスタッフがさまざまな網膜カメラを使って撮影した。
データ収集
データセットに含まれる写真は、異なる種類の網膜カメラでキャプチャされた。スタッフは、瞳孔を広げる薬を使った後にこれらの写真を撮ったから、より鮮明な画像が得られる。各写真は、プライベートな情報が含まれていないか確認された。
データセットの準備
各写真には、使用したカメラの詳細、画像の中心、患者の国籍、年齢、性別、健康状態、インスリンの使用、糖尿病の持続期間に関する情報がラベル付けされてる。これらの詳細は患者の電子健康記録から集められた。専門の眼科医が合意された基準に基づいて画像にラベルを付けた。
品質管理
高品質を確保するために、フォーカス、照明、画像の面積、画像内の異常なアーティファクトなどの要因が評価された。品質が満足できない場合は、その旨が記録され、適切に分類された。
眼疾患の分類
データセットには、糖尿病網膜症、黄斑浮腫など、さまざまな眼疾患の分類も含まれてる。糖尿病網膜症は標準的なグレーディングシステムを用いて分類された。
データ記録
BRSETデータセットには、ブラジルの8,524人の患者からの16,266枚の画像が含まれており、すべてのラベルや詳細をまとめたファイルも付いてる。
データストレージ
画像とそのラベルは、他の人がアクセスできる公開リポジトリに保存されてる。
説明的分析
BRSETデータセットでは、ほとんどの画像(約65%)が一種類の網膜カメラで撮影された。データセットの患者は女性が多い。患者の平均年齢は約57歳。
患者の中には特定の数の糖尿病診断を受けた人がいる。大多数は糖尿病網膜症の兆候がなく、他の人は病気のさまざまな段階があった。目の解剖学における患者間の違いを示す画像もある。
品質評価
画像の品質に関しては、小さな割合の画像にフォーカスや照明、他の品質要因に問題が見つかった。画像に関連するメタデータも欠損データが最小限で、データセットの信頼性を確保してる。
研究の応用
BRSETデータセットは、コンピュータビジョンモデルの開発に使える。このモデルは患者の特徴を特定したり、疾患を分類したりできる。データセットは、糖尿病の診断や画像に基づいた性別の分類など、さまざまなタスクをサポートしてる。
パフォーマンス指標
このデータセットを使用して、主に3つのタスクが行われた:患者が糖尿病かどうかを判断すること、性別を確定すること、糖尿病網膜症を評価すること。これらのタスクには異なるモデルが使用され、そのパフォーマンスに基づいて評価された。
将来の方向性
BRSETデータセットは、ブラジルとラテンアメリカの眼科学分野にとって重要な貢献で、データの表現方法を改善し、将来のデータセット開発のための枠組みを作ることを目指してる。このデータセットはまた、医療現場で使用されるアルゴリズムが異なる人口群に対して公平かどうかを調べる必要性も強調してる。
結論
BRSETデータセットは、目の健康における研究やケアの新しい道を開く。多くの人に影響を与える病気をよりよく理解する手助けをするし、特にラテンアメリカでは重要だ。多様な人口を表すデータセットがあることで、目のケアのためのより効果的で公正なAIシステムを作ることが可能になる。
タイトル: BRSET: A Brazilian Multilabel Ophthalmological Dataset of Retina Fundus Photos
概要: IntroductionThe Brazilian Multilabel Ophthalmological Dataset (BRSET) addresses the scarcity of publicly available ophthalmological datasets in Latin America. BRSET comprises 16,266 color fundus retinal photos from 8,524 Brazilian patients, aiming to enhance data representativeness, serving as a research and teaching tool. It contains sociodemographic information, enabling investigations into differential model performance across demographic groups. MethodsData from three Sao Paulo outpatient centers yielded demographic and medical information from electronic records, including nationality, age, sex, clinical history, insulin use, and duration of diabetes diagnosis. A retinal specialist labeled images for anatomical features (optic disc, blood vessels, macula), quality control (focus, illumination, image field, artifacts), and pathologies (e.g., diabetic retinopathy). Diabetic retinopathy was graded using International Clinic Diabetic Retinopathy and Scottish Diabetic Retinopathy Grading. Validation used Dino V2 Base for feature extraction, with 70% training and 30% testing subsets. Support Vector Machines (SVM) and Logistic Regression (LR) were employed with weighted training. Performance metrics included area under the receiver operating curve (AUC) and Macro F1-score. ResultsBRSET comprises 65.1% Canon CR2 and 34.9% Nikon NF5050 images. 61.8% of the patients are female, and the average age is 57.6 years. Diabetic retinopathy affected 15.8% of patients, across a spectrum of disease severity. Anatomically, 20.2% showed abnormal optic discs, 4.9% abnormal blood vessels, and 28.8% abnormal macula. Models were trained on BRSET in three prediction tasks: "diabetes diagnosis"; "sex classification"; and "diabetic retinopathy diagnosis". DiscussionBRSET is the first multilabel ophthalmological dataset in Brazil and Latin America. It provides an opportunity for investigating model biases by evaluating performance across demographic groups. The model performance of three prediction tasks demonstrates the value of the dataset for external validation and for teaching medical computer vision to learners in Latin America using locally relevant data sources. Author SummaryIn low-resource settings, access to open medical datasets is crucial for research. Regions such as Latin America often face underrepresentation, resulting in health biases and inequities. To face the scarcity of diverse ophthalmological datasets in these areas, especially in Brazil and Latin America, we introduce the Brazilian Multilabel Ophthalmological Dataset (BRSET) as a means to alleviate biases in medical AI research. Comprising 16,266 color fundus retinal photos from 8,524 Brazilian patients, BRSET integrates sociodemographic information, empowering researchers to investigate biases across demographic groups and diseases. BRSET was extracted from Sao Paulo outpatient centers, and includes demographics, clinical history, and retinal images labeled for anatomical features, quality control, and pathologies like diabetic retinopathy. Validation was performed in a set of selected prediction tasks, such as diabetes diagnosis, sex classification, and diabetic retinopathy diagnosis. BRSETs inclusion of sociodemographic data and experiment metrics underscores its potential efficacy across diverse classification objectives and patient groups, providing crucial insights for medical AI in underrepresented regions.
著者: Luis Filipe Nakayama, D. Restrepo, J. Matos, L. Z. Ribeiro, F. K. Malerbi, L. A. Celi, C. S. Regatieri
最終更新: 2024-01-23 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2024.01.23.24301660
ソースPDF: https://www.medrxiv.org/content/10.1101/2024.01.23.24301660.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。