Simple Science

最先端の科学をわかりやすく解説

# 電気工学・システム科学# 画像・映像処理# コンピュータビジョンとパターン認識

NuInsSegデータセットの紹介:核のセグメンテーション用

組織画像の自動核セグメンテーションを改善するための新しいデータセット。

― 1 分で読む


NuInsSegデータセッNuInsSegデータセットのリリースン精度を向上させた。新しいデータセットが核のセグメンテーショ
目次

医学研究の分野では、組織の画像を分析することがすごく重要なんだ。大事な仕事の一つは、細胞の一部である核を特定してアウトラインを描くこと。これを「核インスタンスセグメンテーション」って呼んでる。技術が進化する中で、これらの画像を迅速かつ正確に分析するための自動化された方法が増えてきてる。でも、これらのコンピュータシステムをトレーニングするには、各核がどこにあるかの詳細な注釈付きの例画像がたくさん必要なんだ。

注釈付きデータセットの必要性

組織の画像に正しくマークされた核を含むデータセットを作るのは、特に医学の分野では難しいことがあるよ。多くの研究者はディープラーニングの方法に頼っていて、これは人工知能の一種なんだ。この方法は古い技術よりも効果的だって証明されてるけど、うまく機能するためには大量の注釈付きデータが必要なんだ。

NuInsSegデータセット

注釈付きデータセットの必要性に応えるために、NuInsSegデータセットを提供するよ。これは、ヘマトキシリンとエオシン(H E)で染色された組織の画像を含む最大級のデータセットの一つだよ。このデータセットには、31種類の異なるヒトとマウスの臓器から収集された33,000以上の注釈付き核を含む665の画像パッチが入ってる。さらに、専門家でも正確な注釈を提供するのが難しい場所のマスクも追加してる。この追加情報は、核のセグメンテーションにおける課題を理解するのに役立つんだ。

核のセグメンテーションの背景

組織画像をスキャンしてデジタル化する技術はどんどん進化してる。これによって、全スライド画像を分析するためにコンピュータ的方法を使うことに対する関心が高まってきたんだ。核のセグメンテーションは、これらの画像を理解するための重要な部分で、細胞や組織に関連する重要な特徴を特定するのに役立つ。核の数や周りの細胞の素材に対する核の大きさが、診断に影響を与えることもあるよ。

手動でこれらの画像に注釈を付ける専門家は、大きな課題に直面してる。小さな画像パッチでも、数千個の核を慎重に特定してアウトラインを描く必要があるからね。組織の折り畳み、ピントが合ってない部分、染色の違いなどが、正確な注釈を達成するのを難しくすることがあるんだ。研究によると、異なる専門家が同じ画像の注釈の付け方で意見が一致しないこともあるから、プロセスには固有の課題があることを示してるんだ。

既存のデータセットとその限界

核のセグメンテーション用のデータセットはいくつか存在するけど、特にH Eで染色された画像に関しては、病理学で最も一般的に使われてるタイプなんだ。これらのデータセットは研究に良い影響を与えてるけど、より多様な組織をカバーする追加のデータセットが強く求められてるんだ。この追加のバリエーションがあれば、研究者はより良いセグメンテーションアルゴリズムを作るのに役立つんだ。

いくつかのデータセットは、注釈プロセスをサポートするためにトレーニングされたコンピュータシステムを用いた半自動的な方法を使って作成されてる。でも、これらの方法は使用されるモデルに基づいてバイアスを引き起こす可能性があるから、そのために私たちはデータセットで完全に手動の注釈に焦点を当ててるんだ。

NuInsSegデータセットの詳細

NuInsSegデータセットにはブライトフィールド画像が含まれていて、さまざまなヒトとマウスの臓器からの組織サンプルを使用して開発されたよ。画像は、先進的なイメージング技術を使って染色された組織の切片をスキャンすることで収集されたんだ。全体のスライド画像ではなく、各種の組織を表現するために慎重に選ばれた個々の視野で作業を行ったよ。

合計で665の画像パッチが作成された。セグメンテーションプロセスは、訓練を受けた人々が各画像の核を正確にアウトラインを描くことで行われたんだ。私たちは、迅速な半自動的な方法を使わずに注釈を付けることで、セグメンテーションが人間の専門家が提供するものに近いことを保証したよ。

主な注釈付き画像に加えて、いくつかのタイプの追加的なセグメンテーションマスクも作成した。これには、核がどこにあるかを示すバイナリマスクや、先進的なコンピュータベースのセグメンテーションアプローチに役立つ可能性のある補助マスクが含まれてる。今回は、特に核の特定が難しい画像のあいまいな部分に注釈を付けたのも初めてだ。この追加情報は、セグメンテーションアルゴリズムのパフォーマンスを分析する研究者にとって非常に役立つよ。

技術的検証の重要性

私たちのデータセットを評価して信頼性を確保するために、テストとトレーニングモデル用にいくつかの部分に分けたんだ。これによって、異なるセグメンテーションアルゴリズムを比較するためのベースラインを開発できるんだ。さまざまなディープラーニングモデルが、核を特定しセグメント化する性能を確認するために私たちのデータセットを使ってテストされたよ。

モデルがどれだけうまく機能したかを測定するために、さまざまなパフォーマンスメトリックを使用したんだ。例えば、モデルの手動注釈との一致度を示すスコアを見たんだ。その結果、特定のモデルが核のセグメンテーションに特に効果的だったことが分かったよ。

データセットの公開

NuInsSegデータセットは一般公開されてるよ。これは重要なことで、研究者が自分の研究のために画像や注釈をダウンロードして使えるからね。これにアクセスできることで、研究分野で働いてる誰でも、自分のセグメンテーションアルゴリズムを開発したりテストしたりできるんだ。

研究者はさまざまな方法でこのデータセットを活用できるよ。新しいモデルをトレーニングしたり、既存のモデルを検証したり、研究している組織の特性を理解するための分析を行ったりできるんだ。このデータセットは、核のセグメンテーション方法を改善するための研究の貴重なリソースになるだろうね。

結論

NuInsSegデータセットは、計算病理学の分野にとって大きな貢献を示してるよ。H Eで染色された組織の核の完全に注釈された画像の大規模なコレクションを提供することで、より正確で効率的なセグメンテーションアルゴリズムの開発を進めてるんだ。このデータセットは研究の重要なニーズに応えるだけでなく、組織画像の分析におけるさらなる研究や改善の扉を開くものなんだ。

この分野で直面する課題はたくさんあるけど、NuInsSegデータセットのようなリソースがあれば、研究者は組織画像を分析するためのより良い自動化ツールを作るために努力できるんだ。このデータセットを通じて提供される情報は、核のセグメンテーションの理解を深める助けになり、最終的には画像分析技術の改善を通じて病気の診断や治療に役立つことになるよ。

オリジナルソース

タイトル: NuInsSeg: A Fully Annotated Dataset for Nuclei Instance Segmentation in H&E-Stained Histological Images

概要: In computational pathology, automatic nuclei instance segmentation plays an essential role in whole slide image analysis. While many computerized approaches have been proposed for this task, supervised deep learning (DL) methods have shown superior segmentation performances compared to classical machine learning and image processing techniques. However, these models need fully annotated datasets for training which is challenging to acquire, especially in the medical domain. In this work, we release one of the biggest fully manually annotated datasets of nuclei in Hematoxylin and Eosin (H&E)-stained histological images, called NuInsSeg. This dataset contains 665 image patches with more than 30,000 manually segmented nuclei from 31 human and mouse organs. Moreover, for the first time, we provide additional ambiguous area masks for the entire dataset. These vague areas represent the parts of the images where precise and deterministic manual annotations are impossible, even for human experts. The dataset and detailed step-by-step instructions to generate related segmentation masks are publicly available at https://www.kaggle.com/datasets/ipateam/nuinsseg and https://github.com/masih4/NuInsSeg, respectively.

著者: Amirreza Mahbod, Christine Polak, Katharina Feldmann, Rumsha Khan, Katharina Gelles, Georg Dorffner, Ramona Woitek, Sepideh Hatamikia, Isabella Ellinger

最終更新: 2023-08-03 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2308.01760

ソースPDF: https://arxiv.org/pdf/2308.01760

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事