Cellposeと新しいセグメンテーション手法:じっくり見てみよう
最近の分析で、Cellposeが新しいセグメンテーションツールに対して強いパフォーマンスを示していることがわかった。
― 1 分で読む
最近の自動細胞セグメンテーションの進展はすごい。中でも、Cellposeっていうツールがあって、これが多くの生物学者に使いやすいって評判。Cellposeは新しいセグメンテーション手法を評価するための基準としてよく使われてるんだ。でも最近のモデルの中にはCellposeよりもいい結果を出してるって報告もあって、その実力について疑問が上がってる。この記事では、最近のチャレンジで使われたベンチマークについて調べてみて、適切にトレーニングされたCellposeが素晴らしい結果を出すことが分かったんだ。
チャレンジの概要
最近、細胞セグメンテーションを改善するためのコンペが開催されて、Mediarっていう手法がトップパフォーマーになった。このコンペの目的は元のCellposeの研究と似ていて、いろんなタイプの細胞画像で効果的に動作する手法を作ることだった。そこで、主催者は1,000枚の新しいトレーニングセットと、検証とテスト用の追加画像を用意した。
この新しいセットの画像には、位相差画像や蛍光画像のようにタイプが混ざってた。一部のエリアは他よりもよく表現されてた。新しい手法だけでなく、Cellposeのような確立された手法とも比較した結果、新しい手法の方がCellposeよりもはるかに高いパフォーマンススコアを出してた。
Cellposeの結果が残念だったのは驚きだった。なんでなら、ベンチマーク画像はCellposeが扱うように設計されたものと似てたから。面白いことに、トップアルゴリズムであるMediarは実際にはCellposeのフレームワークを使ってトレーニングとセグメンテーションを行ってたんだ。つまり、Mediarは基本的にCellposeのフレームワークをコピーしてて、報告された改善の妥当性に疑問を投げかける結果になった。
Cellposeのパフォーマンス分析
公平な分析をするためには、トレーニングとテストに一貫した方法を使うことが重要だ。注目すべきは、最近の比較でCellposeのパフォーマンスに影響を与えた要素がいくつかあったこと。
障害その1: グレースケール vs. マルチチャンネル
Cellposeはグレースケール画像だけを使ってトレーニングとテストを行ってたけど、他の手法は情報量が多いマルチチャンネルデータを使ってた。この違いは、Cellposeが競合と比べて豊かなデータにアクセスできなかったことを意味する。
障害その2: サイズ不一致
Cellposeは細胞の直径が平均30ピクセルになるようにリサイズされた画像でトレーニングされてたけど、テストでは400ピクセルまでの大きな画像が使われた。Cellposeの手法は、テスト中に細胞サイズの予測を行うためのトレーニングが含まれてたけれど、今回はそれが行われなかった。これがモデルの効果を低下させた可能性がある。
障害その3: 限定されたトレーニングセット
Cellposeはチャレンジ画像に特化してトレーニングしてた。一方、トップパフォーマンスの手法はトレーニングに追加のデータセットを含めて、学習プロセスを強化してた。Cellposeを上回った手法は、この広範なトレーニングセットを活用してた。
障害その4: 増強の欠如
Cellposeはテスト時の増強を使ってなくて、これはテスト中にパフォーマンスを向上させる手法だ。Cellposeのフレームワークは、テスト時に簡単に画像を増強できるようになってる。他の方法は似たような増強を使っていて、パフォーマンスが良かった。
さらに、Cellposeはトレーニング中に通常推奨されるよりも大きなバッチサイズを使ってたので、小さなサイズでの正規化効果が少なくなり、パフォーマンスに影響を及ぼす可能性がある。
改善されたCellposeの結果
トップアルゴリズムとの公平な比較を確保するために、Cellposeモデルは挙げた障害を取り除いた後に再トレーニングされた。加えた変更は最小限で、三チャンネル入力に適応することにのみ焦点を当てた。他のスコアを向上させるための調整は行われなかった。
この改善版Cellposeをテストした結果、チャレンジで使われた障害のある版よりも大幅にパフォーマンスが向上したことがわかった。デフォルトモデルによって提供されたセグメンテーションはMediarのものと同等で、処理速度に関してはCellposeが全体的に早かった。
400枚の画像をテストしたところ、改善されたCellposeはMediarよりも良い中央値スコアを達成し、特に詳細が重要なエリアでの結果が良かった。これらの発見は、元のチャレンジがCellposeの能力を誤解させていた可能性があることを示唆してる。
さらなる検証
テストデータの真実のラベルが比較できなかったので、101枚の検証用画像セットを使ってさらなる検証を行った。結果は、デフォルトのCellposeモデルが以前の分析で使われた障害のある版よりもはるかに良い結果を出したことを示した。後者のパフォーマンスの低下は、以前に挙げた障害によるものだった。
改善されたCellposeに劣ってはいたけれど、Mediarはチャレンジの他の競合よりもパフォーマンスが高かった。この結果は驚くべきことではなく、MediarはCellposeモデルを利用しながらより複雑なトレーニングプロトコルを採用してたからだ。
モデルの違いの分析
次に、各モデルがうまく機能した事例を調べ、CellposeがMediarに対して優れた結果を出したケースとその逆を特定した。一般的に、Cellposeは組織画像でうまく機能し、Mediarはトレーニング画像に似たタイプでより良い結果を出した。
この観察結果は、データセットの異なるラベリングスタイルがパフォーマンスに影響を与えた可能性があることを示唆してる。ラベリングスタイルの違いはセグメンテーションモデルにとっての課題を生み出し、パフォーマンスのばらつきを引き起こす。
データセット間の関係
新しいデータセットが既存のものとどうフィットするかを理解するために、2次元の視覚化が作成された。これにより、新しいチャレンジの画像が他のデータセットの画像とどのようにクラスターを形成しているかが示された。視覚化は、多くの画像が分布外であっても、広範なコレクション内の小さな領域との接続を形成していることを明らかにした。
この分析は、特定のクラスターがCellposeとMediarの間でより強いパフォーマンスの関係を持つことを示し、以前の経験的な発見を確認した。これは、コンテキストやデータの特性がパフォーマンス結果を決定する上で重要な役割を果たすことを強調している。
結論
結果は、適切に設定されたCellposeモデルが最近のチャレンジでの最良の手法を上回ることを示していて、追加の調整は必要なかった。これは、競技でのトランスフォーマーベースのモデルの優位性に関する主張に挑戦するものだ。
この分析からいくつかの教訓が浮かび上がる。まず、公のチャレンジは解釈が難しいことがある。多くのアプローチは洗練されて見えるけど、多様なデータセットに対して意味のある改善をもたらさないことがある。
次に、細胞セグメンテーションの真の進展を示すためには、明確で解釈可能な分析が必要だ。シンプルなアブレーションスタディは、Mediarの議論で見られるように、モデルのパフォーマンスにおけるさまざまな要素の寄与を明らかにするのに役立つ。
最後に、ディープラーニングの進歩は生物学的な応用に自動的に結びつくわけではない。このケースでは、トランスフォーマーが優れたパフォーマンスを示さなかったのは、トレーニングに利用できるデータセットサイズに制約があったからで、これが広範なコンピュータビジョンの分野でのものとは大きく異なっている。
要するに、提示された分析に基づくと、Cellposeが細胞セグメンテーションのための主要なツールであり、新しいモデルが大きな進展を示していないことは明らかだ。
タイトル: Transformers do not outperform Cellpose
概要: In a recent publication, Ma et al [1] claim that a transformer-based cellular segmentation method called Mediar [2] -- which won a Neurips challenge -- outperforms Cellpose [3] (0.897 vs 0.543 median F1 score). Here we show that this result was obtained by artificially impairing Cellpose in multiple ways. When we removed these impairments, Cellpose outperformed Mediar (0.861 vs 0.826 median F1 score on the updated test set). To further investigate the performance of transformers for cellular segmentation, we replaced the Cellpose backbone with a transformer. The transformer-Cellpose model also did not outperform the standard Cellpose (0.848 median F1 test score). Our results suggest that transformers do not advance the state-of-the-art in cellular segmentation.
著者: Marius Pachitariu, C. Stringer
最終更新: 2024-04-07 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.04.06.587952
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.04.06.587952.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。