モデル指標の再評価:AUPRC vs AUROC
この研究は、アンバランスデータセットでAUPRCをAUROCよりも好む理由を疑問視している。
― 1 分で読む
目次
機械学習の分野では、クラスの不均衡を扱う際に、精度-再現率曲線の下の面積(AUPRC)が受信者動作特性曲線の下の面積(AUROC)よりもモデルを比較するのに良い方法だという一般的な言い回しがあります。クラスの不均衡とは、あるデータのクラスが別のクラスよりもずっと一般的な場合のことです。この論文は、数学的分析を通じてその考えに挑戦し、AUROCとAUPRCが明確な方法で関連していることを示しています。
クラス不均衡の場合にAUPRCが優れているという信念は証拠に裏付けられていません。実際、AUPRCは、ポジティブラベルの頻度が高いデータの部分での改善に重きを置く傾向があるため、誤解を招くことがあります。これにより、データ内の異なるグループ間でモデルのパフォーマンスに不公平な違いが生じることがあります。
このトピックを調査するために、著者たちは機械学習コミュニティから多くの論文をレビューしました。彼らは1.5百万以上の論文を分析するために高度な言語モデルを使用しました。目標は、AUPRCが優れていると主張される頻度と、その主張がどれだけ支持されているかを確認することでした。結果は、この信念に対する証拠が大きく不足していることを示し、それを perpetuate する多くの誤った引用を明らかにしました。
この研究には二つの主な影響があります。1つは、これらの指標の動作についての理解を深め、もう1つは、機械学習分野における未検討の前提に対する警告として機能します。この研究に関連するすべての実験はオンラインでアクセス可能です。
はじめに
機械学習に取り組む際、特に医療のような重要な分野では、評価指標を慎重に選ぶことが不可欠です。これらの指標は、適切なモデルを選択し、詳細なパフォーマンス測定を行うのに役立ちます。この論文は、バイナリ分類タスクのための二つの主要な指標、精度-再現率曲線の下の面積(AUPRC)と受信者動作特性曲線の下の面積(AUROC)に焦点を当てています。
機械学習コミュニティでは、ポジティブインスタンス(予測しようとするもの)がネガティブなものよりもずっと稀な場合、AUPRCはAUROCよりも良い指標だとよく主張されます。この主張を支持するいくつかの理由が挙げられ、ここではその多くが問い直されます:
- 精度-再現率曲線は、受信者動作特性曲線よりも実世界のニーズをよりよく表すかもしれません。
- AUPRCは真のネガティブの数が多いことに影響されず、AUROCよりも楽観的に見えることがあります。
- 低有病率のケースでは、AUPRCはAUROCに比べてずっと低くなる傾向があります。
- AUPRCの有病率への依存は良い特徴だと考えられています。
この論文は、注意深い推論と例を通じて、AUPRCの優位性を信じることが、一般的な機械学習の状況でしばしば間違っているか、誤用されていることを示します。
AUROCとAUPRCは関連している
まず、AUROCとAUPRCが測定可能な方法で関連しているという主張がなされます。モデルが異なるラベル(ポジティブ、ネガティブ、または任意)に基づいてスコアを与えるとき、AUROCとAUPRCは主に偽陽性の重み付けによって異なります。AUROCはすべての偽陽性を平等に扱いますが、AUPRCはモデルが特定の閾値を超えるスコアを与える可能性に基づいて偽陽性を重み付けします。
これは、AUROCがどの偽陽性が修正されるかに関係なく、修正に対して均等に改善されることを意味します。しかし、AUPRCは高スコアのミスが最初に対処されたときに、より改善される傾向があります。
どのミスを修正するか選ぶ
モデルとデータセットが与えられた場合、どのミスを最初に修正するべきかという重要な質問が生じます。二つの戦略があります:
- すべてのミスを平等に扱う。すべての改善が同じ価値を持つと見なされます。
- 割り当てられたスコアの順にミスを修正する。
最初の戦略は、ユーザーが特定のサンプルに基づいてどのように行動するかを決定しなければならない分類タスクに最も役立ちます。二番目の戦略は、情報検索の設定に適しており、目標はグループメンバーシップに関係なく、スコアの高いサンプルの数を最大化することです。ただし、データ内に複数のグループがある場合、AUPRCはポジティブサンプルがより頻繁なグループを優遇する可能性があります。
ミスの優先順位を理解することで、AUROCを使用してミスを修正することが異なるグループ間での公平な評価を可能にし、AUPRCはバイアスを生む可能性があることがわかります。
AUPRCは高有病率グループを優遇する
AUPRCの主な問題は、モデルのパフォーマンスを最適化する際に、高有病率グループに優先されることが多いことです。データセットが有病率の異なる二つのサブポピュレーションで構成されている場合、適切にキャリブレーションされたモデルは、高有病率グループに対してはより良いAUPRCスコアを提供する一方で、AUROCは両グループ間でパフォーマンスをバランスさせます。
この懸念は、さまざまな患者グループ間での公平なモデルパフォーマンスを目指す医療のような分野では特に深刻です。AUPRCにのみ頼ると、平等な扱いやバイアスのある結果が生じる可能性があります。
文献における誤引用
著者たちは、AUPRCが不均衡なデータセットにおいてAUROCよりも優れていると述べた数多くの誤引用を学術文献で見つけました。多くの論文が、この主張を支持しない他の研究を引用していました。
これは、機械学習コミュニティ内のより広い問題を浮き彫りにします。適切な引用なしに大胆な主張をする傾向があるという懸念があります。多くの論文が、元の作品に基づかない主張を引用しています。
この誤った情報が広がると、真実ではないかもしれない広範な信念を形成します。
指標の公平性の重要性
AUROCを使用する大きな利点の一つは、ポジティブラベルの有病率に関係なく、すべてのサンプルに対してモデルパフォーマンスのバイアスのない評価を提供できることです。この柔軟性は特に重要で、医療のような分野では、さまざまな患者グループ間での公平さと平等な扱いを確保することが不可欠です。
研究が示すように、AUPRCが高有病率のサブポピュレーションを優先する傾向があるため、深刻な公平性の懸念が生じる可能性があります。これは、健康結果における既存の格差や他の重要な応用を perpetuate する可能性があります。
AUROCとAUPRCの理論的基盤
この論文は、AUROCとAUPRCの理論的側面についてさらに掘り下げています。評価指標がどのエラーを優先するかを理解することが、それらの指標が最適化中に何を促進するかを明らかにできることを強調しています。
発見は、AUPRCがかつて考えられていたほど普遍的に適用可能ではないかもしれないと主張します。モデルがトップアイテムを選択するユーザー定義の検索コンテキストでは、AUPRCを最適化することで関連性が向上することがあります。しかし、特に医療のようなリスクの高いドメインでのより標準的な分類タスクにおいては、AUROCを使用する方が良い選択です。
実験的検証
著者たちは、自分たちの主張を示すために一連の制御実験を実施しました。これには、異なる方法を使用してAUROCとAUPRCがどのように動作するかを注意深く監視した合成データセットが含まれました。
結果は、AUPRCが高有病率のサブポピュレーションを最適化する際に、グループ間の顕著な格差を生じる可能性がある一方で、AUROCはさまざまなグループ間でより均一なパフォーマンスを維持したことを示しました。
文献の検討
AUPRCがクラス不均衡の場合にAUROCよりも優れているという主張にもかかわらず、既存の文献の徹底的なレビューはこの信念の欠陥を明らかにしました。多くの論文はこの主張を引用せず、関与する指標の基本的な誤解を示しています。
この不明瞭さと誤引用の傾向は、研究コミュニティに悪影響を及ぼします。著者たちは、証拠に基づいた主張を確保するために、これらの評価を批判的にアプローチすることがいかに重要であるかを強調しました。
結論
この研究は、クラス不均衡のシナリオにおいてAUPRCがAUROCよりも優れているという一般的な物語に疑問を投げかけます。著者たちは、AUPRCが特定の検索コンテキストで有用である一方で、特に異なるグループ間の公平性が優先される場合には一般的にAUROCを上回ることはないと主張します。
今後、評価指標の選択に関してよりバランスの取れた文脈的アプローチが必要です。このシフトは、モデルのパフォーマンスを向上させるだけでなく、これらの技術に依存する応用における公平性と平等を促進します。
要約すると、AUROCは多くのシナリオでより信頼性の高い指標であることが示され、特に公平性が問題となる場合には、研究者は不均衡なデータセットにおけるAUPRCに関する主張を再考すべきです。
タイトル: A Closer Look at AUROC and AUPRC under Class Imbalance
概要: In machine learning (ML), a widespread adage is that the area under the precision-recall curve (AUPRC) is a superior metric for model comparison to the area under the receiver operating characteristic (AUROC) for binary classification tasks with class imbalance. This paper challenges this notion through novel mathematical analysis, illustrating that AUROC and AUPRC can be concisely related in probabilistic terms. We demonstrate that AUPRC, contrary to popular belief, is not superior in cases of class imbalance and might even be a harmful metric, given its inclination to unduly favor model improvements in subpopulations with more frequent positive labels. This bias can inadvertently heighten algorithmic disparities. Prompted by these insights, a thorough review of existing ML literature was conducted, utilizing large language models to analyze over 1.5 million papers from arXiv. Our investigation focused on the prevalence and substantiation of the purported AUPRC superiority. The results expose a significant deficit in empirical backing and a trend of misattributions that have fuelled the widespread acceptance of AUPRC's supposed advantages. Our findings represent a dual contribution: a significant technical advancement in understanding metric behaviors and a stark warning about unchecked assumptions in the ML community. All experiments are accessible at https://github.com/mmcdermott/AUC_is_all_you_need.
著者: Matthew B. A. McDermott, Lasse Hyldig Hansen, Haoran Zhang, Giovanni Angelotti, Jack Gallifant
最終更新: 2024-04-18 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2401.06091
ソースPDF: https://arxiv.org/pdf/2401.06091
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/mmcdermott/AUC_is_all_you_need
- https://github.com/Lassehhansen/Arxiv_search/blob/main/keyword_lists/keywords_auprc.py
- https://github.com/Lassehhansen/Arxiv_search/blob/main/keyword_lists/keywords_auroc.py
- https://doi.org/10.1002/stvr.1840,hall2023reliable,9207261,boyd2013area
- https://docs.google.com/spreadsheets/d/1NjDpwoj_8EkIwtGZzwM6w2nbst-LlGJPAqUcVINmPEk/edit?usp=sharing
- https://github.com/Lassehhansen/Arxiv_search/tree/main