「クラスの不均衡」とはどういう意味ですか?
目次
クラスの不均衡は、データセットの中でいくつかのカテゴリが他のカテゴリよりもはるかに多くの例を持っている時に発生する。例えば、コンピュータに動物を認識させようとして、猫の画像が100枚あるけど犬の画像が10枚しかない場合、それがクラスの不均衡。
なぜ重要なのか
データセットが不均衡だと、機械学習モデルはあまり一般的でないクラスについて学ぶのが難しくなる。モデルは多数派のクラス(猫みたいな)を認識するのにはすごく優れてるけど、少数派のクラス(犬みたいな)を識別するのには失敗することがある。これが特に、実際の状況で少数派のクラスを分類したり検出したりする場面でパフォーマンスが悪くなる原因になる。
現実の例
医療の分野では、一般的な病気の患者記録はたくさんあるけど、珍しい病気のはすごく少ない場合、このデータでトレーニングされたモデルは珍しい病気の患者に出会った時にうまく働かないかもしれない。同じように、セキュリティシステムでは、ほとんどの攻撃が一種類の脅威から来てると、システムはあまり頻繁ではないけど潜在的に危険な脅威を効果的に認識できないかもしれない。
解決策
クラスの不均衡に対処するために、研究者や開発者はいくつかの方法を使うことができる:
- 再サンプリング:少数派クラスの例を追加するか、多数派クラスの例を減らすことでデータセットを調整する。
- 異なる損失関数:モデルが使う損失関数を変更することで、少数派クラスにもっと注意を向けさせることができる。
- 合成データ:少数派クラスのために新しい例を生成することで、データセットをバランスさせる。
結論
クラスの不均衡は機械学習でよくある問題で、モデルが多数派のクラスに偏る原因になる。これを解決することは、効果的で公正なAIシステムを作るために重要だよ。