Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# コンピュータと社会# 機械学習

ニュース報道における主観性の対処

ニュース記事における主観的な発言を高度な技術を使って検出する研究。

― 1 分で読む


ニュースのバイアスに立ち向ニュースのバイアスに立ち向かう方法。ジャーナリズムにおけるバイアスを特定する
目次

この論文は著作権によって保護されており、その使用はクリエイティブ・コモンズライセンスの帰属4.0国際に基づいて許可されています。

イントロダクション

ジャーナリズムの世界では、テキストが事実情報ではなく個人的な意見を表現しているかを特定することが重要です。偏ったニュースは、記事の一部が事実に基づいていても、公共の意見を形作ることがあるからです。テキストが主観的か客観的かを自動的に判断できる能力は、編集者やファクトチェッカーにとって大いに役立ちます。

ニュース記事における主観性の問題

ニュース記事はしばしば事実と意見を混ぜて書かれています。この組み合わせは、主観的な表現が真実を歪める可能性があるため、読者に混乱を与えることがあります。我々の課題は、ニュース記事からの文を主観的、つまり個人的な視点を反映するものと、客観的、つまり個人的なバイアスなしに事実情報を提示するものとして分類することです。

我々が直面している主な課題の1つは、データセットにおけるクラス不均衡です。主観的な文に比べて客観的な文が圧倒的に多いことがしばしばあります。この不均衡は、主観的な文を特定することが苦手なモデルを生む可能性があります。また、主観性の考え方は異なる文化や文脈によって変わることがあります。したがって、単純な文の書き直しでは主観性のジャーナリズム的側面を捉えきれないかもしれません。

データ生成へのアプローチ

これらの問題に対処するために、我々はGPT-3モデルを使用して新しいトレーニングデータを作成しました。ジャーナリズム基準に基づくチェックリストを活用し、生成されたテキストがさまざまな主観的スタイルを反映することを確認しました。これにより、トピックをよりよく表すトレーニング資料を作成できました。

我々は英語、トルコ語、ドイツ語の3言語で実験を行いました。その結果、異なる主観的スタイルを用いることで、主観性を検出するために設計されたモデルの性能が向上することが示されました。これは、各言語内における多様な主観的表現の重要性を強調しています。

もう一つの重要な発見は、スタイルに基づくオーバーサンプリング、つまり主観的スタイルからより多くのサンプルを作成することが、通常の言い換えよりもうまく機能することです。特にトルコ語と英語では顕著でした。ただし、GPT-3は非英語の言語で質の高いテキストを生成するのが苦手な場合もあることに気づきました。

主観性チェックリストの作成

ジャーナリズム的な視点を反映したテキストを効果的に生成するために、我々はチェックリストを開発しました。主観性を評価するために編集者に相談しました。この情報を収集した後、既存のジャーナリズムおよび言語学の文献と照らし合わせました。その結果、さまざまな主観的視点を代表する独自のスタイルを含む包括的なチェックリストが完成しました。

テキスト生成のためのプロンプト設計

次のステップは、GPT-3モデルにスタイルに基づいてテキストを生成するよう指示するためのプロンプトを英語、トルコ語、ドイツ語で作成することでした。最初に英語のテンプレートを作成しましたが、他の言語ではうまく機能しませんでした。そのため、各言語に対してテンプレートを個別に適応させました。

我々の作業の最初の2人の著者は、ネイティブのトルコ語とドイツ語話者であり、英語のプロンプトについて議論し、翻訳が意図された意味を捉えていることを確認しました。このアプローチは、言語間での一貫性を保ちながら、スタイルの違いに柔軟性を持たせました。

データ生成とバランス技術

データセットを生成するために、まず主観的な文と客観的な文の数のギャップを測定しました。その後、ランダムにサンプルを選択してバランスのとれたデータセットを作成しました。サンプル数の違いに焦点を当てることで、モデルが学習するための十分なデータを確保しました。

クラス不均衡を扱うために、アンダーサンプリングとオーバーサンプリング技術の両方を使用しました。アンダーサンプリングは、主観的なサンプルの数に合わせて客観的なサンプルを除去することを意味し、オーバーサンプリングは、元のデータセットに生成したサンプルを追加してクラスをバランスさせることを含みます。

言語特有のモデルのトレーニング

主観性検出タスクにおいて、我々は言語特有のモデルに依存しました:英語にはRoberta-base、ドイツ語にはGerman Bert、トルコ語にはBERTurkを使用しました。これらのモデルはそれぞれの言語のタスクに効果的であることが証明されています。効率的な処理を確保するために入力の長さを制限し、モデルを洗練させるために数エポックにわたってトレーニングを行いました。

方法の評価

モデルをトレーニングした後、GPT-3を用いて生成された新しいサンプルがモデルの精度をどれほど改善したかを評価しました。オリジナルデータセットのみでトレーニングされたモデル、通常の言い換えでトレーニングされたモデル、パラフレーズされた客観的テキストを使用したモデルの3つのベースラインとパフォーマンスを比較しました。

結果は、スタイルに基づくオーバーサンプリングが英語とトルコ語のモデルのパフォーマンスを大きく向上させたことを示しました。ただし、ドイツ語のトランスフォーマーには同じ恩恵が得られませんでした。さまざまなスタイルの中で、トルコ語においては党派的で誇張されたスタイルが良い結果をもたらし、英語モデルにはプロパガンダや誇張されたスタイルがプラスの影響を与えました。

異なるGPT-3モデルの比較

異なるGPT-3モデルのトレーニングサンプル生成のパフォーマンスを探ることもしたいと考えました。この目的のために、text-davinci-003とgpt-3.5-turbo(ChatGPT)を比較しました。全体的にパフォーマンスに大きな差はありませんでしたが、特定の主観的スタイルでChatGPTモデルを使用した場合には改善が見られました。

生成されたテキストの質的評価

定量的な評価に加えて、生成されたテキストの質的評価も行いました。両モデルが生成したテキストの自然さ、正確さ、関連性を確認しました。英語のサンプルにはしばしば誇張表現が含まれており、時には攻撃的な言葉が使われていることを発見しました。トルコ語のサンプルでは、第一人称の参照が一般的で、テキストがあまりフォーマルでない印象を与えました。ドイツ語のサンプルには、文脈に適さない言葉が時々含まれていました。

結論

まとめると、我々の研究は主観性検出におけるデータの不足に対処するために、GPT-3モデルを使用したスタイルに基づくサンプリングを採用しました。実験は、このアプローチが標準的な言い換えよりも効果的であることを強調しました。異なるスタイルは言語によってさまざまな利点を提供し、文化的な違いやデータの潜在的なバイアスを反映しています。

我々の作業は各言語に特化しており、あまり使われない言語に対する高品質なデータの可用性によって制限されています。将来の研究では、これらの言語のためのより良いモデルを見つけ、プロンプトの表現を改善してより正確な結果を得ることを検討すべきです。さらに、サンプル選択は効果的なスタイル転送を達成する上で重要な役割を果たしており、今後の研究でもさらに調査する予定です。

類似の記事