オンラインでの医療主張の真実を調べる
研究は、ソーシャルメディアからの医療情報を確認する際の課題を明らかにしている。
― 1 分で読む
目次
オンラインでの医療声明が本当かどうかをチェックするのって難しいよね。証拠がないと、その主張を支持したり否定したりできないことがあるから。そういう場合、私たちはその主張を「検証不可」とラベル付けする。これを改善するためには、どんな特徴がその主張の検証可能性に影響するのかをもっと知る必要がある。
この研究では、医療主張の重要な部分を見ていくよ:実体(治療法や健康状態みたいな)とそれらの関係(原因や結果など)。私たちは、これらの実体や関係の特定の特徴が、主張の検証可否に関わっているかどうかを知りたい。
私たちは、様々な医療主張に支持する証拠を探している専門家と協力した。彼らは証拠を探すための特定の方法を持っていて、検索クエリを洗練させるのが得意で、そのおかげで科学的事実を確認するための新しいデータセットを作ることができた。このデータセットには、主張、証拠となる関連文書、そしてその主張が検証されたかどうかが含まれている。
重要な発見
否定的な主張の課題:何かが起こらないと言う主張、例えば「XはYを引き起こさない」といった主張に対する証拠を見つけるのが特に難しいことがわかったよ。
検索クエリの改善:専門家たちは、検索クエリをより具体的にしたり、医学用語の標準名を使うことで、よく改善していた。
専門知識は必ずしも重要ではない:私たちは、専門のアノテーターと医療専門家、一般人の結果を比較したんだけど、驚くべきことに、医療知識があっても注釈の信頼性はあまり向上しなかった。
証拠取得の成功予測:主張の言葉遣いだけで、証拠を見つける可能性を予測できることがわかった。ただ、どの主張が検証不可かを見極めるのはずっと難しかった。
データセットの作成
主張の特徴をもっと理解するために、医療ツイートを分析してデータセットを作ったよ。やり方はこんな感じ:
主張の選定:関連する医療主張を含むツイートを大量にフィルタリングした結果、チェックすべき主張を含む646の文書が残った。
主張の抽出:抽出した主張の文法を修正して、読みやすくした。合計で1,532の主張が得られたよ。
アノテーション作業:アノテーターは、これらの主張を科学的証拠に対して検証する仕事をした。関連する記事を探すためにPubMedというデータベースを使った。各主張について、少なくとも1つの証拠を見つけなきゃいけなかった。
主張のラベリング:見つけた証拠に基づいて、主張は信頼度に応じて検証可能、検証不可、部分的に検証可能とラベル付けされた。
洗練プロセス:アノテーターは、すぐに証拠が見つからないときに検索クエリを洗練させるための構造化された方法を持っていた。一定の期間内に証拠が見つからなければ、その主張を検証不可としてマークした。
主張の特徴の重要性
私たちは、主張の中のさまざまな関係や実体が、検証可能性に影響するかどうかを調べたよ。以下のことがわかった:
関係の種類:治療が効果を引き起こすような、肯定的な関係を表す主張は、否定的な関係を表す主張に比べて検証される可能性が高かった。
重要な実体:ほとんどの主張が医療条件や治療をメインにしていて、言及された実体の種類も証拠を見つける可能性に影響を与えた。
証拠発見と検索クエリ
主張の中の実体が証拠を探す出発点として有効かどうかを見たよ:
医療実体の効果:医療実体を検索の出発点に使うのが効果的だとわかった。アノテーターは1,001の主張のうち757に対して証拠を見つけられた。
洗練戦略:アノテーターは、一般化したり、より明確に用語を指定したり、言語の正規化(ブランド名ではなく有効成分を使うなど)によって、検索戦略を洗練させていた。
いくつかの主張が検証不可の理由
分析した主張の中には、かなりの数が検証不可とされていた。その理由についての洞察は次のとおり:
証拠に対する信頼の欠如:アノテーターは、多くの主張に対して関連する証拠が存在するかどうかに疑念を抱くことが多かった。約54%が証拠を見つけられるかどうか不確かだった。
信頼度レベル:少し少ない20%の主張には、アノテーターが関連する証拠が実際に存在する自信を持っていたが、他の人は証拠が見つからないだろうと感じていた。
クラウドソーシングによるアノテーションと専門性
私たちは、プロのアノテーターとクラウドワーカーのアノテーション品質の違いも探ったよ:
クラウドワーカー:さまざまなバックグラウンドを持つ参加者を募集した-医学部の学生もいれば一般大学生もいて、同じ主張を評価することになった。
合意スコア:アノテーター間の判決に関する合意は、訓練されたチームに比べてクラウド環境では一般的に低かった。医療専門家はわずかに信頼性が向上したが、特に顕著ではなかった。
証拠取得とジャカード類似度
異なるアノテーターが自分の結論を支持するために同じ文書をどのくらい使ったかを測ったよ。ここでわかったこと:
ジャカード類似度:この指標を使って、2人のアノテーターが同じ証拠をどれくらい選んだかを見ることができた。一般に、クラウドワーカーはどの文書を使うかに関して専門家よりも合意することが多かった。
証拠選択への影響:アノテーターの専門性が証拠選択に影響を与えるようで、専門家はより慎重で選択的だった。
検証可能性の予測
主張の言語だけで、主張が検証可能かどうかを予測できるかをモデルを使って調べたよ。以下のことがわかった:
モデルのパフォーマンス:このモデルは、検証可能な主張を特定するのが非常に効果的で、スコアは0.82。ただし、検証不可の主張に関してはスコアが0.27と苦戦した。
エラーの分析:モデルが犯したエラーを見直したところ、検証可能な主張は具体的な医学用語を含むことが多く、検証不可の主張は一般的に言語があいまいだった。
結論
この研究は、医療主張が検証可能かどうかを判断するための特徴についての洞察を提供するよ。主張の関係や実体を分析したり、異なるグループ間でのアノテーション品質を研究したり、証拠取得プロセスを探ることで、医療分野でのファクトチェックの複雑さをより理解できるようになる。
今後の研究では、特に否定を含む主張の証拠発見の方法を改善するための取り組みをしたい。また、特定のバイオメディカルトピックに対する証拠提供能力について、PubMed以外のデータベースも調べる予定だ。この発見は、ソーシャルメディアの主張を慎重に調査し、十分に検証できるかどうかを確かめることが、今日の情報豊富な環境ではますます重要であることを強調している。
タイトル: What Makes Medical Claims (Un)Verifiable? Analyzing Entity and Relation Properties for Fact Verification
概要: Biomedical claim verification fails if no evidence can be discovered. In these cases, the fact-checking verdict remains unknown and the claim is unverifiable. To improve upon this, we have to understand if there are any claim properties that impact its verifiability. In this work we assume that entities and relations define the core variables in a biomedical claim's anatomy and analyze if their properties help us to differentiate verifiable from unverifiable claims. In a study with trained annotation experts we prompt them to find evidence for biomedical claims, and observe how they refine search queries for their evidence search. This leads to the first corpus for scientific fact verification annotated with subject-relation-object triplets, evidence documents, and fact-checking verdicts (the BEAR-Fact corpus). We find (1) that discovering evidence for negated claims (e.g., X-does-not-cause-Y) is particularly challenging. Further, we see that annotators process queries mostly by adding constraints to the search and by normalizing entities to canonical names. (2) We compare our in-house annotations with a small crowdsourcing setting where we employ medical experts and laypeople. We find that domain expertise does not have a substantial effect on the reliability of annotations. Finally, (3), we demonstrate that it is possible to reliably estimate the success of evidence retrieval purely from the claim text~(.82\F), whereas identifying unverifiable claims proves more challenging (.27\F). The dataset is available at http://www.ims.uni-stuttgart.de/data/bioclaim.
著者: Amelie Wührl, Yarik Menchaca Resendiz, Lara Grimminger, Roman Klinger
最終更新: 2024-02-02 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2402.01360
ソースPDF: https://arxiv.org/pdf/2402.01360
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.ims.uni-stuttgart.de/data/bioclaim
- https://pubmed.ncbi.nlm.nih.gov/
- https://pubmed.ncbi.nlm.nih.gov/?term=
- https://www.soscisurvey.de/
- https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html
- https://prolific.com
- https://docs.google.com/forms/
- https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pointbiserialr.html