オンライン児童虐待との戦いを自動化する
新しいツールは、アナリストを守り、通報処理を早くすることを目指してる。
― 1 分で読む
子どもに対するオンラインの虐待が世界中で増えていて、緊急な対策が必要だよね。権限を持つ人たちが子どもへの性的虐待に関する報告を受けたとき、彼らは手作業でケースを確認して何が起きているのか、パターンを見つけようとすることが多い。でも、この手作業のプロセスは、アナリストたちを有害なコンテンツにさらすことになって、メンタルヘルスにとって深刻な問題なんだ。
そこで、子どもへの性的虐待に関する報告を自動で分析する新しいツールを提案するよ。このツールは、報告を「主題」「犯罪の程度」「被害」の3つの分野に分類するんだ。このプロセスを自動化することで、アナリストたちを有害なコンテンツから守って、彼らの労働条件を改善することを目指しているよ。私たちのチームは多様な専門知識を持っているから、データに詳細なラベルを付ける方法を作って、当局がオンラインの子ども虐待に関連する主な問題やトレンドを理解しやすくするんだ。
現状
最近数年、子どもへの性的搾取や虐待のケースが顕著に増加しているよ。報告によると、グルーミングのケースの増加、子どもへの性的虐待材料(CSAM)の拡散、虐待行為のライブストリーミングなど、警告すべきトレンドがあるんだ。例えば、2021年から2022年の間に、あるアメリカの組織が80,000件以上のオンライン誘引案件を処理したんだけど、前年から大幅に増加したんだ。コロンビアでも、別のホットラインが約1,200件のオンライン虐待に関連する報告を処理したよ。
子どもへの性的虐待材料を調査するためのさまざまな研究はあるけど、ラテンアメリカに焦点を当てた研究は限られているし、スペイン語を話す国々での当局を支援するための効果的なツールも少ないんだ。現在の報告の手作業処理は遅延を引き起こし、犯罪の特定を妨げているよ。アナリストが1件の報告を分類するのに約25分かかることがあって、それが有害なコンテンツへのさらなる曝露につながり、彼らの幸福に悪影響を及ぼす可能性があるんだ。
提案する解決策
私たちは、セクストーション、グルーミング、サイバーブリングに関連する報告を分析するために、大きな言語モデル(LLM)の実装を提案するよ。私たちのシステムは、これらの報告をより迅速に処理・分類できるから、当局がより早く対応できるようにしつつ、アナリストが有害なコンテンツにさらされるリスクを減らすことができるんだ。
関連する研究
子どもに対するオンラインの暴力の問題は、最近注目を集めていて、子どもへの性的虐待材料に関する研究が増えているよ。ただ、これらの研究のどれもがラテンアメリカに特化したものではないんだ。いくつかの取り組みがあって、ホットラインが報告を効果的に処理できるように支援しているけど、アナリストへのリスクを最小限に抑えることが重要だよ。アビエータープロジェクトというプロジェクトは、ヨーロッパで報告処理の効率を向上させるために技術を活用して成功を収めたんだ。
残念ながら、ラテンアメリカのホットライン用に特化した同様のツールは存在していないから、現代の技術を使ってこの深刻な問題を分析するためのより良いメカニズムが必要なんだ。
データ分析
私たちのデータセットは、コロンビアで子どもの権利を守るためのホットラインから来ているよ。苦情を集めて、オンラインの虐待ケースに焦点を合わせてフィルターしたんだ。このデータの中で、グルーミングや性的サイバーブリングを含むオンライン虐待活動に関連する1,196件の報告に注目したよ。
また、分野の専門家を使って、これらの苦情にラベルを付けるための詳細なシステムを開発したんだ。各報告はその内容に基づいて複数のラベルを持つことができるから、包括的な分析が可能になるんだ。
機械学習とデータ保護
私たちのデータセットには、電話番号やメールアドレスなどの個人情報が含まれているから、プライバシーを保護するためにそれらを削除する必要があるよ。分析の前に、すべての機密データを排除するための対策を実施したんだ。
私たちは、偏ったデータを扱うために特別に設計されたメトリクスを使って分析を評価しているよ。例えば、精度や再現率を見て、ツールが報告を分類する能力を評価するんだ。二重交差検証戦略を使って、正確な評価ができるように2つのデータセットを作成しているんだ。
私たちのモデルはBERTというテクノロジーを使っていて、言語を理解し分類するのに役立つんだ。私たちは、報告の主題、犯罪の程度、被害の範囲を特定するためにモデルをトレーニングしたよ。
モデルの改善
モデルを改善するために、特定のデータセットで微調整を行ったんだ。このプロセスでは、3つの分類エリアでの最高のパフォーマンスを得るためにさまざまな設定を調整したよ。微調整の後、特に報告の主題を特定する際に大きな改善が見られたんだ。
でも、クラスの不均衡による課題にも直面したんだ。一部のラベルには他よりも著しく少ない報告しかなかったから、分析が難しくなったよ。
データ拡張
特定のクラスのデータ不足を解決するために、データ拡張という技術を使ったんだ。このプロセスでは、既存の苦情の新しいバージョンをランダムに単語を削除して作成するんだ。そうすることで、データセットを拡大して多様性を加えて、モデルのパフォーマンスを向上させることができたんだ。
この技術がうまくいって、特に誤検出の分類を減らすのに効果的だったことに気づいたよ。ただ、あまりにも多くの拡張を行うと過学習につながる可能性もあるから、注意が必要だったんだ。
実装と結果
私たちは、BERTに基づく多言語モデルを使用していて、多くの言語、特にスペイン語をサポートしているよ。この事前トレーニングされたモデルは、スペイン語で書かれた報告に取り組む私たちのタスクにとって重要なんだ。
私たちの結果は、微調整されたモデルが報告を分類する際にベースラインモデルを上回ったことを示しているよ。この改善は、報告の正しいラベルを特定するモデルの能力を示す精度-再現率曲線に明らかに表れているんだ。
これらの進展にもかかわらず、クラスの不均衡に関する課題は残っていて、報告が少ないクラスは、より多く表現されているクラスに比べて改善が少し劣ることもあったよ。
結論
私たちが行った仕事は、オンラインの子ども虐待の報告を分析するための包括的なアプローチを代表しているんだ。自動化ツールを使うことで、苦情をより効果的に分類・分析できるようになって、当局からのより良い反応につながるんだ。
特化したモデルが文脈特定アプリケーションで伝統的なアプローチよりも優れたパフォーマンスを発揮できることを示したけど、データ拡張の重要性も強調したよ。オンラインの子どもに対する暴力の問題が続く中、私たちの仕事がこの重要な問題に対処し理解するためのより良い戦略に貢献できると信じているよ。
倫理的配慮
データの性質上、倫理的な配慮がとても重要なんだ。報告に記載された個人のプライバシーを守るために、データを公開することはできないけど、私たちはパートナーや他の組織と協力して、知識を共有し、子どもに対するオンラインの暴力との戦いで介入戦略を改善することにコミットしているよ。
要するに、私たちのプロジェクトは、オンラインの子ども虐待ケースを扱う当局を支援するための現代的なツールの緊急な必要性を強調し、世界中の子どもたちのためにより安全な環境を促進することを目指しているんだ。
タイトル: Guarding the Guardians: Automated Analysis of Online Child Sexual Abuse
概要: Online violence against children has increased globally recently, demanding urgent attention. Competent authorities manually analyze abuse complaints to comprehend crime dynamics and identify patterns. However, the manual analysis of these complaints presents a challenge because it exposes analysts to harmful content during the review process. Given these challenges, we present a novel solution, an automated tool designed to analyze children's sexual abuse reports comprehensively. By automating the analysis process, our tool significantly reduces the risk of exposure to harmful content by categorizing the reports on three dimensions: Subject, Degree of Criminality, and Damage. Furthermore, leveraging our multidisciplinary team's expertise, we introduce a novel approach to annotate the collected data, enabling a more in-depth analysis of the reports. This approach improves the comprehension of fundamental patterns and trends, enabling law enforcement agencies and policymakers to create focused strategies in the fight against children's violence.
著者: Juanita Puentes, Angela Castillo, Wilmar Osejo, Yuly Calderón, Viviana Quintero, Lina Saldarriaga, Diana Agudelo, Pablo Arbeláez
最終更新: 2023-08-10 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.03880
ソースPDF: https://arxiv.org/pdf/2308.03880
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。