Simple Science

La science de pointe expliquée simplement

# Informatique# Cryptographie et sécurité

Les grands modèles de langue améliorent la modération de contenu

Les LLM aident les évaluateurs humains à identifier efficacement le contenu nuisible en ligne.

― 7 min lire


LLMs dans la modérationLLMs dans la modérationde contenusurveillance du contenu nocif.l'efficacité et la précision dans laLes modèles d'IA augmentent
Table des matières

Les récents développements technologiques ont donné naissance à de Grands Modèles de Langage (LLM) qui peuvent aider à détecter du Contenu nuisible sur les plateformes en ligne. Ce contenu inclut la haine, le harcèlement, l'extrémisme violent et la désinformation, surtout autour des élections. Cet article parle de comment ces modèles peuvent soutenir les Évaluateurs humains pour identifier ce genre de contenu plus efficacement.

Le Problème du Contenu Nuisible

Les plateformes en ligne font face à d'énormes défis pour gérer le contenu généré par les utilisateurs. Avec l'augmentation du volume de contenu, la difficulté de le surveiller augmente également. Au départ, les plateformes se concentraient sur les arnaques et les malwares, mais maintenant elles doivent s'attaquer à une plus large gamme de contenus nuisibles. Des exemples incluent la haine qui fait taire des voix, le contenu violent qui glorifie les attaques, et la désinformation qui sape la confiance dans les institutions.

La complexité de définir le contenu nuisible varie selon les plateformes et les endroits. Différentes lignes directrices et politiques existent, rendant difficile pour les évaluateurs humains de suivre les règles et les interprétations qui changent. De plus, les évaluateurs sont souvent exposés à du contenu dérangeant, ce qui rend leur travail émotionnellement éprouvant.

Le Rôle des Évaluateurs Humains

Les évaluateurs humains sont essentiels au processus de Modération de contenu. Ils apportent la connaissance contextuelle et l'expertise nécessaires pour évaluer le contenu en fonction des politiques établies. Cependant, leur disponibilité est limitée comparée aux énormes quantités de contenu générées chaque jour. Les changements de politique, les différences culturelles et les nuances de langage ajoutent aussi aux défis auxquels les évaluateurs humains font face.

Tirer Parti des Grands Modèles de Langage

Avec l'introduction des grands modèles de langage, il y a un potentiel pour rationaliser le processus de révision pour le contenu nuisible. Les LLM peuvent être entraînés à reconnaître des motifs dans les données, leur permettant d'assister les évaluateurs humains de diverses manières. Cet article explore comment les LLM peuvent être utilisés de manière optimale en collaboration avec les évaluateurs humains.

Précision de classification

En utilisant un ensemble de données de 50 000 commentaires, les chercheurs ont découvert que les LLM peuvent atteindre des taux de précision de plus de 90 % lorsqu'il s'agit d'identifier du contenu nuisible. Différentes stratégies ont été testées, conduisant à divers modèles de conception qui intègrent efficacement les LLM et les évaluateurs humains. Ces modèles incluent le filtrage du contenu non nuisible et l'aide aux évaluateurs pour prendre des décisions sur des cas complexes.

Modèles de Conception pour les LLM

Cinq principales approches ont été identifiées pour utiliser les LLM afin d'assister les évaluateurs humains :

  1. Pré-filtrage du Contenu Non Violatif : Les LLM peuvent aider à identifier et filtrer les commentaires qui ne violent pas les lignes directrices. Cela permet aux évaluateurs humains de se concentrer sur des cas plus complexes.

  2. Escalade Rapide du Contenu Violatif : Le contenu à haut risque peut être rapidement signalé par les LLM pour une revue humaine immédiate, garantissant que les affaires urgentes reçoivent de l'attention.

  3. Détection d’Erreurs : Les LLM peuvent identifier les erreurs potentielles que les évaluateurs humains auraient pu faire dans leurs évaluations, servant de filet de sécurité supplémentaire.

  4. Surface de Contexte : Les LLM peuvent mettre en avant le contexte pertinent pour les évaluateurs humains, offrant des perspectives qui peuvent être cruciales pour prendre des décisions éclairées.

  5. Conception de Prompts Adaptatifs : Cette stratégie permet à un seul prompt de s'adapter efficacement à différentes politiques, améliorant l'utilité globale.

Application dans le Monde Réel

Pour valider l'efficacité de ces stratégies, un programme pilote a été mis en œuvre utilisant un système de révision en direct. Les résultats ont montré que l'utilisation des LLM pouvait améliorer les capacités des évaluateurs humains, conduisant à une réduction significative du volume de contenu nécessitant une révision et à une meilleure précision dans l'identification du contenu nuisible.

Résultats du Programme Pilote

Dans le programme pilote, un LLM a pu aider les évaluateurs humains en optimisant quels commentaires nécessitaient leur attention. Plus précisément, cela a facilité une réduction de 41,5 % de la quantité de contenu à revoir, permettant aux évaluateurs humains d’allouer leur temps plus efficacement. De plus, les taux de précision et de rappel pour les évaluateurs humains se sont améliorés de 9 à 11 % lorsqu'ils ont reçu le soutien du LLM.

Aperçus de l’Ensemble de Données

L'ensemble de données utilisé dans cette recherche consistait en un mélange équilibré de commentaires potentiellement nuisibles et non nuisibles. Les violations de politique ont été identifiées dans plusieurs catégories, y compris la haine, l'extrémisme violent, le harcèlement et la désinformation. Cet ensemble de données a fourni un cadre robuste pour entraîner et évaluer la performance du LLM.

Comprendre les Politiques de Contenu Nuisible

Pour mieux utiliser les LLM pour la modération de contenu, il est crucial de comprendre les politiques régissant ce qui constitue du contenu nuisible. Ces politiques varient selon les plateformes et les régions, nécessitant souvent que les évaluateurs prennent des décisions rapides basées sur des standards évolutifs. Les LLM peuvent être entraînés avec des spécificités de politique pour s'assurer qu'ils reflètent fidèlement les attentes des évaluateurs humains.

Avantages de l’Utilisation des LLM

L'implémentation des LLM offre plusieurs avantages pour la modération de contenu :

  • Efficacité Accrue : En automatisant certains aspects de la révision de contenu, les LLM peuvent aider à échelonner le processus de modération, permettant de revoir une plus grande quantité de contenu en moins de temps.

  • Précision Améliorée : Même si les évaluateurs humains naviguent dans des directives complexes, les LLM peuvent aider à atteindre une application plus cohérente des politiques, ce qui contribue à des résultats plus justes.

  • Charge Émotionnelle Réduite : En filtrant les cas les plus graves, les LLM peuvent alléger une partie du stress émotionnel que les évaluateurs humains ressentent en révisant du contenu nuisible.

Défis et Limitations

Malgré les résultats prometteurs, des défis existent encore dans l'intégration des LLM dans les systèmes de modération de contenu. Certaines limitations incluent :

  • Biais dans les Données d'Entraînement : Si les données utilisées pour entraîner les LLM contiennent des biais ou des inexactitudes, les modèles peuvent perpétuer ces problèmes dans leurs sorties.

  • Sensibilité au Contexte : Les LLM peuvent avoir du mal dans des situations où comprendre le contexte d'un commentaire est crucial pour faire une évaluation précise.

  • Politiques Évolutives Rapides : La nature dynamique des lignes directrices des contenus signifie que les LLM doivent être régulièrement mis à jour pour rester efficaces.

Directions Futures

À mesure que la technologie continue d'évoluer, les stratégies utilisées pour combattre le contenu nuisible en ligne évolueront aussi. Les futures recherches devraient se concentrer sur l'amélioration des méthodes d'entraînement pour les LLM, en s'assurant qu'ils sont à jour avec les politiques actuelles, et en optimisant leur performance à travers plusieurs langues et types de contenu.

Conclusion

L'intégration des grands modèles de langage dans le processus de modération de contenu marque un avancement significatif dans la façon dont les plateformes gèrent le contenu nuisible. En soutenant les évaluateurs humains, les LLM peuvent améliorer à la fois l'efficacité et la précision des évaluations de contenu. Alors que le paysage du contenu en ligne continue de croître, la collaboration entre les évaluateurs humains et les LLM jouera un rôle crucial dans le maintien d'environnements en ligne plus sûrs.

Source originale

Titre: Supporting Human Raters with the Detection of Harmful Content using Large Language Models

Résumé: In this paper, we explore the feasibility of leveraging large language models (LLMs) to automate or otherwise assist human raters with identifying harmful content including hate speech, harassment, violent extremism, and election misinformation. Using a dataset of 50,000 comments, we demonstrate that LLMs can achieve 90% accuracy when compared to human verdicts. We explore how to best leverage these capabilities, proposing five design patterns that integrate LLMs with human rating, such as pre-filtering non-violative content, detecting potential errors in human rating, or surfacing critical context to support human rating. We outline how to support all of these design patterns using a single, optimized prompt. Beyond these synthetic experiments, we share how piloting our proposed techniques in a real-world review queue yielded a 41.5% improvement in optimizing available human rater capacity, and a 9--11% increase (absolute) in precision and recall for detecting violative content.

Auteurs: Kurt Thomas, Patrick Gage Kelley, David Tao, Sarah Meiklejohn, Owen Vallis, Shunwen Tan, Blaž Bratanič, Felipe Tiengo Ferreira, Vijay Kumar Eranti, Elie Bursztein

Dernière mise à jour: 2024-06-18 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.12800

Source PDF: https://arxiv.org/pdf/2406.12800

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires