Analyser l'impact des conditions d'utilisation sur les droits des utilisateurs
Une étude sur l'utilisation de l'IA pour clarifier les accords en ligne pour les utilisateurs.
Mirgita Frasheri, Arian Bakhtiarnia, Lukas Esterle, Alexandros Iosifidis
― 8 min lire
Table des matières
Chaque jour, des gens partout dans le monde acceptent divers termes de service (ToS) en utilisant des applis et des sites web. Beaucoup d'Utilisateurs cliquent sur ces contrats sans les lire, manquant souvent des clauses injustes. Ces clauses peuvent affecter leurs droits, comme la protection des données. Avec l'essor de la technologie, il faut trouver de meilleures façons d'aider les utilisateurs à comprendre ces accords en ligne.
Le Problème
Les documents de termes de service peuvent être super longs, parfois sur plusieurs pages. Les utilisateurs veulent souvent accéder rapidement aux services, donc ils signent ces contrats sans vraiment lire. Ça veut dire qu'ils pourraient abandonner des droits importants sans s'en rendre compte. Même des contrats qui semblent inoffensifs peuvent contenir des termes préoccupants. Par exemple, une salle de sport en ligne pourrait inclure une clause permettant au personnel de demander des tests urinaires pendant les séances. Si quelqu'un refuse, il pourrait faire face à des pénalités comme une interdiction.
Ces accords cliqués peuvent créer un faux sentiment de consentement, faisant croire aux utilisateurs qu'ils ont pris des décisions éclairées. Pour contrer ce problème, beaucoup plaident pour des réglementations plus strictes pour protéger les utilisateurs contre des pratiques injustes dans la technologie. Quoi qu'il en soit, les utilisateurs ont encore besoin d'outils pratiques pour les aider face à la quantité écrasante de contrats en ligne qu'ils rencontrent chaque jour.
Le Rôle des Modèles de Langage
Les modèles de langage larges (LLMs) ont montré qu'ils peuvent être efficaces pour analyser de longs textes. Des chercheurs se demandent si ces LLMs peuvent aider les gens à identifier des termes injustes dans les ToS et les Politiques de confidentialité. Pour explorer cela, une étude a été menée pour voir à quel point ces modèles étaient efficaces pour répondre à des questions sur ces documents.
Les chercheurs ont créé un dataset avec douze questions spécifiques liées aux politiques de confidentialité de services en ligne populaires. Ils ont utilisé divers Chatbots, à la fois open-source et commerciaux, pour répondre à ces questions et ont comparé les résultats avec des réponses correctes connues.
Construction du Dataset
Le dataset consistait en douze questions posées sur la base des politiques de confidentialité de sites bien connus. Les questions visaient à déceler des clauses potentiellement injustes que les utilisateurs pourraient accepter sans le savoir. Voici les douze questions utilisées dans l'étude :
- La politique autorise-t-elle le marketing ciblé ou comportemental ?
- La politique décrit-elle les pratiques générales de sécurité du service ?
- Le service collecte-t-il des données personnelles de tiers ?
- L'historique de la politique est-il rendu accessible ?
- Le service permet-il de supprimer définitivement vos données personnelles ?
- La politique exige-t-elle que les utilisateurs soient informés en cas de violation des données ?
- Le service autorise-t-il l'accès de tiers aux données personnelles privées ?
- Est-il clair pourquoi le service collecte les données personnelles qu'il collecte ?
- Le service permet-il à l'utilisateur de contrôler si des données personnelles sont collectées ou utilisées à des fins non critiques ?
- Quand la politique autorise-t-elle l'accès des forces de l'ordre aux données personnelles ?
- La politique liste-t-elle les données personnelles qu'elle collecte ?
- Les utilisateurs concernés seront-ils informés lorsque la politique est modifiée de manière significative ?
Les réponses de référence ont été obtenues d'un projet axé sur l'évaluation et le suivi des politiques de confidentialité. L'étude visait à aider les utilisateurs à mieux comprendre leurs accords et à identifier des termes qui pourraient être nuisibles.
Test des Modèles
Différents chatbots ont été testés, y compris certains populaires. Les chercheurs ont interrogé chaque modèle avec les questions du dataset. Les résultats ont ensuite été comparés pour déterminer la performance de chaque chatbot.
Les résultats ont montré que certains modèles open-source ont mieux performé que certains commerciaux, mais les meilleurs résultats venaient du dernier chatbot commercial. Globalement, chaque modèle a montré juste un petit peu mieux que des devinettes aléatoires pour répondre aux questions. Cela indique que, même si les LLMs ont du potentiel, leur efficacité dans cette tâche spécifique nécessite une amélioration significative.
Travaux Connexes
Des efforts antérieurs ont été réalisés pour utiliser le traitement du langage naturel (NLP) dans des cadres juridiques. Beaucoup d'études se sont concentrées sur la prédiction des résultats de cas juridiques. D'autres travaux ont tenté de déterminer si une hypothèse est soutenue par un contrat. Cependant, la recherche se concentrant spécifiquement sur les termes de service et les politiques de confidentialité reste limitée.
Certaines études ont abordé la détection de clauses injustes comme un problème de classification, marquant des sections de documents ToS comme justes ou injustes. Le principal problème avec cette approche est que les documents longs doivent être divisés en parties plus petites. Cela peut être peu pratique pour les utilisateurs. En plus, l'équité peut varier, rendant difficile de définir ce qui est juste ou injuste.
Un autre dataset nommé "LegalBench" incluait des tâches autour des ToS et des politiques de confidentialité. Cependant, les documents étaient courts, contrairement aux accords plus longs rencontrés dans la vie réelle. Cette étude visait à introduire un plus grand nombre de documents longs pour l'analyse.
Préparation aux Expériences
Cinq chatbots différents ont été utilisés pour les tests. Ceux-ci comprenaient quatre options open-source et deux modèles commerciaux. Chaque chatbot avait un nombre spécifique de tokens qu'il pouvait traiter à la fois, ce qui nécessitait parfois de résumer le texte.
Pour les modèles open-source, le nombre de mots devait être ajusté à travers une procédure systématique qui divisait le texte si nécessaire. Pour les modèles commerciaux, moins d'instances nécessitaient un résumé en raison de leurs limites de tokens plus élevées.
Les expériences impliquaient d'appliquer le même ensemble de questions à chaque chatbot pour évaluer leur performance.
Aperçu des Résultats
Les résultats ont indiqué que tous les chatbots ont mieux performé que des devinettes aléatoires. La meilleure moyenne de précision venait du chatbot commercial. Parmi les modèles open-source, un a remarquablement bien fonctionné, dépassant un autre modèle commercial dans certains cas.
Cependant, même le meilleur chatbot a montré des performances variables sur les différentes questions. Par exemple, une question avait une précision beaucoup plus basse par rapport aux autres. Cette incohérence a soulevé des questions sur pourquoi certaines questions étaient plus difficiles à répondre pour les modèles.
Défis Rencontrés
Tout au long de la recherche, certaines instances ont entraîné des erreurs de validation à travers les chatbots. Cela se produisait lorsque le texte d'entrée dépassait la limite de tokens. Les chercheurs ont noté que certains documents causaient des erreurs avec plusieurs chatbots, tandis que d'autres n'affectaient qu'un ou deux.
Pour calculer les métriques de performance, les requêtes problématiques ont été retirées de la considération pour éviter de fausser les résultats.
Extraction d'Information
Des tests supplémentaires visaient à déterminer si les chatbots pouvaient fournir des lignes de texte spécifiques des politiques de confidentialité correspondant à leurs réponses. Le meilleur modèle open-source a été utilisé pour cette tâche, mais la précision a chuté de manière significative.
Cela a soulevé des inquiétudes sur le fait que les chatbots privilégiaient la réponse aux questions plutôt que l'extraction de lignes pertinentes du texte. Dans certains cas, ils fournissaient encore des informations même si la réponse était incorrecte.
Conclusion
Cette étude a mis en avant la capacité des LLMs à aider les utilisateurs à comprendre des politiques de confidentialité et des termes de service longs. Bien que ces modèles puissent mieux performer que des devinettes aléatoires, des améliorations significatives sont nécessaires avant qu'ils ne puissent être largement adoptés pour de telles tâches.
L'introduction du dataset avec douze questions représente un pas important pour aider les utilisateurs à identifier des clauses potentiellement nuisibles dans les accords en ligne. La plupart des utilisateurs prennent actuellement des décisions basées sur des interactions rapides avec des services en ligne sans vraiment considérer leurs droits.
À mesure que la technologie continue d'avancer, le besoin pour les utilisateurs de mieux comprendre leurs accords en ligne grandit. À l'avenir, la recherche se concentrera sur l'amélioration des capacités des LLMs, afin qu'ils puissent mieux aider les utilisateurs à éviter des contrats cliqués injustes ou prédateurs. Une exploration supplémentaire des techniques de résumé et des variations de prompt sera également essentielle pour améliorer la performance des chatbots.
Titre: Are LLM-based methods good enough for detecting unfair terms of service?
Résumé: Countless terms of service (ToS) are being signed everyday by users all over the world while interacting with all kinds of apps and websites. More often than not, these online contracts spanning double-digit pages are signed blindly by users who simply want immediate access to the desired service. What would normally require a consultation with a legal team, has now become a mundane activity consisting of a few clicks where users potentially sign away their rights, for instance in terms of their data privacy, to countless online entities/companies. Large language models (LLMs) are good at parsing long text-based documents, and could potentially be adopted to help users when dealing with dubious clauses in ToS and their underlying privacy policies. To investigate the utility of existing models for this task, we first build a dataset consisting of 12 questions applied individually to a set of privacy policies crawled from popular websites. Thereafter, a series of open-source as well as commercial chatbots such as ChatGPT, are queried over each question, with the answers being compared to a given ground truth. Our results show that some open-source models are able to provide a higher accuracy compared to some commercial models. However, the best performance is recorded from a commercial chatbot (ChatGPT4). Overall, all models perform only slightly better than random at this task. Consequently, their performance needs to be significantly improved before they can be adopted at large for this purpose.
Auteurs: Mirgita Frasheri, Arian Bakhtiarnia, Lukas Esterle, Alexandros Iosifidis
Dernière mise à jour: 2024-09-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.00077
Source PDF: https://arxiv.org/pdf/2409.00077
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/openai/tiktoken
- https://bit.ly/44tfce6
- https://privacyspy.org/
- https://platform.openai.com/docs/models/gpt-3-5-turbo
- https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4
- https://huggingface.co/NousResearch/Nous-Hermes-2-SOLAR-10.7B
- https://huggingface.co/NousResearch/Nous-Hermes-Llama2-13b
- https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
- https://huggingface.co/abacusai/Smaug-34B-v0.1
- https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard