Die Auswirkungen der AGBs auf die Rechte der Nutzer analysieren
Eine Studie über die Nutzung von KI, um Online-Vereinbarungen für Nutzer zu klären.
― 7 min Lesedauer
Inhaltsverzeichnis
Jeden Tag stimmen Leute auf der ganzen Welt verschiedenen Nutzungsbedingungen (ToS) zu, wenn sie Apps und Websites benutzen. Viele Nutzer klicken einfach durch diese Verträge, ohne sie zu lesen, und übersehen dabei oft unfairen Klauseln. Diese Klauseln können ihre Rechte, wie beispielsweise den Datenschutz, beeinträchtigen. Mit dem Aufstieg der Technologie gibt's die Notwendigkeit, bessere Wege zu finden, wie Nutzer diese Online-Vereinbarungen verstehen können.
Das Problem
Nutzungsbedingungen können sehr lang sein, manchmal viele Seiten umfassen. Nutzer wollen oft schnell auf Dienste zugreifen, also unterschreiben sie diese Verträge, ohne sie gründlich zu lesen. Das bedeutet, dass sie möglicherweise wichtige Rechte abgeben, ohne es zu merken. Selbst Verträge, die harmlos erscheinen, können besorgniserregende Klauseln enthalten. Zum Beispiel könnte ein Online-Fitnessstudio eine Klausel beinhalten, die es dem Personal erlaubt, während des Trainings Urintests anzufordern. Wenn jemand ablehnt, könnte das zu Strafen wie einem Ausschluss führen.
Diese Klickvereinbarungen können ein falsches Gefühl von Zustimmung erzeugen, wodurch Nutzer denken, dass sie informierte Entscheidungen getroffen haben. Um dieses Problem zu bekämpfen, plädieren viele für strengere Vorschriften, um Nutzer vor unfairen Praktiken in der Technologie zu schützen. Egal, ob diese Vorschriften kommen oder nicht, Nutzer brauchen weiterhin praktische Werkzeuge, um mit der überwältigenden Anzahl von Online-Verträgen, denen sie täglich begegnen, umzugehen.
Die Rolle von Sprachmodellen
Grosse Sprachmodelle (LLMs) haben vielversprechende Ansätze gezeigt, um lange Texte zu analysieren. Forscher überlegen, ob diese LLMs den Menschen helfen können, unfairen Klauseln in ToS und Datenschutzrichtlinien auf die Spur zu kommen. Um das zu erforschen, wurde eine Studie durchgeführt, um zu sehen, wie effektiv diese Modelle Fragen zu diesen Dokumenten beantworten.
Die Forscher erstellten einen Datensatz mit zwölf spezifischen Fragen zu Datenschutzrichtlinien von beliebten Online-Diensten. Sie nutzten verschiedene Chatbots, sowohl Open-Source als auch kommerziell, um diese Fragen zu beantworten und verglichen die Ergebnisse mit bekannten richtigen Antworten.
Aufbau des Datensatzes
Der Datensatz bestand aus zwölf Fragen, die auf Datenschutzrichtlinien von bekannten Websites basierten. Die Fragen zielten darauf ab, potenziell unfairen Klauseln zu entlarven, denen Nutzer unwissentlich zustimmen könnten. Hier sind die zwölf Fragen, die in der Studie verwendet wurden:
- Erlaubt die Richtlinie gezielte oder Verhaltensmarketing?
- Umreisst die Richtlinie die allgemeinen Sicherheitspraktiken des Dienstes?
- Sammelt der Dienst persönliche Daten von Dritten?
- Ist die Historie der Richtlinie verfügbar?
- Erlaubt der Dienst dir, deine persönlichen Daten dauerhaft zu löschen?
- Muss der Dienst die Nutzer im Falle eines Datenlecks benachrichtigen?
- Erlaubt der Dienst den Zugriff Dritter auf private persönliche Daten?
- Ist klar, warum der Dienst die persönlichen Daten erhebt, die er tut?
- Erlaubt der Dienst dem Nutzer zu steuern, ob persönliche Daten gesammelt oder für nicht kritische Zwecke genutzt werden?
- Wann erlaubt die Richtlinie den Zugriff der Strafverfolgung auf persönliche Daten?
- Listet die Richtlinie die persönlichen Daten auf, die sie sammelt?
- Werden betroffene Nutzer benachrichtigt, wenn die Richtlinie bedeutend geändert wird?
Die richtigen Antworten wurden aus einem Projekt gewonnen, das sich auf die Bewertung und Überwachung von Datenschutzrichtlinien konzentrierte. Die Studie zielte darauf ab, Nutzern zu helfen, ihre Vereinbarungen besser zu verstehen und schädliche Klauseln zu erkennen.
Testen der Modelle
Verschiedene Chatbots wurden getestet, darunter einige beliebte. Die Forscher stellten jedem Modell die Fragen aus dem Datensatz. Die Ergebnisse wurden dann verglichen, um zu bestimmen, wie gut jeder Chatbot abschneidet.
Die Ergebnisse zeigten, dass einige Open-Source-Modelle besser abschnitten als bestimmte kommerzielle. Die besten Ergebnisse kamen jedoch vom neuesten kommerziellen Chatbot. Insgesamt zeigten alle Modelle nur leicht bessere Ergebnisse als zufälliges Raten bei der Beantwortung der Fragen. Das deutete darauf hin, dass LLMs Potenzial haben, ihre Effektivität für diese spezielle Aufgabe jedoch erhebliche Verbesserungen benötigt.
Verwandte Arbeiten
Frühere Bemühungen wurden unternommen, um natürliche Sprachverarbeitung (NLP) innerhalb rechtlicher Rahmenbedingungen zu nutzen. Viele Studien konzentrierten sich darauf, Ergebnisse für Rechtsfälle vorherzusagen. Andere Arbeiten versuchten zu bestimmen, ob eine Hypothese durch einen Vertrag unterstützt wird. Allerdings bleibt die Forschung, die sich speziell auf Nutzungsbedingungen und Datenschutzrichtlinien konzentriert, begrenzt.
Einige Studien betrachteten das Erkennen unfairer Klauseln als Klassifikationsproblem und markierten Abschnitte von ToS-Dokumenten als fair oder unfair. Das Hauptproblem bei diesem Ansatz ist, dass lange Dokumente in kleinere Teile aufgeteilt werden müssen. Das kann für die Nutzer unpraktisch sein. Darüber hinaus kann Fairness variieren, was es schwierig macht zu definieren, was fair oder unfair ist.
Ein anderer Datensatz namens "LegalBench" enthielt Aufgaben rund um ToS und Datenschutzrichtlinien. Allerdings waren die Dokumente kurz, im Gegensatz zu den längeren Vereinbarungen, die man typischerweise im echten Leben antrifft. Diese Studie zielte darauf ab, eine grössere Anzahl längerer Dokumente zur Analyse einzuführen.
Vorbereitung der Experimente
Fünf verschiedene Chatbots wurden für die Tests verwendet. Dazu gehörten vier Open-Source-Optionen und zwei kommerzielle Modelle. Jeder Chatbot hatte eine bestimmte Anzahl an Tokens, die er auf einmal verarbeiten konnte, was manchmal erforderte, dass der Text zusammengefasst wurde.
Für Open-Source-Modelle musste die Wortanzahl durch ein systematisches Verfahren angepasst werden, das den Text nach Bedarf aufteilte. Für kommerzielle Modelle mussten weniger Instanzen zusammengefasst werden, da sie höhere Tokenlimits hatten.
Die Experimente beinhalteten die Anwendung desselben Fragenkatalogs auf jeden Chatbot, um ihre Leistung zu bewerten.
Überblick über die Ergebnisse
Die Ergebnisse zeigten, dass alle Chatbots besser abschnitten als zufälliges Raten. Die höchste durchschnittliche Genauigkeit kam vom kommerziellen Chatbot. Unter den Open-Source-Modellen schnitt eines besonders gut ab und übertraf in einigen Fällen ein anderes kommerzielles Modell.
Allerdings zeigte selbst der beste Chatbot unterschiedliche Leistungen bei den verschiedenen Fragen. Zum Beispiel hatte eine Frage eine viel niedrigere Genauigkeit im Vergleich zu anderen. Diese Inkonsistenz warf Fragen auf, warum bestimmte Fragen für die Modelle schwieriger zu beantworten waren.
Herausforderungen
Im Laufe der Forschung gab es einige Fälle von Validierungsfehlern bei den Chatbots. Dies geschah, wenn die Texteingabe das Tokenlimit überschritt. Die Forscher stellten fest, dass bestimmte Dokumente Fehler bei mehreren Chatbots verursachten, während andere nur einen oder zwei betrafen.
Um die Leistungskennzahlen zu berechnen, wurden problematische Abfragen von der Berücksichtigung ausgeschlossen, um Verzerrungen der Ergebnisse zu vermeiden.
Informationen extrahieren
Zusätzliche Tests zielten darauf ab, festzustellen, ob Chatbots spezifische Textzeilen aus Datenschutzrichtlinien bereitstellen konnten, die mit ihren Antworten übereinstimmen. Das am besten abschneidende Open-Source-Modell wurde für diese Aufgabe verwendet, aber die Genauigkeit fiel erheblich.
Das warf Bedenken auf, ob die Chatbots das Beantworten der Fragen über das Extrahieren relevanter Zeilen aus dem Text priorisierten. In einigen Fällen gaben sie trotzdem Informationen, selbst wenn die Antwort falsch war.
Fazit
Diese Studie hob die Fähigkeit von LLMs hervor, Nutzern zu helfen, lange Datenschutzrichtlinien und Nutzungsbedingungen zu verstehen. Während diese Modelle besser abschneiden können als zufälliges Raten, sind erhebliche Verbesserungen notwendig, bevor sie breit für solche Aufgaben eingesetzt werden können.
Die Einführung des Datensatzes mit zwölf Fragen stellt einen wichtigen Schritt dar, um Nutzern zu helfen, potenziell schädliche Klauseln in Online-Vereinbarungen zu erkennen. Die meisten Nutzer treffen derzeit Entscheidungen basierend auf schnellen Interaktionen mit Online-Diensten, ohne ihre Rechte vollständig zu berücksichtigen.
Mit dem Fortschritt der Technologie wächst die Notwendigkeit, dass Nutzer ihre Online-Vereinbarungen besser verstehen. In Zukunft wird die Forschung darauf abzielen, die Fähigkeiten von LLMs zu verbessern, damit sie den Nutzern besser helfen können, unfairen oder ausbeuterischen Click-Through-Verträgen zu entkommen. Weitere Erkundungen von Zusammenfassungstechniken und Variationen in den Aufforderungen werden ebenfalls entscheidend sein, um die Leistung der Chatbots zu verbessern.
Titel: Are LLM-based methods good enough for detecting unfair terms of service?
Zusammenfassung: Countless terms of service (ToS) are being signed everyday by users all over the world while interacting with all kinds of apps and websites. More often than not, these online contracts spanning double-digit pages are signed blindly by users who simply want immediate access to the desired service. What would normally require a consultation with a legal team, has now become a mundane activity consisting of a few clicks where users potentially sign away their rights, for instance in terms of their data privacy, to countless online entities/companies. Large language models (LLMs) are good at parsing long text-based documents, and could potentially be adopted to help users when dealing with dubious clauses in ToS and their underlying privacy policies. To investigate the utility of existing models for this task, we first build a dataset consisting of 12 questions applied individually to a set of privacy policies crawled from popular websites. Thereafter, a series of open-source as well as commercial chatbots such as ChatGPT, are queried over each question, with the answers being compared to a given ground truth. Our results show that some open-source models are able to provide a higher accuracy compared to some commercial models. However, the best performance is recorded from a commercial chatbot (ChatGPT4). Overall, all models perform only slightly better than random at this task. Consequently, their performance needs to be significantly improved before they can be adopted at large for this purpose.
Autoren: Mirgita Frasheri, Arian Bakhtiarnia, Lukas Esterle, Alexandros Iosifidis
Letzte Aktualisierung: 2024-09-06 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2409.00077
Quell-PDF: https://arxiv.org/pdf/2409.00077
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://github.com/openai/tiktoken
- https://bit.ly/44tfce6
- https://privacyspy.org/
- https://platform.openai.com/docs/models/gpt-3-5-turbo
- https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4
- https://huggingface.co/NousResearch/Nous-Hermes-2-SOLAR-10.7B
- https://huggingface.co/NousResearch/Nous-Hermes-Llama2-13b
- https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
- https://huggingface.co/abacusai/Smaug-34B-v0.1
- https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard