Analyse der Datenschutzkonformität in iOS-Apps
Untersuchung von Unstimmigkeiten in Datenschutzrichtlinien und Labels bei iOS-Apps.
― 8 min Lesedauer
Inhaltsverzeichnis
- Automatisiertes Analyse-System für Datenschutzlabels (ATLAS)
- Bedeutung von Datenschutzrichtlinien und -labels
- Forschungsfragen
- Datenschutzlabels in iOS
- Bedarf an Automatisierung
- Methoden der Datensammlung
- Ergebnisse zur Zugänglichkeit von Datenschutzrichtlinien und der Übernahme von Labels
- Datensammlungstypen
- Generierung von Datenschutzlabels aus Richtlinien
- Modellwahl und Training
- Ergebnisse der Diskrepanzanalyse
- Zusammenhang zwischen App-Bewertungen und Konformitätsproblemen
- Konformitätsprobleme bei beliebten vs. anderen Apps
- Fazit
- Originalquelle
Datenschutzrichtlinien sind oft lang und kompliziert, was es schwer macht für die Leute zu verstehen, wie ihre Daten verwendet werden. Um das zu erleichtern, wurden Datenschutzlabels eingeführt. Diese Labels fassen die wesentlichen Datenschutzpraktiken von Apps in einem einfacheren Format zusammen. Seit Dezember 2020 verlangt Apple von App-Entwicklern, diese Datenschutzlabels hinzuzufügen, wenn sie ihre Apps im iOS App Store listen. Viele Entwickler finden es jedoch schwierig, ihre Datenschutzpraktiken genau zu berichten.
In dieser Arbeit wollen wir die Unterschiede zwischen dem, was mobile Apps in ihren Datenschutzrichtlinien sagen, und dem, was sie in ihren Datenschutzlabels berichten, identifizieren. Damit können wir potenzielle Probleme erkennen, wie Apps mit Datenschutz umgehen.
Automatisiertes Analyse-System für Datenschutzlabels (ATLAS)
Wir haben ein System namens ATLAS entwickelt, um bei dieser Analyse zu helfen. ATLAS hat drei Hauptteile:
- Ein Verfahren zum Sammeln von App-Listings und Datenschutzrichtlinien aus dem iOS App Store.
- Einen Klassifikator, der Datenschutzlabels basierend auf dem Text der Datenschutzrichtlinien mit 91,3% Genauigkeit vorhersagt, indem er fortschrittliche Sprachverarbeitungstechniken nutzt.
- Ein Mechanismus zur Analyse von Unterschieden, der es uns ermöglicht, Datenschutzpraktiken im App Store in grossem Massstab zu bewerten.
Mit ATLAS haben wir 354.725 iOS-Apps analysiert. Unsere Ergebnisse zeigten mehrere wichtige Trends. Zum Beispiel hatten nur 40,3% der Apps leicht zugängliche Datenschutzrichtlinien, und lediglich 29,6% hatten sowohl zugängliche Datenschutzrichtlinien als auch Datenschutzlabels. Unter denen, die beides hatten, wiesen bemerkenswerte 88,0% mindestens eine Diskrepanz zwischen ihrem Datenschutzrichtlinientext und ihrem Datenschutzlabel auf, was mögliche Probleme mit der Datenschutzkonformität anzeigt. Im Durchschnitt wiesen Apps 5,32 solcher potenziellen Probleme auf.
Die Absicht hinter ATLAS ist es, App-Entwicklern, Forschern, Regulierungsbehörden und mobilen App-Stores zu helfen. Zum Beispiel können Entwickler unseren Klassifikator nutzen, um Diskrepanzen in ihren Datenschutzberichten zu überprüfen, während Regulierungsbehörden Apps auf Konformitätsprobleme im grossen Massstab überwachen können.
Bedeutung von Datenschutzrichtlinien und -labels
Datenschutzrichtlinien sind wichtig, weil sie den Nutzern Informationen über die gesammelten Daten und deren Verwendung geben. Trotz ihrer Bedeutung zeigen Forschungen, dass Nutzer diese langen Dokumente selten lesen. Datenschutzlabels versuchen, dieses Problem zu lösen, indem sie prägnante Beschreibungen der wichtigsten Datenschutzpraktiken in einem leicht lesbaren Format bieten.
Apples Anforderung für Datenschutzlabels begann im Dezember 2020 und stellte einen bedeutenden Schritt zur Lösung von Datenschutzproblemen dar. Leider haben viele App-Entwickler Schwierigkeiten, genaue Datenschutzlabels zu erstellen. Frühere Studien haben Probleme bei der genauen Darstellung von Datenschutzpraktiken aufgezeigt, einschliesslich der Unter- oder Überberichterstattung von Datensammlungen.
Forschungsfragen
Diese Studie befasst sich mit drei wichtigen Fragen zur Übernahme und zum Inhalt von Datenschutzrichtlinien und -labels im iOS App Store. Um diese Fragen zu beantworten, haben wir ATLAS genutzt, um die Metadaten, Datenschutzrichtlinien und Datenschutzlabels von iOS-Apps zu analysieren und etwaige Inkonsistenzen als potenzielle Konformitätsprobleme zu kennzeichnen.
Datenschutzlabels in iOS
Die Anforderung von Apple für Datenschutzlabels ist eine grosse Entwicklung in der Offenlegung von Datenschutz für Apps. Jedes Label ist in vier Teile unterteilt:
- Arten von Daten, die von der App gesammelt werden.
- Wie diese Daten verwendet werden.
- Ob die Daten mit dem Nutzer verknüpft werden können.
- Ob die Daten für Tracking-Zwecke verwendet werden.
Während sie darauf ausgelegt sind, die Nutzer über Datenschutzpraktiken zu informieren, können Datenschutzlabels vor Herausforderungen stehen. Viele Entwickler finden es schwer, genaue Labels zu erstellen, was zu irreführenden Informationen führen kann. Forschungen haben gezeigt, dass eine Minderheit von Apps tatsächlich Datenschutzlabels bereitstellt, und einige Apps wurden gefunden, die Daten ohne angemessene Offenlegung senden.
Bedarf an Automatisierung
Das enorme Volumen an verfügbaren Apps macht es entscheidend, die Analyse von Datenschutzpraktiken zu automatisieren. Dynamische Analysesysteme wurden implementiert, aber ihre Überlastung schränkt die Skalierbarkeit ein. Statische Analysesysteme erlauben eine umfassendere Reichweite, indem sie den Quellcode untersuchen; jedoch haben sich jüngste Arbeiten darauf konzentriert, Datenschutzanalysen in iOS zu untersuchen.
Bis heute haben Studien vorgeschlagen, dass viele Apps keine genauen Datenschutzlabels haben. Unsere Arbeit bestätigt diese Ergebnisse und erweitert den Umfang, indem sie Diskrepanzen zwischen den Datenschutzrichtlinien der Apps und ihren Labels untersucht.
Methoden der Datensammlung
Um Apps zu analysieren, begannen wir damit, eine Liste der verfügbaren iOS-Apps anhand der veröffentlichten Daten von Apple zu erstellen. Von dort aus entwickelten wir eine Sampling-Strategie, um sowohl beliebte Apps als auch eine breitere Palette von Apps einzuschliessen. Wir untersuchten einen endgültigen Datensatz von 354.725 Apps.
Identifizierung von Datenschutzrichtlinien
Apps müssen URLs zu ihren Datenschutzrichtlinien bereitstellen, aber viele führen zu nicht verwandten Seiten. Um das zu bewältigen, nutzten wir einen Klassifikator, um legitime Datenschutzrichtlinien zu identifizieren, und erreichten eine hohe Genauigkeit von 98,1%.
Datenbeschaffungs-Pipeline
Unsere Studie benötigte ein verteiltes Datensammelsystem, um Daten effizient zu sammeln. Wir entwarfen eine robuste Infrastruktur von Fahrer- und Arbeiterknoten, um den iOS App Store zu durchsuchen. Mit einem headless Browser konnten wir dynamische Inhalte erfassen und Webseiten-Weiterleitungen folgen.
Wir sammelten die Daten in zwei Phasen: zuerst erwarben wir App-Listings, gefolgt von der Erfassung von Datenschutzrichtlinien. Dieser Ansatz ermöglichte es uns, die Datensammlung in nur zwei Tagen abzuschliessen.
Ergebnisse zur Zugänglichkeit von Datenschutzrichtlinien und der Übernahme von Labels
Nach der Analyse der gesammelten Daten entdeckten wir bemerkenswerte Trends. Viele Apps versäumten es, gültige Links zu Datenschutzrichtlinien bereitzustellen, wobei 5,0% zu toten Links führten und 54,7% auf irrelevante Seiten verwiesen. Nur 40,3% boten legitime Datenschutzrichtlinien an.
Was die Übernahme von Datenschutzlabels betrifft, beobachteten wir, dass 62,5% der getesteten Apps diese bereitstellten. Allerdings hatten nur 29,6% der Apps sowohl zugängliche Richtlinien als auch Datenschutzlabels, was die Landschaft der Datenschutzoffenlegung weiter kompliziert.
Datensammlungstypen
Als Nächstes untersuchten wir die Arten von Daten, die von Apps häufig berichtet werden. Die häufigste Art gesammelter Daten war Absturzdaten, gefolgt von Interaktionen mit der App und E-Mail-Adressen. Trotz der grossen Anzahl an Spielen in unserem Datensatz wurde Spielinhalt am wenigsten gemeldet, was auf Unterschiede in den Datensammlungspraktiken über verschiedene App-Kategorien hinweg hindeutet.
Generierung von Datenschutzlabels aus Richtlinien
Dann verlagerten wir unseren Fokus darauf, Datenschutzlabels aus bestehenden Datenschutzrichtlinien vorherzusagen. Dies wurde als ein Dokumentenkategorisierungsproblem formuliert, bei dem jede Datenschutzrichtlinie als Basis zur Identifizierung der beteiligten Datentypen diente.
Um einen robusten Datensatz zu erstellen, filterten wir nach Apps mit sowohl Datenschutzrichtlinien als auch Labels. Wir stellten sicher, dass unsere Analyse die Integrität von Labels, die mit geteilten Datenschutzrichtlinien verbunden sind, aufrechterhielt.
Sampling-Techniken
Da Datenschutzlabels Ungenauigkeiten enthalten können, verwendeten wir Techniken zur Reduzierung von Rauschen in unseren Datensätzen. Durch die Kombination von Zufallsstichproben und bedeutungsvoller Stichproben versuchten wir, die Qualität unserer Trainings- und Testdaten zu verbessern.
Modellwahl und Training
Wir trainierten verschiedene Modellarchitekturen zur Vorhersage von Datenschutzlabels. Unsere Grundlage war die logistische Regression, aber wir erkundeten komplexere Modelle und endeten mit einem Ensemble, das die Genauigkeit über verschiedene Datentypen maximierte. Wir trainierten diese Modelle unter Verwendung von Hochleistungs-GPUs, um Effizienz sicherzustellen.
Unser finales Modell erreichte eine beeindruckende durchschnittliche Genauigkeit von 91,3% über alle getesteten Datentypen. Einige Kategorien, wie Kreditinformationen, erreichten sogar eine perfekte Klassifikationswertung.
Ergebnisse der Diskrepanzanalyse
Nach dem Training nutzten wir unser Modell zur Vorhersage von Datenschutzlabels für die verbleibenden Apps. Wir klassifizierten potenzielle Konformitätsprobleme basierend auf Inkonsistenzen zwischen Datenschutzrichtlinien und Labels.
Arten von Konformitätsproblemen
Wir definierten zwei Hauptarten von Konformitätsproblemen: unvollständige Richtlinien und unvollständige Labels. Eine unvollständige Richtlinie bedeutet, dass eine Datenschutzrichtlinie einen Datentyp, der im Datenschutzlabel aufgeführt ist, nicht erwähnt. Im Gegensatz dazu tritt ein unvollständiges Label auf, wenn eine Datenschutzrichtlinie angibt, dass Daten gesammelt werden, die das Label nicht erwähnt.
Im Durchschnitt zeigten Apps 5,32 potenzielle Konformitätsprobleme, wobei 88,0% mindestens eine Diskrepanz aufwiesen. Insbesondere fanden wir heraus, dass unvollständige Labels häufiger vorkamen als unvollständige Richtlinien, was auf Trends hinweist, die möglicherweise Bedenken hinsichtlich der Konformität aufwerfen.
Zusammenhang zwischen App-Bewertungen und Konformitätsproblemen
Wir untersuchten weiter, ob es einen Zusammenhang zwischen App-Bewertungen und der Anzahl der Konformitätsprobleme gab. Interessanterweise fanden wir eine schwache positive Korrelation zwischen Diskrepanzen in unvollständigen Richtlinien und App-Bewertungen. Allerdings wurde eine negative Korrelation zwischen Diskrepanzen in unvollständigen Labels und Bewertungen beobachtet.
Das deutet darauf hin, dass Nutzer Apps mit weniger unvollständigen Labels bevorzugen, während solche mit mehr unvollständigen Richtlinien trotzdem positive Bewertungen erhalten könnten, was unerwartet ist.
Konformitätsprobleme bei beliebten vs. anderen Apps
Zuletzt verglichen wir die Diskrepanzen zwischen beliebten und weniger beliebten Apps. Wir stellten fest, dass weniger beliebte Apps tendenziell mehr unvollständige Label-Diskrepanzen aufwiesen. Dennoch hatten beliebte Apps immer noch im Durchschnitt 5,15 Diskrepanzen, was auf eine signifikante Lücke in der Konformität hinweist.
Fazit
Zusammenfassend hat unsere Forschung gezeigt, dass die Zugänglichkeit von Datenschutzrichtlinien und die Übernahme von Datenschutzlabels unter iOS-Apps nach wie vor relativ niedrig sind. Gleichzeitig ermöglicht uns unser System, ATLAS, eine detaillierte Analyse von Apps hinsichtlich ihrer Datenschutzpraktiken. Diese Forschung hebt einen alarmierenden Trend hervor, bei dem eine erhebliche Anzahl von Apps Diskrepanzen aufweist, die auf Konformitätsprobleme hinweisen könnten.
Unsere Arbeit legt den Grundstein für weitere Untersuchungen, um Datenschutzoffenlegungen genauer zu gestalten, um Nutzern zu helfen, den Apps, die sie verwenden, zu vertrauen. Mit fortgesetzten Bemühungen hoffen wir, Verbesserungen der Datenschutzpraktiken in der App-Entwicklung voranzutreiben, was letztlich zu einer transparenteren digitalen Umgebung für die Nutzer führt.
Titel: ATLAS: Automatically Detecting Discrepancies Between Privacy Policies and Privacy Labels
Zusammenfassung: Privacy policies are long, complex documents that end-users seldom read. Privacy labels aim to ameliorate these issues by providing succinct summaries of salient data practices. In December 2020, Apple began requiring that app developers submit privacy labels describing their apps' data practices. Yet, research suggests that app developers often struggle to do so. In this paper, we automatically identify possible discrepancies between mobile app privacy policies and their privacy labels. Such discrepancies could be indicators of potential privacy compliance issues. We introduce the Automated Privacy Label Analysis System (ATLAS). ATLAS includes three components: a pipeline to systematically retrieve iOS App Store listings and privacy policies; an ensemble-based classifier capable of predicting privacy labels from the text of privacy policies with 91.3% accuracy using state-of-the-art NLP techniques; and a discrepancy analysis mechanism that enables a large-scale privacy analysis of the iOS App Store. Our system has enabled us to analyze 354,725 iOS apps. We find several interesting trends. For example, only 40.3% of apps in the App Store provide easily accessible privacy policies, and only 29.6% of apps provide both accessible privacy policies and privacy labels. Among apps that provide both, 88.0% have at least one possible discrepancy between the text of their privacy policy and their privacy label, which could be indicative of a potential compliance issue. We find that, on average, apps have 5.32 such potential compliance issues. We hope that ATLAS will help app developers, researchers, regulators, and mobile app stores alike. For example, app developers could use our classifier to check for discrepancies between their privacy policies and privacy labels, and regulators could use our system to help review apps at scale for potential compliance issues.
Autoren: Akshath Jain, David Rodriguez, Jose M. del Alamo, Norman Sadeh
Letzte Aktualisierung: 2023-05-24 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2306.09247
Quell-PDF: https://arxiv.org/pdf/2306.09247
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.