Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Soziale und Informationsnetzwerke

Identifikation von voreingenommenen Nachrichten-Communities auf sozialen Plattformen

Diese Studie untersucht Gemeinschaften, die Nachrichten mit geringer Glaubwürdigkeit in sozialen Medien teilen.

― 9 min Lesedauer


Verfolgung vonVerfolgung vonvoreingenommenenNachrichten-CommunitiesGlaubwürdigkeit teilen.Nachrichten mit geringerUntersuchung von Nutzergruppen, die
Inhaltsverzeichnis

Soziale Nachrichtenwebsites wie Reddit sind echt wichtige Orte geworden, wo Leute Nachrichten teilen und diskutieren. Ein grosses Problem bei diesen Seiten ist jedoch die Bildung von Gruppen, in denen die Leute nur Nachrichten sehen, die ihren Überzeugungen entsprechen. Das führt oft dazu, dass Nachrichten geteilt werden, die nicht glaubwürdig oder sehr voreingenommen sind. In dieser Studie schauen wir uns an, wie man Gemeinschaften auf sozialen Nachrichtenwebsites finden kann, die wahrscheinlich wenig glaubwürdige oder stark voreingenommene Nachrichten teilen.

Wir verwenden eine Methode, die sich anschaut, wie Nutzer mit verschiedenen Nachrichtenbeiträgen und deren Quellen interagieren. Indem wir die Meinungen und Einstellungen der Nutzer gegenüber Nachrichten analysieren, können wir Gruppen identifizieren, die eher dazu neigen, Informationen von niedriger Qualität zu glauben und zu teilen. Diese Methode ermöglicht es uns zu sehen, welche einzelnen Nutzer gefährdet sind, mit Inhalten niedriger Glaubwürdigkeit in Kontakt zu kommen, basierend auf den Gruppen, zu denen sie gehören. Unsere Experimente zeigen, dass verschiedene Gruppen von Nutzern signifikante Unterschiede in ihrer Anfälligkeit für Inhalte niedriger Glaubwürdigkeit und politisch voreingenommene Nachrichten aufweisen.

Soziale Nachrichtenseiten wie Reddit und Digg sind zu wichtigen Plattformen geworden, um Informationen zu teilen und zuzugreifen. Diese Plattformen bieten einen Raum für Nutzer, ihre Meinungen zu äussern und Nachrichtenartikel zu diskutieren. Die minimale Zensur auf diesen Seiten hat es ermöglicht, eine breite Palette von Nachrichten aus verschiedenen Quellen zu hosten. Viele Leute verlassen sich mittlerweile auf Plattformen wie Reddit für ihre Nachrichtenquellen.

Allerdings kann die offene Natur sozialer Nachrichtenwebsites auch die Verbreitung von Nachrichten fördern, die an Glaubwürdigkeit mangeln oder stark voreingenommen sind. Zum Beispiel sind in dem Subreddit r/politics, der grössten politischen Nachrichtencommunity auf Reddit, über die Hälfte der geteilten Quellen unverifizierbar. Die Verbreitung dieser unverifizierten Nachrichten wird oft durch Empfehlungsalgorithmen unterstützt, die Inhalte pushen, mit denen die Nutzer bereits einverstanden sind, was bestehende Überzeugungen weiter verstärken kann. Das schafft ein Umfeld, in dem einige Gruppen irreführenden oder voreingenommenen Informationen ausgesetzt sind, was zu sozialen Problemen wie Verwirrung und steigender Polarisierung führen kann.

Wir sehen Beispiele dafür in den politischen Subreddits auf Reddit. Die folgende Tabelle fasst den Anteil unverifizierbarer Beiträge in einigen dieser Subreddits zusammen:

Subreddit% Unverifizierbar
r/Conservative72%
r/Libertarian16%
r/democrats77%
r/Republican72%
r/politics52%

Die Erkennung und Bekämpfung der Verbreitung von Nachrichten niedriger Glaubwürdigkeit oder voreingenommener Nachrichten ist ein wichtiges Forschungsgebiet. Viele fortgeschrittene Methoden wurden entwickelt, um mithilfe von Deep Learning unglaubliche Nachrichtenquellen zu identifizieren. Darüber hinaus gibt es einen Trend, grosse Sprachmodelle für diesen Zweck zu nutzen. Einige Forschungen haben sich auch darauf konzentriert, Nutzer zu finden, die solche Inhalte verbreiten, um bessere Moderationsstrategien zu ermöglichen.

Unsere Studie bietet eine andere Perspektive, indem sie sich darauf konzentriert, Gemeinschaften zu identifizieren, die wahrscheinlich wenig glaubwürdige oder stark voreingenommene Nachrichten teilen und daran glauben. Wir definieren eine Gemeinschaft als eine Gruppe von Nutzern, die ähnliche Meinungen haben und ähnliche Reaktionen auf Nachrichtenartikel zeigen. Unser Ansatz beinhaltet die Erstellung von Nutzer-Embeddings basierend auf Nutzerkommentaren, was es uns ermöglicht, die Beziehung zwischen diesen Embeddings und der Wahrscheinlichkeit, dass Nutzer mit unglaubwürdigen oder voreingenommenen Informationen interagieren, zu analysieren.

Wir verwenden vortrainierte Satz-Embedding-Modelle, speziell eine Methode namens sentence-BERT (SBERT), die beim Clustern von Nutzerkommentaren hilft und die Meinungen der Nutzer besser versteht. Es gibt jedoch keine klare Anleitung, wie man Meinungs-Embeddings aus dem Inhalt ableitet, mit dem Nutzer interagieren. Die traditionelle Methode besteht darin, die Embeddings der Beiträge zu mitteln, mit denen Nutzer interagieren, aber das kann aufgrund der begrenzten Anzahl von Posts pro Nutzer ineffektiv sein.

Um diese Herausforderungen zu überwinden, leiten wir Nutzer-Embeddings aus ihren Kommentaren ab, anstatt aus den geteilten Nachrichtenquellen. Das gibt uns einen grösseren Datensatz, was hilft, die Variabilität bei der Erstellung latenter Raumdarstellungen zu reduzieren. Indem wir die Kommentare der Nutzer im Verhältnis zum ursprünglichen Nachrichtenbeitrag betrachten, können wir genauere Embeddings erstellen, die die Interessen und Meinungen der Nutzer widerspiegeln.

Wir wenden unsere Methode auf reale Daten von Reddit an, wo Nutzer durch Beiträge und Kommentare in bestimmten Interessengruppen, sogenannten Subreddits, diskutieren. Nachdem wir die Nutzer eingebettet haben, identifizieren wir Gemeinschaften und erkunden deren Glaubwürdigkeit und Verzerrungsverteilungen.

Die Bestimmung der Glaubwürdigkeit und der Verzerrungen von Nachrichtenquellen kann oft von persönlichen Vorurteilen beeinflusst werden. Für unsere Studie verwenden wir einen Datensatz von einer öffentlichen Wohltätigkeitsorganisation, die sich gegen Fehlinformationen einsetzen will. Dieser Datensatz enthält Glaubwürdigkeits- und Verzerrungswerte für verschiedene Nachrichtenquellen. Wir weisen diese Werte den Reddit-Beiträgen zu, die sich auf diese Nachrichtenquellen beziehen, und kategorisieren sie als überprüfbar oder nicht überprüfbar.

Verwandte Arbeiten

Satz-Embedding

Satz-Embedding ist eine Methode, die eine automatisierte Analyse von Inhalten sozialer Nachrichten ermöglicht. Frühe Modelle stützten sich auf komplexe Architekturen, aber moderne Ansätze verwenden vortrainierte transformer-basierte Architekturen. Ein wichtiger Fortschritt in diesem Bereich ist die Einführung von SBERT, das effizient Embeddings produziert, indem es die traditionellen Modelle verbessert. In dieser Studie nutzen wir die SBERT-Architektur für das Einbetten von Reddit-Beiträgen.

Haltungsdetektion

Haltungsdetektion umfasst die Klassifizierung der Stimmung eines Textes in Bezug auf ein bestimmtes Ziel. Wir nutzen die Haltungsdetektion, um die Kommentare der Nutzer zu verstehen und sie in drei Kategorien zu klassifizieren: dafür, dagegen und keine. Diese Klassifizierung hilft uns zu verstehen, wie Nutzer auf verschiedene Nachrichtenbeiträge reagieren.

Um dies zu erreichen, verwenden wir ein grosses Sprachmodell namens LLaMa-2-7b, um die Nutzerkommentare zu kategorisieren. Durch das Feintuning dieses Modells basierend auf einem Datensatz von Kommentaren-Antwort-Paaren aus Reddit können wir seine Leistung bei der Haltungsdetektion verbessern.

Nutzerprofiling

Nutzerprofiling weist jedem Nutzer eine virtuelle Darstellung zu, die verschiedene Merkmale wie Interessen und Verhaltensweisen einbezieht. Viele Studien haben untersucht, wie das Nutzerprofiling das Teilen von Falschmeldungen erkennen kann. Unser Ansatz unterscheidet sich, indem er sich auf Nutzergemeinschaften statt auf einzelne Nutzer konzentriert und charakterisiert, wie diese Gemeinschaften mit Nachrichten von Quellen von niedriger Glaubwürdigkeit oder Voreingenommenheit interagieren.

Nutzer-Embedding

Wir führen eine Methode ein, um Nutzer in einem hochdimensionalen Raum einzubetten. Dieser Prozess beginnt damit, dass wir SBERT-Satz-Embeddings den Nachrichtenbeiträgen zuweisen und dann den Kommentaren basierend auf ihrer Haltung zum ursprünglichen Beitrag Embeddings zuweisen. Indem wir die Embeddings aller Kommentare eines Nutzers mitteln, erstellen wir eine einzelne Darstellung, die ihre Interessen und Meinungen widerspiegelt.

Beim Sammeln der Embeddings der Beiträge kodieren wir das gesamte Set der Beitragstitel mit einem vortrainierten SBERT-Modell. Diese Embeddings dienen als kontextuelle Basis für die Schätzung der Kommentar-Embeddings.

Haltungsdetektionsmethodik

Im Kontext von Kommentaren identifiziert die Haltungsdetektion die Beziehung des Textes eines Kindes zu einem Elterntext. Wir kategorisieren Haltungen in dafür, dagegen und keine und klassifizieren diese Haltungen mit dem fein abgestimmten LLaMa-2-7b-Modell, um zu verstehen, wie Nutzer auf bestimmte Nachrichtenbeiträge reagieren.

Kommentar-Embedding-Prozess

Um Kommentare genau einzubetten, berücksichtigen wir den Kontext des ursprünglichen Beitrags. Da Kommentare oft unvollständige Aussagen für sich darstellen, verlassen wir uns auf das Embedding des Beitrags, um jeder Bemerkung eine bedeutungsvolle Darstellung zuzuweisen. Unser Verfahren sorgt dafür, dass die Kommentar-Embeddings die Meinungen der Nutzer genau widerspiegeln.

Glaubwürdigkeits- und politische Bias-Analyse

Nachdem wir Nutzer-Embeddings erhalten haben, analysieren wir Nutzergruppen, indem wir deren durchschnittliche Glaubwürdigkeits- und politischen Bias-Werte bestimmen. Durch Mittelbildung können wir bewerten, wie Nutzer mit glaubwürdigen oder voreingenommenen Nachrichtenquellen interagieren.

Wir weisen Glaubwürdigkeitswerte basierend auf den Nachrichtenquellen zu, die in den Beiträgen der Nutzer erwähnt werden, unter Verwendung des zuvor genannten Datensatzes als Referenz. Kommentaren werden Glaubwürdigkeitswerte zugewiesen, basierend auf ihrer Beziehung zum Elternbeitrag.

Anfälligkeiten von Gemeinschaften

Sobald wir die Glaubwürdigkeits- und Bias-Werte der Nutzer haben, können wir die Eigenschaften der Nutzergruppen analysieren. Anstatt uns auf die Mitgliedschaft in Subreddits zu verlassen, verwenden wir Clustering, um verschiedene Interessengruppen zu identifizieren, was ein klareres Verständnis des Verhaltens und möglicher Vorurteile der Nutzer ermöglicht.

Datensammlung

Die für diese Studie verwendeten Daten wurden von Reddit gesammelt, mit Fokus auf vier grossen politischen Subreddits: r/Conservative, r/Libertarian, r/Republican und r/democrats. Indem wir irrelevante oder minderwertige Daten herausfiltern, stellen wir sicher, dass die Studie auf zuverlässigen Nutzerinteraktionen basiert.

Ergebnisse

Unsere Ergebnisse zeigen, dass es signifikante Unterschiede zwischen den Nutzergemeinschaften in Bezug auf ihre Anfälligkeit für Nachrichten niedriger Glaubwürdigkeit gibt. Zum Beispiel sind einige Gemeinschaften dreimal wahrscheinlicher bereit, sich mit solchen Nachrichten zu beschäftigen als andere. Die Analyse zeigt auch eine Korrelation zwischen den politischen Vorurteilen der Nutzer und ihren Glaubwürdigkeitswerten.

Durch Clustering der Nutzer basierend auf ihren latenten Embeddings unterscheiden wir zwischen Gemeinschaften, die unterschiedliche Anfälligkeiten für voreingenommene oder minderwertige Nachrichten zeigen.

Diskussion

Diese Studie hebt die Bedeutung hervor, zu verstehen, wie Online-Gemeinschaften mit Nachrichteninhalten interagieren. Die Ergebnisse deuten darauf hin, dass das Clustern von Nutzern bedeutende Einblicke in die Art und Weise geben kann, wie verschiedene Gruppen voreingenommene oder unglaubwürdige Informationen verbreiten. Einige Gemeinschaften zeigten Anzeichen von Echokammern, in denen Nutzer überwiegend Nachrichten teilten, die ihre Überzeugungen verstärkten.

Einschränkungen

Es gibt Einschränkungen, wenn man sich auf einen Datensatz zur Bewertung von Glaubwürdigkeit und Bias verlässt. Darüber hinaus kann die Definition der Glaubwürdigkeit von Nutzern durch deren Interaktionen nuancierte Verhaltensweisen in Bezug auf politische Ansichten und Präferenzen übersehen. Diese Überlegungen motivieren die Notwendigkeit zukünftiger Studien zur Verbesserung der Einschätzungen der Glaubwürdigkeit von Nutzern.

Zukünftige Arbeiten

Zukünftige Forschungen sollten sich darauf konzentrieren, den Datensatz zu erweitern und die Methoden zur Bewertung der Glaubwürdigkeit und Vorurteile von Nutzern zu verfeinern. Ausserdem könnte die Einbeziehung von Inhalten aus Nutzerkommentaren und die Erforschung graphenbasierter Methoden reichhaltigere Einblicke darüber liefern, wie Nutzer mit Nachrichtenquellen interagieren.

Fazit

Diese Studie präsentiert eine neuartige Pipeline zur Analyse der Interaktionen von Nutzern auf sozialen Nachrichtenwebsites. Indem wir Embeddings aus Nutzerkommentaren und -beiträgen ableiten, zeigen wir, dass Nutzergemeinschaften durch ihre Anfälligkeit für Nachrichtenquellen niedriger Glaubwürdigkeit und starker Voreingenommenheit charakterisiert werden können. Unsere Forschung betont die Notwendigkeit, die Dynamik von Gemeinschaften im Kampf gegen die Verbreitung von Fehlinformationen und Vorurteilen auf Online-Plattformen zu berücksichtigen.

Originalquelle

Titel: Susceptibility of Communities against Low-Credibility Content in Social News Websites

Zusammenfassung: Social news websites, such as Reddit, have evolved into prominent platforms for sharing and discussing news. A key issue on social news websites sites is the formation of echo chambers, which often lead to the spread of highly biased or uncredible news. We develop a method to identify communities within a social news website that are prone to uncredible or highly biased news. We employ a user embedding pipeline that detects user communities based on their stances towards posts and news sources. We then project each community onto a credibility-bias space and analyze the distributional characteristics of each projected community to identify those that have a high risk of adopting beliefs with low credibility or high bias. This approach also enables the prediction of individual users' susceptibility to low credibility content, based on their community affiliation. Our experiments show that latent space clusters effectively indicate the credibility and bias levels of their users, with significant differences observed across clusters -- a $34\%$ difference in the users' susceptibility to low-credibility content and a $8.3\%$ difference in the users' susceptibility to high political bias.

Autoren: Yigit Ege Bayiz, Arash Amini, Radu Marculescu, Ufuk Topcu

Letzte Aktualisierung: 2024-03-15 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2403.10705

Quell-PDF: https://arxiv.org/pdf/2403.10705

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel