3DLNews: Ein umfassendes lokales Nachrichtenarchiv
Durchstöbere fast eine Million lokaler Nachrichtenartikel von 1996 bis 2024.
― 6 min Lesedauer
Inhaltsverzeichnis
3DLNews ist eine neue Sammlung von lokalen Nachrichtenartikeln aus den USA. Sie deckt einen Zeitraum von 1996 bis 2024 ab und enthält fast 1 Million Nachrichtenlinks von über 14.000 Quellen, wie Zeitungen, Fernsehsendern und Radiosendern aus jedem Bundesstaat der USA. Dieses Dataset gibt einen guten Überblick über lokale Nachrichten und deren Rolle in verschiedenen Gemeinschaften im ganzen Land. Die Daten wurden durch das Suchen nach Artikeln auf Google und Twitter und das Filtern von Nicht-Nachrichtenlinks gesammelt.
Bedeutung von Lokalen Nachrichten
Lokale Nachrichten sind wichtig für Gemeinschaften. Mit über 329 Millionen Menschen, die in den USA in Tausenden von Landkreisen leben, kann die nationale Presse nicht jedes lokale Problem abdecken. Lokale Medien konzentrieren sich auf spezifische Anliegen der Gemeinschaft, wie Regierungsaktivitäten, Schulleistungen und lokale Veranstaltungen. Mehr als die Hälfte der ursprünglichen Nachrichtenberichte werden von lokalen Anbietern erstellt. Lokale Nachrichten haben eine bedeutende Rolle bei der Berichterstattung über wichtige Ereignisse gespielt, wie die Auswirkungen der Opioidkrise in West Virginia oder die Flint-Wasserkatastrophe. Sie können auch zeigen, wie verschiedene Gemeinschaften mit Herausforderungen wie der COVID-19-Pandemie umgegangen sind. Um diese Aspekte zu analysieren, sind Daten über lokale Nachrichten unerlässlich.
Datensätze
Vorhandene Nachrichten-Die meisten aktuellen Nachrichten-Datensätze konzentrieren sich entweder auf nationale oder globale Themen, kosten Geld oder sind zu eng gefasst in ihrer Abdeckung. Hier sticht 3DLNews hervor. Es ist der erste Datensatz, der lokale Nachrichtenartikel von 1996 bis 2024 für die gesamten USA bereitstellt. Er enthält Links von verschiedenen lokalen Nachrichtenanbietern und beinhaltet wichtige Details zu jedem Artikel.
Es gibt zwar einige andere Datensätze, aber sie erreichen nicht die Abdeckung oder Zugänglichkeit von 3DLNews. Zum Beispiel bietet Media Cloud globale Nachrichtenartikel an, ist aber nicht kostenlos. LexisNexis ist eine kostenpflichtige Quelle, die möglicherweise auch lokale US-Nachrichten enthält, aber keine Transparenz über die Menge der lokalen Artikel bietet. Die Datensätze von Nela-GT und GDELT sind zwar nützlich für spezielle Analysen, konzentrieren sich aber nicht ausschliesslich auf lokale Nachrichten in den USA. NELA-Local ist am nächsten dran, beinhaltet jedoch nur Artikel aus einem kürzeren Zeitraum und weniger Quellen als 3DLNews.
Aufbau des 3DLNews-Datensatzes
Um 3DLNews zu erstellen, nutzte das Team einen zuvor existierenden lokalen Nachrichten-Datensatz. Dieser frühere Datensatz umfasste Websites von Tausenden von lokalen Zeitungen und Rundfunkstationen. Indem sie dies als Ausgangspunkt verwendeten, sammelten sie weitere lokale Nachrichtenquellen, um die Sammlung zu erweitern.
Schritte zur Datensammlung
Suchanfragen erstellen: Zuerst schrieben sie spezifische Google-Suchanfragen, um Nachrichtenartikel von jedem Medienanbieter zu finden, die von 1996 bis 2024 veröffentlicht wurden. Eine ähnliche Methode wurde für die Suche auf Twitter verwendet.
Links sammeln: Das Team sammelte dann Links aus den Suchergebnissen auf Google und Twitter. Sie konzentrierten sich auf die erste Seite der Google-Ergebnisse und die obersten 20 Tweets für jede Anfrage, um eine repräsentative Sammlung lokaler Nachrichtenartikel zu gewährleisten.
Filtern von Nicht-Nachrichten-Links: Mit dem anfänglichen Set von Links, das gesammelt wurde, prüfte das Team die URLs, um alles zu entfernen, was kein Nachrichtenartikel war. Sie verwendeten verschiedene Kriterien, einschliesslich der Überprüfung auf Weiterleitungen und des Vergleichs von Pfaden in URLs, um Nachrichtenartikel von Hauptseitenlinks zu trennen.
Datenanreicherung: Für jeden Artikel fügten sie nützliche Informationen wie das Veröffentlichungsdatum, den Standort der Nachrichtenquelle und Metadaten über die Medienanbieter hinzu. Das macht den Datensatz viel wertvoller für verschiedene Arten von Analysen.
Übersicht der Datenabdeckung
3DLNews deckt alle 50 Bundesstaaten der USA ab und umfasst rund 68 % der Landkreise im ganzen Land. In einigen Gebieten sind jedoch keine lokalen Nachrichtenartikel verfügbar, was auf "Nachrichtenwüsten" hinweist, wo lokale Medien möglicherweise fehlen. Eine detaillierte Karte zeigt die Verteilung der Artikel nach Landkreis, was hilft, die lokale Nachrichtenlandschaft zu visualisieren.
Zeitbasierte Analyse lokaler Nachrichten
Das Dataset zeigt einen stetigen Anstieg der veröffentlichten Artikel über die Zeit, was das Wachstum des Zugangs zu digitalen Nachrichten widerspiegelt. In früheren Jahren waren weniger Artikel verfügbar, was darauf hindeutet, dass lokale Nachrichtenanbieter eine kleinere Online-Präsenz hatten. Dieser Aufwärtstrend bei den Artikeln kann Einblicke geben, wie sich lokale Nachrichten durch digitale Plattformen entwickelt haben.
Mögliche Anwendungen von 3DLNews
3DLNews bietet viele potenzielle Verwendungsmöglichkeiten für Forscher und Journalisten. Hier sind vier wichtige Anwendungsbereiche:
Studieren des Wandels zu nationalen Nachrichten: Eine Sorge in den lokalen Medien ist der Trend, sich mehr auf nationale Nachrichten als auf lokale Themen zu konzentrieren. 3DLNews kann helfen zu quantifizieren, wie viel lokale Berichterstattung von nationalen Geschichten überschattet wird.
Analysieren von Medienbias: Die Untersuchung von Medienbias in lokalen Berichten ist wichtig, da sie beeinflusst, wie Gemeinschaften Nachrichten konsumieren. Mit einer breiten Palette von Artikeln kann 3DLNews helfen, Muster von Bias zu identifizieren und ein klareres Bild des Vertrauens in lokale versus nationale Medien zu bieten.
Forschung zu Nachrichtenwüsten: Der Datensatz kann helfen, Gebiete zu untersuchen, die an lokaler Nachrichtenberichterstattung fehlen. Indem sie den Rückgang lokaler Nachrichtenanbieter verfolgen, können Forscher Einblicke in die Auswirkungen des Verlusts dieser Ressourcen auf Gemeinschaften gewinnen.
Gewinnen von Einblicken in die Gemeinschaft: Durch die Analyse von lokalen Nachrichteninhalten können Forscher mehr über die Perspektiven der Menschen zu verschiedenen Themen erfahren, einschliesslich Gesundheit, Politik und wirtschaftlichen Herausforderungen in ihren Regionen.
Einschränkungen von 3DLNews
Obwohl 3DLNews ein wertvolles Werkzeug ist, hat es einige Einschränkungen.
Es kann ein paar Nicht-Nachrichten-URLs gegeben haben, die durch den Filterprozess geschlüpft sind. Forscher können auf Rohdaten zugreifen, um ihre eigenen Filter anzuwenden.
Der Datensatz enthält keine Artikel, die archiviert, aber nicht mehr online zugänglich sind. Zukünftige Updates könnten dieses Problem angehen.
Der Prozess des Web-Scrapings begrenzte die Anzahl der gesammelten Artikel.
Einige Artikel könnten von Nachrichtenorganisationen stammen, die jetzt geschlossen sind, was es schwierig macht zu bestimmen, wie viele Artikel nicht verfügbar sind.
Der geografische Fokus hängt von den Standorten der Nachrichtenorganisationen ab, nicht von den in den Nachrichtenartikeln diskutierten Gebieten. Zukünftige Arbeiten zielen darauf ab, die tatsächlichen in den Artikeln genannten Standorte zu identifizieren.
Fazit
3DLNews öffnet die Tür für Forscher, lokale Nachrichten in den USA zu studieren und deren Bedeutung in den letzten drei Jahrzehnten zu verstehen. Mit seiner umfangreichen Abdeckung lokaler Nachrichtenartikel kann dieser Datensatz helfen, verschiedene Gemeinschaftsprobleme zu analysieren und wie sie das Leben der Menschen beeinflussen. Das Projekt hebt die entscheidende Rolle hervor, die lokale Medien bei der Berichterstattung über wichtige Themen spielen, die für Gemeinschaften im ganzen Land von Bedeutung sind. Während Forscher weiterhin dieses Dataset erkunden, könnten sie neue Einblicke in die Landschaft der lokalen Nachrichten in den USA und deren Entwicklung über die Zeit enthüllen.
Titel: 3DLNews: A Three-decade Dataset of US Local News Articles
Zusammenfassung: We present 3DLNews, a novel dataset with local news articles from the United States spanning the period from 1996 to 2024. It contains almost 1 million URLs (with HTML text) from over 14,000 local newspapers, TV, and radio stations across all 50 states, and provides a broad snapshot of the US local news landscape. The dataset was collected by scraping Google and Twitter search results. We employed a multi-step filtering process to remove non-news article links and enriched the dataset with metadata such as the names and geo-coordinates of the source news media organizations, article publication dates, etc. Furthermore, we demonstrated the utility of 3DLNews by outlining four applications.
Autoren: Gangani Ariyarathne, Alexander C. Nwala
Letzte Aktualisierung: 2024-08-08 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2408.04716
Quell-PDF: https://arxiv.org/pdf/2408.04716
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.