3DLニュース:包括的なローカルニュースアーカイブ
1996年から2024年までの約100万件のローカルニュース記事を探ってみてね。
― 1 分で読む
目次
3DLNewsはアメリカのローカルニュース記事の新しいコレクションだよ。1996年から2024年までの期間をカバーしてて、14,000以上のソースから約100万件のニュースリンクが含まれてるんだ。新聞やテレビ局、ラジオ局など、アメリカの全州からの情報だよ。このデータセットは、ローカルニュースとその役割についての良い概要を提供してくれる。データはGoogleやTwitterで記事を探して、非ニュースリンクをフィルタリングすることで集められたんだ。
ローカルニュースの重要性
ローカルニュースはコミュニティにとって超重要。アメリカには3億2900万人以上の人が住んでて、数千の郡があるから、全国メディアがすべてのローカル問題をカバーするのは無理なんだ。ローカルメディアは、政府の活動や学校のパフォーマンス、地域のイベントなど、特定のコミュニティの関心に焦点を当ててる。オリジナルなニュースストーリーの半分以上はローカルメディアによって作られてるんだ。ローカルニュースは、ウェストバージニアのオピオイド危機やフリントの水危機といった重要な出来事の報告にも大きな役割を果たしてきた。COVID-19パンデミックのような課題に対して各コミュニティがどう対処してきたかも示すことができる。これらの側面を分析するには、ローカルニュースに関するデータが必要なんだ。
既存のニュースデータセット
現在のニュースデータセットは、多くが全国的または国際的なトピックに焦点を当ててたり、料金がかかったり、カバー範囲が狭すぎたりする。ここで3DLNewsが際立つんだ。これは1996年から2024年までのローカルニュース記事をアメリカ全体から提供する初めてのデータセットなんだ。さまざまなローカルニュースのアウトレットからのリンクが含まれてて、各記事の重要な詳細もあるんだ。
他のデータセットも存在するけど、3DLNewsのカバー範囲やアクセスのしやすさには敵わない。たとえば、Media Cloudは世界的なニュース記事を提供してるけど、無料じゃない。LexisNexisは有料のソースで、ローカルのアメリカのニュースも含むかもしれないけど、ローカル記事の量についての透明性がない。Nela-GTやGDELTデータセットは特定の分析には役立つけど、アメリカのローカルニュースに特化してるわけじゃない。NELA-Localは最も焦点が近いけど、3DLNewsよりも短い期間からの記事と少ないソースだけを含んでる。
3DLNewsデータセットの構築
3DLNewsを作るために、チームは以前に存在していたローカルニュースデータセットを使ったんだ。この前のデータセットは、数千のローカル新聞や放送局のウェブサイトを含んでた。それを出発点にして、さらにローカルニュースのソースを集めてコレクションを拡大したんだ。
データ抽出のステップ
検索クエリの作成: 彼らはまず、各メディアアウトレットから1996年から2024年までに公開されたニュース記事を探すための特定のGoogle検索リクエストを作った。Twitterでも似たような方法を使ったよ。
リンクのスクレイピング: チームは次に、GoogleやTwitterの検索結果からリンクを集めた。ローカルニュースストーリーの代表的なコレクションを維持するために、Googleの結果の1ページ目と各クエリの上位20ツイートに焦点を当てた。
非ニュースリンクのフィルタリング: 初期のリンクセットが集まった後、チームはニュース記事ではないものを取り除くためにURLをスクリーニングした。リダイレクトをチェックしたり、URLのパスを比較したりして、ニュース記事とホームページのリンクを分けたんだ。
データの充実化: 各記事について、出版日、ニュースソースの所在地、メディアアウトレットに関するメタデータなど、役立つ情報を追加したよ。これによってデータセットはさまざまな分析にとって価値が増すんだ。
データカバレッジの概要
3DLNewsはアメリカの50州全てをカバーしてて、国内の約68%の郡を含んでる。ただ、一部の地域にはローカルニュース記事が全くないところもあって、これはローカルメディアが存在しない「ニュースデザート」を示してる。記事の郡ごとの分布を示す詳細な地図があって、ローカルニュースの状況を視覚化するのに役立つんだ。
ローカルニュースの時間に基づく分析
このデータセットは、時間の経過とともに公開される記事の数が着実に増加していることを示していて、デジタルニュースへのアクセスの増加を反映してる。初期の頃は利用可能な記事が少なくて、ローカルニュースのアウトレットがオンラインでの存在感が低かったことを示唆してる。この記事数の上昇トレンドは、デジタルプラットフォームによるローカルニュースの進化を知る手がかりになるんだ。
3DLNewsの可能な利用方法
3DLNewsは研究者やジャーナリストにとって多くの潜在的な使い方を提供してるよ。ここに4つの主なアプリケーション分野を紹介するね:
国際ニュースへのシフトの研究: ローカルメディアの一つの懸念は、国際ニュースに焦点を当てることがローカル問題を覆い隠す傾向にあること。3DLNewsは、どれだけのローカルニュースが国際ニュースに隠れているかを定量化するのに役立つよ。
メディアバイアスの分析: ローカル報道におけるメディアバイアスを調査するのは重要だよ。これはコミュニティがニュースをどのように受け取るかに影響するから。幅広い記事がある3DLNewsは、バイアスのパターンを特定するのに役立って、ローカルメディアと全国メディアの信頼性をより明確に描写できる。
ニュースデザートの研究: このデータセットは、ローカルニュースのカバーがない地域を調べるのに役立つよ。ローカルニュースのアウトレットの減少を追跡することで、こういったリソースを失うことがコミュニティに与える影響についての洞察が得られる。
コミュニティのインサイトを得る: ローカルニュースの内容を分析することで、研究者は地域の健康、政治、経済の課題に対する人々の視点について知ることができる。
3DLNewsの限界
3DLNewsは貴重なツールだけど、いくつかの限界もあるよ。
フィルタリングプロセスを通過してしまった非ニュースURLが少しあるかもしれない。研究者は生データにアクセスして、自分でフィルターを適用できる。
アーカイブされたけどオンラインでアクセスできなくなった記事は含まれてない。今後の更新でこの問題が対処されるかもしれない。
ウェブスクレイピングのプロセスが収集された記事の数を制限した。
一部の記事はすでに閉鎖されたニュース組織からのもので、どれだけの記事が利用できないかを把握するのが難しい。
地理的焦点はニュース組織の所在地に依存していて、ニュース記事で言及される地域とは異なる。今後の作業では、記事で言及される実際の場所を特定することを目指してる。
結論
3DLNewsは、研究者がアメリカのローカルニュースを研究し、この30年間の重要性を理解するための扉を開いてくれる。ローカルニュースストーリーの幅広いカバー範囲で、このデータセットはコミュニティの様々な問題とそれが人々の生活に与える影響を分析するのに役立つんだ。このプロジェクトは、全国のコミュニティにとって重要なトピックを報道するローカルメディアの重要な役割を浮き彫りにしてる。研究者たちがこのデータセットを探索し続けることで、アメリカのローカルニュースの風景とその進化について新たな洞察が明らかになるかもしれないね。
タイトル: 3DLNews: A Three-decade Dataset of US Local News Articles
概要: We present 3DLNews, a novel dataset with local news articles from the United States spanning the period from 1996 to 2024. It contains almost 1 million URLs (with HTML text) from over 14,000 local newspapers, TV, and radio stations across all 50 states, and provides a broad snapshot of the US local news landscape. The dataset was collected by scraping Google and Twitter search results. We employed a multi-step filtering process to remove non-news article links and enriched the dataset with metadata such as the names and geo-coordinates of the source news media organizations, article publication dates, etc. Furthermore, we demonstrated the utility of 3DLNews by outlining four applications.
著者: Gangani Ariyarathne, Alexander C. Nwala
最終更新: 2024-08-08 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2408.04716
ソースPDF: https://arxiv.org/pdf/2408.04716
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。