ウェブアーカイブの検索方法を革命的に変える
新しい検索エンジンでウェブコンテンツの歴史的な変化にアクセスしやすくなった。
― 1 分で読む
目次
ウェブページは静的じゃなくて、時間とともに変わるんだ。つまり、今日見ている情報は昨日や去年のものと違うかもしれない。こうした変化を保存するために、ウェブアーカイブが作られてる。古いバージョンのウェブページのコピーを保存するんだけど、特定の変化を見つけるのが難しいことがある。ジャーナリストや研究者は、ウェブページが時間とともにどう変わったかを知りたいけど、今のところそのアーカイブを検索するツールはあまり使いやすくない。
現在のウェブアーカイブ検索ツールの問題
ほとんどのウェブアーカイブ検索ツールは、ウェブページの個別のバージョンを表示するけど、違いを強調することはない。ユーザーが用語を検索すると、同じページのいくつかのバージョンが見つかるけど、具体的に何が変わったかは分からない。たとえば、ウェブページから「汚染」という用語が削除されたとしたら、検索ツールはその変更がいつ行われたかを知らせず、改訂された内容をすぐに比べることもできない。
既存の検索エンジンは、主にウェブページの最新バージョンを表示するように設計されている。歴史的なコンテンツの変更を検索する機能が欠けているんだ。こういったツールの欠点が原因で、ジャーナリストや他のユーザーは、常に変化するウェブの情報を追うのが難しくなっている。
より良い解決策の必要性
ジャーナリストは過去のコンテンツを参照するためにウェブアーカイブを頻繁に使うので、ウェブページの変更を検索する新しい方法が必要だ。彼らは情報がいつ追加、変更、または削除されたかを知りたい。今は、さまざまなバージョンを手動でチェックしなきゃいけないから、時間がかかって効率的じゃない。だから、そういった違いを強調して分かりやすく表示する変更テキスト検索エンジンが必要なんだ。
変更テキスト検索エンジンの紹介
新しいタイプの検索エンジンは、ウェブページの変更を検索する革新的な方法を提供することで、これらの問題を解決できる。このエンジンは、ユーザーが特定の変更を見つけるだけでなく、それらの変更がどのように文脈で行われたかも見ることができる。変更テキスト検索エンジンの主な機能は以下の通り:
- 変更の発見:ユーザーはウェブページから追加または削除された特定の用語やフレーズを探すことができる。
- 視覚的表現:変更をユーザーフレンドリーな形式で表示して、コンテンツがどのように進化したかを理解しやすくする。
- アニメーション:この機能では、ユーザーはリアルタイムで変更を見て、コンテンツの動的な性質を理解しやすくなる。
変更テキスト検索エンジンの仕組み
変更テキスト検索エンジンのアーキテクチャは、3つの主要な部分で構成されている:
- ドキュメント取得:エンジンはさまざまなウェブアーカイブから異なるバージョンのウェブページを集める。
- インデックス作成:検索を効率的にするために情報を整理する。このプロセスでは、コンテンツを小さな部分に分解し、時間とともにどの用語が変わったかを特定する。
- ユーザーインターフェース:検索エンジンのフロントエンドでは、ユーザーがクエリを入力して結果を整然と表示できる。
ドキュメント取得
データを集めるために、エンジンは通常WARCと呼ばれる形式で保存されたウェブページのアーカイブ版を取得する必要がある。専門のツールを使って、元のウェブアドレスをWARCファイルに変換することができる。これにより、正しい歴史的なウェブページのコピーが分析用に利用可能になる。
インデックス作成
ページが集められたら、インデックス化される。このプロセスでは、テキストを管理しやすい部分に分けて、特定の用語を効率的に検索できるようにする。エンジンはどの用語が追加または削除されたかを計算し、ウェブページがどのように変わったかについて貴重な洞察を提供する。
ユーザーインターフェース
ユーザーインターフェースは、ユーザーが検索エンジンと対話できる場所。検索語を入力して変更を発見し、結果を明確に表示することができる。インターフェースは、ウェブページのバージョンをまとめて表示し、変更を強調しつつ詳細を隠さないようになっている。
変更テキスト検索エンジンの評価
変更テキスト検索エンジンの効果は、特定のウェブページのコレクションを使ってテストされた。特に、2016年から2020年の間のアメリカ合衆国連邦環境ウェブページの例が、エンジンが変更を追跡する方法を明確に示している。この評価は、検索ツールが用語やフレーズが追加または削除された時期を明確に表示できることを示した。
例結果
例えば、あるジャーナリストが環境庁のウェブページで「汚染」に関連する変更を探しているとする。変更テキスト検索エンジンは、各ウェブページバージョンの別々のエントリーではなく、これらのエントリーを整理する。例えば、「汚染」が2017年3月に削除され、その後別のフレーズに置き換えられたことが表示される。
ユーザーはまた、変更がどのように行われたかを示すアニメーションを見ることができ、視覚的な手がかりにより情報が理解しやすくなる。こうした機能は、既存のアーカイブ検索ツールよりも大幅に改善されている。
背景と関連作業
ウェブアーカイブを効果的に利用するには、その機能を理解することが重要。Mementoプロトコルは、アーカイブされたコンテンツにアクセスするための標準的な方法で、ユーザーがウェブページのアドレスと特定の日付に基づいて古いバージョンを要求できるようにする。このプロセスは、ユーザーが過去のウェブをナビゲートするのに不可欠だ。
しかし、このプロトコルが存在しても、多くのウェブアーカイブは検索機能が限られている。全テキスト検索を提供するものもあるが、複数のアーカイブを跨いだ包括的な検索は利用できない。ユーザーは特定の変更を検索する能力に制限があり、ツールの効果が減少してしまう。
既存システムの課題
現在の多くのツールは、バージョン間の変更を適切に提示していない。たとえば、ページが複数回キャプチャされたことだけを示し、どのような変更があったのか詳細を説明しないことがある。この不明瞭さは、重要な情報の変更を追跡しようとするユーザーを混乱させる。
一部のツールは、少しでも良いユーザー体験を提供しようと試みている。サイド・バイ・サイド形式で変更を表示することがあるが、それでも十分ではない。ユーザーは時間の経過とともに何が変わったのかを理解するのに苦労し、ウェブアーカイブをナビゲートするのがフラストレーションになる。
変更の強調の重要性
時間の経過によるコンテンツの変更を理解することは、特にジャーナリストや研究者にとって重要だ。彼らは、自分の作業を支援するためにウェブページの正確なバージョンに頼ることが多い。変更を強調する検索エンジンにアクセスできることで、彼らは情報を素早く検証し、手間のかからない方法で過去のコンテンツを参照できるようになる。
変更の革新的な提示
新しい検索エンジンの重要な特徴の一つは、変更のアニメーション表示だ。これにより、ユーザーは変更がどのように視覚的に進化しているかを見られ、ただ変更のリストを読むだけではなくなる。リアルタイムで変化を示すことで、ユーザーはその変更の重要性をより効果的に理解できる。
歴史的データの活用
エンジンをテストする際、環境データとガバナンスイニシアティブ(EDGI)のデータセットが使用され、変更の性質をよりよく理解するために特定の期間にアクティブだったウェブページを調査した。研究者たちは、数えきれないほどの用語が時間とともに削除または追加されたことを発見し、この情報はコンテンツの変化の全体像を提示するために重要である。
ユーザー中心のデザイン
この検索エンジンの開発は、ユーザーのニーズを考慮して行われている。ジャーナリストが事実を検証するためにウェブアーカイブを利用したり、情報のトレンドを研究している研究者がそれを利用したりするなど、さまざまな専門家が異なる理由でウェブアーカイブに依存している。ユーザー中心のデザインアプローチにより、エンジン内で提供される機能が、これらのユーザーが効果的にタスクを達成するために必要なものと一致するようにしている。
今後の改善
今後、この変更テキスト検索エンジンを改善するための多くの可能性がある。重要な分野の一つは、インデックス作成プロセスの自動化で、これにより、最新のアーカイブされたコンテンツに対してツールを最新の状態に保つことが容易になるだろう。さらに、変更をより正確に検出するための高度な機能を組み込むことで、ユーザー体験をさらに向上させることができる。
また、異なるウェブアーカイブを横断して検索する能力を拡大することで、検索エンジンの範囲が広がり、ユーザーがさまざまな情報源から洞察を得ることができるようになる。これは、さまざまな分野での研究能力を大幅に向上させる可能性がある。
結論
ウェブアーカイブには、現在の議論や決定に役立つ貴重な歴史データが含まれている。しかし、既存のツールには限界があり、変更を効果的に追跡する能力を妨げることがある。変更テキスト検索エンジンの導入は、ユーザーがアーカイブされたコンテンツにアクセスする方法において大きな進歩を示している。
特定の変更を検索でき、変更のアニメーションを視聴し、それらが行われた文脈を理解することを可能にすることで、このツールは長年の課題に対する解決策を提供している。目的は、ジャーナリストや研究者、一般の人々が重要な情報にアクセスし、時間の経過とともにそれがどのように変わったかを把握しやすくすることだ。
全体として、変更テキスト検索エンジンは、ウェブアーカイブをよりアクセスしやすく、有用にするための一歩前進であり、ユーザーが依存する情報の背後にある歴史を明らかにし、理解する力を与える。
タイトル: Making Changes in Webpages Discoverable: A Change-Text Search Interface for Web Archives
概要: Webpages change over time, and web archives hold copies of historical versions of webpages. Users of web archives, such as journalists, want to find and view changes on webpages over time. However, the current search interfaces for web archives do not support this task. For the web archives that include a full-text search feature, multiple versions of the same webpage that match the search query are shown individually without enumerating changes, or are grouped together in a way that hides changes. We present a change text search engine that allows users to find changes in webpages. We describe the implementation of the search engine backend and frontend, including a tool that allows users to view the changes between two webpage versions in context as an animation. We evaluate the search engine with U.S. federal environmental webpages that changed between 2016 and 2020. The change text search results page can clearly show when terms and phrases were added or removed from webpages. The inverted index can also be queried to identify salient and frequently deleted terms in a corpus.
著者: Lesley Frew, Michael L. Nelson, Michele C. Weigle
最終更新: 2023-04-30 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.00546
ソースPDF: https://arxiv.org/pdf/2305.00546
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://orcid.org/0000-0003-0929-049X
- https://orcid.org/0000-0003-3749-8116
- https://orcid.org/0000-0002-2787-7166
- https://dl.acm.org/ccs.cfm
- https://www.niehs.nih.gov/health/topics/agents/index.cfm
- https://archive.org/about/news-stories/search?mentions-search=Wayback+Machine
- https://archive-it.org/collections/1170
- https://arquivo.pt/
- https://web.archive.org/EndOfTerm2016WebCrawls/search/
- https://commoncrawl.org/
- https://www.webarchive.org.uk/ukwa/
- https://archive-it.org/
- https://lucene.apache.org/
- https://wikipedia.ramselehof.de/wikiblame.php
- https://en.wikipedia.org/wiki/Help:Diff
- https://web.archive.org/web/changes/
- https://github.com/edgi-govdata-archiving/web-monitoring-diff
- https://eot.us.archive.org/search/
- https://news.google.com/
- https://github.com/ranahaani/GNews/
- https://solr.apache.org/
- https://github.com/solariumphp/solarium
- https://www.fws.gov/ENDANGERED/permits/index.html
- https://youtu.be/qHSVvcubuYo
- https://github.com/jfcherng/php-diff
- https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server
- https://countwordsfree.com/stopwords