Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 情報検索

AI時代のウェブコンテンツ管理

ウェブ出版社の権利とAIコンテンツの利用について調べる。

― 1 分で読む


AI時代のコンテンツのコンAI時代のコンテンツのコントロールウェブ出版社がAIデータの使用に反撃。
目次

この論文は著者によって所有されており、クリエイティブ・コモンズ・ライセンス 表示 4.0 国際 (CC BY 4.0) の下で自由に使用できます。

生成AIのためのウェブコンテンツ管理の概要

最近の生成AIの進展に伴い、多くの懸念が生まれ、Stability AIやOpenAIのような大手企業に対する著名な訴訟が発生しています。この法的な不確実性は、コンテンツクリエイターや出版社のオンラインでの権利を保護することについての議論を呼び起こしています。ヨーロッパとアメリカの法律は、ウェブデータの使用を規制するための解決策を模索するためのいくつかのガイドラインを提供しています。研究者や実務者は、出版社が自分のデータを生成AIモデルのトレーニングから守るための基準や方法を模索しています。新たに浮上したプロトコルは価値がありますが、考慮しなければならない基準が多すぎて、多くのウェブサイトのオーナーを圧倒しています。この論文は、さまざまなアイデアや取り組みを調査し、ウェブ出版社のコントロールに関する議論の法的および技術的な背景を提供します。

生成AIとコンテンツ制作

ChatGPT、LLaMA、Stable Diffusionのようなテキストや画像を生成するモデルの登場は、AIを日常生活の一部にしました。これにより、生産性や社会を改善する可能性に期待が高まりましたが、同時にその破壊的な影響についての懸念も生じています。重要な問題の一つは、これらのモデルが大量のウェブデータでトレーニングされていることが多く、著者の許可なしに収集される場合があることです。さらに、これらのモデルは、トレーニングに使われたコンテンツの元のソースを追跡したり引用したりできません。これは、元の作品の価値を維持し、無断使用を防ぎたい出版社やコンテンツクリエイターにとって問題を引き起こします。多くの人がオンラインでの権利を保護するために、自分のコンテンツがこれらのトレーニングデータセットに含まれないようにする方法を探しています。しかし、これらの制限を施行するための現行の方法は不十分で、出版社が自分のデータの使用方法を制御する能力にギャップが生じています。

この問題に対処するために、オンラインデータ提供者や消費者向けの規制が重要です。現存する法的枠組みは特定の方向を示しており、今やウェブコミュニティが明確で実用的な解決策を創造する番です。新しい技術基準は、権利者を強化し、善意の実務者が自分のデータをどのように使用するかをより多く制御できるようにします。

ウェブ標準とは、認識された組織が承認した技術的仕様を指し、擬似標準は公式に認識されていない人気の仕様です。アドホック標準は、まだ広く受け入れられていない新たなアイデアや実践です。

データ提供者とユーザーのギャップを埋める努力がなされており、さまざまなアドホック標準が生まれています。これらは、小規模なソフトウェアソリューションから大規模なコミュニティプロジェクトまで多岐にわたります。この論文は、最近のアプローチを評価し、この複雑な問題の法的および技術的な側面を分析することを目的としています。焦点は次の3つの領域にあります。

  1. 知的財産権とデータ保護に関する法的枠組み、特にEUの2019年DSM指令に関するものです。これは、テキストとデータマイニングからのオプトアウトの基礎を提供します。
  2. ウェブデータ使用を制御するための過去と現在の基準のレビュー。
  3. 最近のアドホック標準とその実際の適用の評価。

法的背景

ウェブデータ保護に関連する基準には、しっかりした法的基盤が必要です。この保護は主に知的財産権およびデータ保護法から来ています。各国の法律は一般的にその国の境界内でのみ適用されるため、この法的風景は大きく異なる場合があります。調和は部分的にしか達成されていません。したがって、ここではEUと米国の法律に焦点を当てます。

知的財産権

ほとんどのウェブ使用基準は、著作権や関連する権利を含む知的財産権に主に焦点を当てています。EUと米国の法律は著作権保護に関して類似した基準を共有しています。EU法には明確な定義がありませんが、欧州司法裁判所は二段階のテストを設けています。作品は独自性があり(クリエイターの個性を表現している)、その独自性の識別可能な表現でなければなりません。著作権で保護される作品の閾値は低く、時には11語しか必要ないこともあります。そのため、ほとんどのコンテンツは保護されています。

通常、著作権保護は創作の瞬間から始まり、登録は必要ありません。米国では、基本的な保護のための登録は任意です。著作物を創作したのは誰かで、オリジナルのアート、書籍、音楽、ビデオ、または別の何かを創作したかどうかは関係ありません。ソーシャルメディアの場合、コンテンツクリエイターが最初の権利者であり、コンテンツをホストしているプラットフォームではありません。

これらの権利者は、自らの作品を複製する権利など、特定の独占的権利を持っています。作品を複製したい場合は、権利者から同意を得る必要があります。または、著作権法に基づく適用される例外を見つける必要があります。

ウェブクロールまたはスクレイピングを行う際には、HTMLファイルのコピーが作成され、コンテンツが分析のために抽出されます。このプロセスではローカルコピーが作成されるため、複製の正当化が常に必要です。適用される法律は、コンテンツがホストされている場所によります。

欧州法

EUの著作権法は、ウェブクロールやスクレイピングの一部をカバーする例外を設けていますが、すべてではありません。国の法律も残りのケースに影響を与えています。たとえば、標準的なウェブインデックス作成のためのクロールは、関係者全員に利益をもたらすため、一般的に合法と見なされています。ドイツの最高裁判所は、これを暗黙の同意として解釈しました。著者は、ウェブトラフィックの増加をもたらすため、クロールを支持しているとみなされます。

2019年、EUはデジタル単一市場における著作権指令(DSMD)を実施し、テキストおよびデータマイニング(TDM)を定義しました。TDMは、デジタルテキストやデータを分析して情報(パターンやトレンドを生成するための)を生成するための自動化された技術です。これにはウェブクロールやスクレイピング、AIモデルのトレーニングの他の方法が含まれます。

DSMDでは、合法的にアクセス可能な作品の複製と抽出に対する例外が設けられています。合法的なアクセスがある場合は複製が許可されます。権利者は、自分の好みを機械可読形式で表明することでTDMに異議を唱えることができます。

さらに、科学研究におけるTDMには特定のルールがあります。これらのルールはより寛容で、契約によるオプトアウトは許可されていませんが、研究機関および文化機関にのみ適用されます。

米国法

米国では、TDMに関連するさまざまな考慮事項があります。フェアユースの原則は、作品の使用を評価する際に最も適切とされることが多いです。使用がフェアかどうかを判断するために、いくつかの要因を考慮しなければなりません。

EU法とは異なり、米国には安全なオプトアウトメカニズムはありません。裁判所は各ケースを個別に評価します。ウェブインデックス作成や保存のためのTDMは一般的に許可されていますが、AIトレーニングのためのTDMに関する議論は続いており、OpenAIやStability AIに関する進行中の訴訟があります。

データ保護

著作権法に加えて、データ保護法もウェブコンテンツに適用される場合があります。EUの法律の下では、個人データの処理には、一般データ保護規則(GDPR)に基づく法的根拠が必要です。処理とは、個人データに対して行われる任意の操作を意味し、情報をダウンロードしたり抽出したりするなどの行為には法的根拠が必要です。これは、ウェブクロールやスクレイピングのすべての側面、ならびにその後のAIトレーニングに適用されます。

データ保護法は、EUに拠点を置くプロセッサーだけでなく、EUの個人を対象とした処理にも適用されます。同意は法的根拠となる場合がありますが、明確であいまいでない必要があるため、取得が難しいことが多いです。

合法性はまた、コンテンツコントローラーやデータ主体の利益を天秤にかけることで決まる場合があります。データ主体はいつでも異議を唱える権利を持ち、個別のケースを再評価する必要があります。

米国では、包括的な連邦データ保護法は存在せず、州レベルでの規制が存在します。そのため、合法性はデータの種類や特定の州の法律によって異なります。

技術的背景

このセクションでは、ウェブデータ管理にとって重要なさまざまな実践、アイデア、および取り組みに関する洞察を提供します。

ロボット排除プロトコル

ウェブクロールのための主要なプロトコルの一つがロボット排除プロトコル(REP)で、ほとんどのウェブサイトがボットアクセスを管理するために使用しています。このプロトコルでは、ウェブマスターがウェブサーバーのルートディレクトリにあるrobots.txtファイルを使用して、非人間の訪問者に対するルールを設定できます。これらのファイルには、URLパスに対する許可および不許可の指示が含まれ、ユーザーエージェントに関連付けられたグループに整理されています。REPは1994年に初めて導入され、2022年に正式に標準化されました。このプロトコルは、サーバートラフィックを管理し、クローラーの効率を向上させるのに役立ちます。

HTMLメタタグやHTTPレスポンスヘッダーも、robots.txtと同様にウェブエージェントに指示を出すことができますが、これらはREP標準の一部ではありません。robots.txtはサイト全体に影響を与えますが、埋め込まれたタグは個々のHTMLドキュメントに適用され、特定のページをクロールしてインデックス化する方法を検索エンジンに指示します。ただし、REPには強制メカニズムが欠けているため、インターネット上の信頼の重要性が際立っています。主要な検索エンジンは、一般にロボット排除基準を尊重しており、過去の研究は広範な採用を示唆しています。

関連プロトコルと取り組み

REPを向上させ、ウェブエージェントとサーバーの間のコミュニケーションを改善するために、さまざまな努力がなされました。2007年、出版業界団体は、自動化コンテンツアクセスプロトコル(ACAP)を提案しました。これは、検索エンジンがインデックス作成のためのコンテンツに関する詳細情報を提供するために設計されました。しかし、このプロトコルは主要な企業からのサポート不足により、広く採用されませんでした。

国際プレス電気通信協会はその後ACAPを維持し、更新してRightsMLと名付けました。このプロトコルはデジタルニュースメディアに焦点を当てており、広く受け入れられることはありませんでした。

出版業界の取り組みは、コンテンツの出所と真実性に関する連合(C2PA)と部分的に重なり合っており、内容認証のための新しい技術基準の確立を目指しています。

関連メタデータ標準

近年、セマンティックウェブの領域では、ウェブドキュメントにアノテーションを付けるための多くのメタデータ標準が生まれました。これらの標準は、著作権やライセンス情報を表現するのに役立ち、Dublin Coreやさまざまなメタ標準、クリエイティブ・コモンズライセンスなどの注目すべきマークアップがあります。しかし、これらの標準はインターネット全体で広く採用されているわけではありません。

ユーザーがトラッキングからオプトアウトするオプションを提供することを目指した「Do Not Track」のような標準の失敗は、このような取り組みを受け入れる上での課題を浮き彫りにしています。大手企業のサポートが欠如した結果、結局は放棄されました。

最近のアドホック標準

生成AIの進展を受けて、コンテンツクリエイターのためのオプトアウトメカニズムにより焦点が当てられるようになりました。課題は、これらのオプトアウトのための一般的に受け入れられた技術フォーマットを作成することにあります。さまざまなプロトコルやメタデータ標準が解決策を提示していますが、過剰に複雑な場合があります。

最近、生成AIのトレーニングからのオプトアウトを可能にするために特に設計されたいくつかの実用的な技術が生まれました。このセクションでは、構造化されたスキーマに基づいてこれらのアドホック標準を紹介し、評価します。

オプトアウトフォーマットの評価スキーマ

評価フレームワークは、ウェブ出版社のコントロールに関連する技術的アドホック標準の評価を導くものです。このスキーマは4つの基準で構成されています:

  1. 技術:権利者が自分の好みを伝える方法を指します。さまざまな技術スキルやシナリオに適した異なる技術があります。
  2. レベル:権利者の好みがどれだけ特化しているかを示します。サイトレベルからコンテンツレベルまで。コンテンツレベルの仕様は他よりも優先されます。
  3. 条件:オプトアウトに関連する条件を説明します。単純な選択肢や、データ使用に関するより詳細な同意が含まれることがあります。
  4. 範囲:オプトアウトの範囲を概説します。完全な禁止から、データマイニングやAIツール開発のような特定の使用まで含まれます。

六つの最近のオプトアウト提案

  1. 強化されたロボット排除プロトコル:このアプローチは、既存のREPを改善し、その許可および不許可のコマンドに厳密に従います。たとえば、robots.txtファイルがメディアコンテンツ、例えば画像のクロールをブロックすることができます。

  2. 使用特定のエージェント名:一部のウェブオペレーターは、データ利用ケースのために特定の製品トークンを導入しました。Googleは、特定のサイトエリアへのアクセスを制限するGoogle-Extendedというユーザーエージェントを立ち上げ、ブロックされたコンテンツがそのAI製品を向上させないようにしています。

  3. learners.txtファイル:robots.txtファイルを反映する別のファイルlearners.txtを作成する提案が浮上しています。これにより、ウェブマスターはAIデータ収集をターゲットにした指示を一般的なウェブクロールの指示から分離できます。

  4. NoAI、NoArchive、およびNoCacheメタタグ:noaiやnoimageaiのような新しいメタタグの導入は、コンテンツ使用のコントロールを強化することを目指しています。しかし、実際の影響は限定的であり、大手プラットフォーム間での採用は低いままです。

  5. NOTRAINメタデータフィールド:この戦略では、画像メタデータにNOTRAINタグを追加し、画像がAIトレーニングに使用されるべきではないことを明確に示します。これは、画像に関連する著作権侵害の問題を考慮すると、重要な関心を集める可能性があります。

  6. TDM予約プロトコル:このプロトコルは、出版社がテキストデータマイニングに関する権利を指定できるようにします。機械可読タグを使用して、自分の文書内で好みを宣言する方法を提供します。

実証研究

この研究は、前述のアドホック標準の採用率を評価します。数百万のウェブページとそのタグを分析し、議論されたプロトコルのインスタンスを探しました。これにより、現在の実践の広範な視野を提供しました。

約56%のクロールされたウェブサイトは有効なrobots.txtファイルを提供しており、REPの持続的な役割を示しています。robots HTMLメタタグは約52.7%のウェブページに存在し、X-Robots-Tagヘッダーは調査したHTTPレスポンスの中でわずか0.6%にしか見られません。

ユーザーエージェント

AIトレーニングから除外することを目的とした特定のユーザーエージェント、例えばGoogle-Extendedは、注目を集めています。分析された650,000以上のrobots.txtファイルにおいてGoogle-Extendedが出現しました。特に、AI企業に対する訴訟に関与している多くのニュースサイトは、これらの特定のユーザーエージェントを選択してコンテンツをAIトレーニングから制限しています。

メタタグ

新しいnoai、noimageai、nomlメタタグは採用が不十分で、約140万の異なるホストのうち82件にしか現れません。一方、noarchiveやnocacheタグは最大1.27%のウェブページに採用されています。しかし、Microsoftのこれらのタグの解釈は、ユーザーのコントロールとデータの可用性のバランスに関して疑問を提起しています。

TDM予約プロトコル

TDM予約プロトコルの採用は低いままです。2024年1月時点で、tdmrep.jsonファイルを提供しているホストはわずかで、tdm-reservationタグを使用しているのもごく少数です。しかし、一部のフランスのウェブサイトは、この新しいプロトコルの採用を始めています。

結論

ウェブ出版社のコントロールに関する現在の議論は、AIトレーニングからオプトアウトを可能にする新しい標準の緊急の必要性を強調しています。知的財産の保護は、EUと米国の法律でしっかりと確立されており、著作権法の下でのウェブクロールやスクレイピングの正当化を要求します。EUのDSMDはTDM活動を規制し、コンテンツクリエイターが権利を主張するための枠組みを提供しています。

生成AIの台頭は、多くのアドホック標準を生み出し、ウェブ出版社のデータに対するより多くのコントロールを望む声を反映しています。この論文は、構造化されたスキーマに基づいて重要な提案を評価し、強みと課題を特定しています。理想的で採用が不十分なアプローチがいくつかある一方で、特定のユーザーエージェントは出版社が自らの好みを表現するためのより頻繁な手段を提供しています。

全体として、ウェブマスターは、AI関連のデータ使用の進化する風景の中で権利を守るために、これらの基準の複雑さを乗り越えなければなりません。

オリジナルソース

タイトル: A Survey of Web Content Control for Generative AI

概要: The groundbreaking advancements around generative AI have recently caused a wave of concern culminating in a row of lawsuits, including high-profile actions against Stability AI and OpenAI. This situation of legal uncertainty has sparked a broad discussion on the rights of content creators and publishers to protect their intellectual property on the web. European as well as US law already provides rough guidelines, setting a direction for technical solutions to regulate web data use. In this course, researchers and practitioners have worked on numerous web standards and opt-out formats that empower publishers to keep their data out of the development of generative AI models. The emerging AI/ML opt-out protocols are valuable in regards to data sovereignty, but again, it creates an adverse situation for a site owners who are overwhelmed by the multitude of recent ad hoc standards to consider. In our work, we want to survey the different proposals, ideas and initiatives, and provide a comprehensive legal and technical background in the context of the current discussion on web publishers control.

著者: Michael Dinzinger, Florian Heß, Michael Granitzer

最終更新: 2024-04-02 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2404.02309

ソースPDF: https://arxiv.org/pdf/2404.02309

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事

人工知能機械学習と制約プログラミングを組み合わせたジョブスケジューリング

新しい方法がディープラーニングと制約プログラミングを組み合わせて、ジョブスケジューリングを改善してる。

― 1 分で読む