Controllo dei contenuti web nell'era dell'IA
Esaminare i diritti degli editori web rispetto all'uso dei contenuti da parte dell'IA.
― 14 leggere min
Indice
- Panoramica del Controllo dei Contenuti Web per l'AI Generativa
- AI Generativa e Creazione di Contenuti
- Contesto Legale
- Proprietà Intellettuale
- Legge Europea
- Legge Statunitense
- Protezione dei Dati
- Contesto Tecnico
- Protocollo di Esclusione dei Robot
- Protocolli e Iniziative Rilevanti
- Standard Metadata Rilevanti
- Standard Ad Hoc Recenti
- Schema di Valutazione dei Formati di Opt-Out
- Sei Proposte Recenti per Opt-Out
- Studio Empirico
- User Agents
- Meta Tag
- Protocollo di Riserva TDM
- Conclusione
- Fonte originale
- Link di riferimento
Questo documento è di proprietà dei suoi autori e può essere utilizzato liberamente sotto la Licenza Creative Commons Attribution 4.0 International (CC BY 4.0).
Panoramica del Controllo dei Contenuti Web per l'AI Generativa
I recenti progressi nell'AI generativa hanno sollevato molte preoccupazioni, portando a cause legali, comprese quelle di alto profilo contro grandi aziende come Stability AI e OpenAI. Questa incertezza legale ha acceso discussioni sui diritti dei creatori di contenuti e degli editori di proteggere il loro lavoro online. Le leggi in Europa e negli Stati Uniti offrono alcune linee guida, che tracciano un percorso per soluzioni volte a regolamentare l'uso dei dati web. I ricercatori e i professionisti stanno lavorando su standard e modi per permettere agli editori di tenere i loro dati fuori dai modelli di AI generativa. Sebbene questi protocolli emergenti siano preziosi, sovraccaricano anche molti proprietari di siti web a causa dei numerosi standard che devono considerare. Questo documento esamina idee e iniziative diverse e fornisce un background legale e tecnico alla conversazione in corso sul controllo degli editori web.
AI Generativa e Creazione di Contenuti
L'ascesa di modelli generativi di testo e immagini come ChatGPT, LLaMA e Stable Diffusion ha fatto sì che l'AI diventasse parte della vita quotidiana. Mentre questo ha generato entusiasmo per il suo potenziale di migliorare la produttività e la società, ha anche sollevato preoccupazioni sui suoi effetti dirompenti. Un problema principale è che questi modelli vengono addestrati su grandi quantità di dati web, spesso raccolti senza il permesso degli autori. Inoltre, questi modelli non possono risalire o citare le fonti originali dei contenuti su cui sono stati addestrati. Questo crea un problema per gli editori e i creatori di contenuti che desiderano mantenere il valore del loro lavoro originale e prevenire usi non autorizzati. Molti cercano modi per tenere i loro contenuti fuori da questi dataset di addestramento per proteggere i loro diritti online. Tuttavia, i metodi attualmente disponibili per far rispettare queste restrizioni rimangono inadeguati, lasciando un vuoto nella capacità degli editori di controllare come vengono utilizzati i loro dati.
Per affrontare questo problema, sono fondamentali le normative per i fornitori di dati online e i consumatori. Il quadro giuridico esistente punta in una certa direzione e ora spetta alla comunità web creare soluzioni chiare e pratiche. Nuovi standard tecnici potrebbero potenziare i titolari dei diritti e dare loro più controllo su come i loro dati vengono utilizzati da praticanti ben intenzionati.
Uno standard web si riferisce a una specifica tecnica sostenuta da organizzazioni riconosciute, mentre gli pseudo standard sono specifiche popolari non ufficialmente riconosciute. Gli standard ad hoc sono idee o pratiche emergenti che non sono ancora state ampiamente accettate.
Sono stati fatti sforzi per colmare il divario tra fornitori di dati e utenti, portando a vari standard ad hoc. Questi variano da piccole soluzioni software a grandi progetti comunitari. Questo documento si propone di valutare approcci recenti, analizzando gli aspetti legali e tecnici di questa questione complessa. L'attenzione è su tre aree:
- Il quadro legale che circonda la Proprietà Intellettuale e la protezione dei dati, compresa la Direttiva DSM del 2019 dell'UE, che fornisce una base per rinunciare al text e data mining.
- Una revisione degli standard passati e presenti per controllare l'uso dei dati web.
- Una valutazione degli standard ad hoc recenti e delle loro applicazioni pratiche.
Contesto Legale
Una solida base legale è necessaria per qualsiasi standard relativo alla protezione dei dati web. Questa protezione proviene principalmente dalle leggi sulla proprietà intellettuale e sulla protezione dei dati. Poiché le leggi di ciascun paese si applicano generalmente solo all'interno dei suoi confini, questo panorama giuridico può variare in modo significativo. L'armonizzazione è stata raggiunta solo parzialmente. Pertanto, qui ci si concentra sulle leggi dell'UE e degli Stati Uniti, data la loro importanza globale.
Proprietà Intellettuale
La maggior parte degli standard di utilizzo web si concentra principalmente sulla proprietà intellettuale, che include diritti d'autore e diritti connessi. Le leggi dell'UE e degli Stati Uniti condividono criteri simili per la protezione del copyright. Sebbene la legge dell'UE non abbia una definizione chiara, la Corte di Giustizia Europea ha stabilito un test in due fasi: un'opera deve essere originale (rappresentando la personalità del creatore) ed essere un'espressione identificabile di quella originalità. La soglia affinché un'opera sia considerata protetta da copyright è bassa: a volte bastano appena undici parole. Di conseguenza, la maggior parte dei contenuti è protetta.
Tipicamente, la protezione del copyright inizia nel momento della creazione e la registrazione non è necessaria. Negli Stati Uniti, la registrazione è facoltativa per la protezione di base. L'autore è la persona che ha creato l'opera, indipendentemente dal fatto che abbia creato arte originale, libri, musica, video o altro. Nel caso dei social media, i creatori di contenuti sono i titolari dei diritti iniziali, non le piattaforme che ospitano i contenuti.
Questi titolari dei diritti hanno alcuni diritti esclusivi, come il diritto di riprodurre la propria opera. Chi desidera riprodurre un'opera deve ottenere il consenso del titolare dei diritti o trovare un'eccezione applicabile secondo la legge sul copyright.
Quando si effettua il web crawling o lo scraping, viene fatta una copia del file HTML e il contenuto viene estratto per analisi. Questo processo crea una copia locale, il che significa che la giustificazione per la riproduzione è sempre necessaria. La legge applicabile dipende da dove è ospitato il contenuto.
Legge Europea
La legge sul copyright dell'UE ha stabilito eccezioni che coprono alcuni tipi di web crawling e scraping, ma non tutti. Le leggi nazionali hanno anche influenzato i casi rimanenti. Ad esempio, il crawling per l'indicizzazione standard del web è stato generalmente visto come lecito, poiché beneficia tutte le parti coinvolte. La Corte Suprema tedesca ha interpretato questo come consenso implicito; si presume che gli autori supportino il crawling a causa dell'aumento del traffico web che porta.
Nel 2019, l'UE ha implementato la Direttiva sul Copyright nel Mercato Unico Digitale (DSMD), che definisce il Text and Data Mining (TDM). Il TDM è qualsiasi tecnica automatizzata finalizzata ad analizzare testi e dati digitali per generare informazioni, come modelli o tendenze. Questo include web crawling e scraping e altri modi per addestrare modelli di AI.
La DSMD afferma che ci sarà un'eccezione per la riproduzione e l'estrazione di opere legalmente accessibili. Le riproduzioni sono consentite se c'è accesso lecito. I titolari dei diritti possono opporsi al TDM dichiarando le loro preferenze in un formato leggibile dalle macchine.
Inoltre, ci sono regole specifiche per il TDM nella ricerca scientifica. Queste regole sono più permissive e non consentono l'opt-out tramite contratto. Tuttavia, si applicano solo a organizzazioni di ricerca e istituzioni culturali.
Legge Statunitense
Negli Stati Uniti, ci sono varie considerazioni relative al TDM. Il principio di fair use è spesso considerato il più adatto quando si valuta l'uso di un'opera. Devono essere pesati diversi fattori per determinare se l'uso è equo.
A differenza della legge dell'UE, non c'è un meccanismo sicuro di opt-out negli Stati Uniti. I tribunali valutano ciascun caso singolarmente. Il TDM per l'indicizzazione o la preservazione web è generalmente consentito. Tuttavia, la discussione sul TDM per l'addestramento dell'AI è in corso, con casi in essere che coinvolgono OpenAI e Stability AI.
Protezione dei Dati
Oltre alle leggi sul copyright, le leggi sulla protezione dei dati potrebbero applicarsi anche ai contenuti web. Secondo la legge dell'UE, qualsiasi trattamento di dati personali richiede una base legale delineata nel Regolamento Generale sulla Protezione dei Dati (GDPR). Il trattamento significa qualsiasi operazione effettuata su dati personali, e quindi è necessaria una base legale per azioni come il download o l'estrazione di informazioni. Questo si applica a ogni aspetto del web crawling e dello scraping, così come a qualsiasi successivo addestramento dell'AI.
Le leggi sulla protezione dei dati si applicano non solo ai processori con sede nell'UE, ma anche a qualsiasi trattamento che mira a individui nell'UE. Il consenso può essere una base legale ma è spesso difficile da ottenere poiché deve essere chiaro e inequivocabile.
La legittimità può dipendere anche dal bilanciamento degli interessi, pesando gli interessi del controllore dei contenuti e di altri rispetto a quelli del soggetto dei dati. I soggetti dei dati hanno il diritto di opporsi in qualsiasi momento, richiedendo una rivalutazione dei casi individuali.
Negli Stati Uniti, non esiste una legge federale completa sulla protezione dei dati, con la regolamentazione che esiste a livello statale. La legalità varia quindi in base al tipo di dati e alle leggi specifiche dello stato.
Contesto Tecnico
Questa sezione fornisce un'idea sulle varie pratiche, idee e iniziative vitali per il controllo dei dati web.
Protocollo di Esclusione dei Robot
Uno dei protocolli principali per il web crawling è il Protocollo di Esclusione dei Robot (REP), che è uno standard utilizzato dalla maggior parte dei siti web per controllare l'accesso dei bot. Questo protocollo consente ai webmaster di impostare regole per i visitatori non umani tramite un file robots.txt situato nella directory radice del server web. Questi file includono istruzioni di consentire e vietare per i percorsi URL, organizzati in gruppi legati agli user agent. Il REP è stato introdotto per la prima volta nel 1994 e standardizzato formalmente nel 2022. Il protocollo aiuta a gestire il traffico del server e migliora l'efficienza dei crawler.
I meta tag HTML e le intestazioni di risposta HTTP possono anche istruire gli agenti web, similmente a robots.txt, ma questi non fanno parte dello standard REP. Mentre robots.txt influenza l'intero sito, i tag incorporati si applicano a singoli documenti HTML, guidando i motori di ricerca su come eseguire il crawling e indicizzare pagine specifiche. Tuttavia, il REP manca di meccanismi di enforcement, evidenziando l'importanza della fiducia su internet. I principali motori di ricerca tendono a rispettare gli standard di esclusione dei robot, con studi precedenti che indicano un'adozione diffusa.
Protocolli e Iniziative Rilevanti
Sono stati fatti numerosi sforzi per migliorare il REP e migliorare la comunicazione tra agenti web e server. Nel 2007, le organizzazioni dell'industria editoriale hanno proposto il Protocollo di Accesso ai Contenuti Automatizzato (ACAP), progettato per fornire ai motori di ricerca informazioni dettagliate sui contenuti per l'indicizzazione. Tuttavia, questo protocollo non è stato ampiamente adottato a causa di una mancanza di supporto da parte delle grandi aziende.
Il Consiglio Internazionale delle Telecomunicazioni per la Stampa ha in seguito mantenuto l'ACAP, che è stato aggiornato e rinominato RightsML. Questo protocollo si è concentrato sui media digitali di notizie e non ha guadagnato una maggiore accettazione.
Gli sforzi dell'industria editoriale parzialmente si sovrappongono alla Coalizione per la Provenienza e l'Autenticità dei Contenuti (C2PA), che mira a stabilire nuovi standard tecnici per l'autenticazione dei contenuti.
Standard Metadata Rilevanti
Negli ultimi anni, il dominio del Semantic Web ha generato molti standard metadata per annotare documenti web. Questi standard aiutano a esprimere informazioni sui diritti d'autore e sulle licenze, con markup notevoli come Dublin Core, vari meta standard e licenze Creative Commons. Tuttavia, molti di questi standard non sono ampiamente adottati su internet.
Il fallimento di alcuni standard, come Do Not Track, che mirava a dare agli utenti opzioni per rinunciare al tracciamento, evidenzia le sfide nell'affrontare tali iniziative. La mancanza di supporto da parte dei grandi attori ha portato infine al suo abbandono.
Standard Ad Hoc Recenti
A seguito dei progressi nell'AI generativa, è stato posto maggiore focus sui meccanismi di opt-out per i creatori di contenuti. La sfida sta nel creare formati tecnici comunemente accettati per questi opt-out. Vari protocolli e standard metadata presentano soluzioni ma potrebbero essere troppo complessi.
Recentemente, sono emerse alcune tecniche pratiche specificamente mirate a consentire opt-out dall'addestramento dell'AI generativa. Questa sezione introduce e valuta questi standard ad hoc basati su uno schema strutturato.
Schema di Valutazione dei Formati di Opt-Out
Il framework di valutazione guida la nostra analisi degli standard tecnici ad hoc relativi al controllo degli editori web. Lo schema comprende quattro criteri:
- Tecnica: Si riferisce a come i titolari dei diritti possono comunicare le loro preferenze. Ci sono diverse tecniche adatte a varie competenze tecniche e situazioni.
- Livello: Indica quanto specifiche siano le preferenze del titolare dei diritti, dal livello del sito al livello del contenuto. Le specifiche a livello di contenuto hanno la priorità su altre.
- Termini: Descrive le condizioni associate all'opt-out. Può essere una semplice scelta o un accordo più dettagliato sull'uso dei dati.
- Ambito: Delinea l'estensione dell'opt-out, da divieti completi a usi specifici, come data mining o sviluppo di strumenti AI.
Sei Proposte Recenti per Opt-Out
Protocollo di Esclusione dei Robot Migliorato: Questo approccio migliora il REP esistente seguendo rigorosamente i suoi comandi di consentire e vietare. Ad esempio, un file robots.txt potrebbe bloccare contenuti multimediali come immagini dall'essere crawled.
Nomi di Agenti Specifici per Uso: Alcuni operatori web hanno introdotto token di prodotto specifici per casi d'uso dei dati. Google ha lanciato un user agent chiamato Google-Extended che limita l'accesso a certe aree del sito, assicurando che i contenuti bloccati non migliorino i suoi prodotti AI.
File Learners.txt: È emersa la proposta di creare un secondo file chiamato learners.txt che rispecchia il file robots.txt. Questo consente ai webmaster di separare le istruzioni generali sul web crawling da quelle mirate alla raccolta di dati per l'AI.
Meta Tag NoAI, NoArchive e NoCache: L'introduzione di nuovi meta tag come noai e noimageai mira a migliorare il controllo sull'uso dei contenuti. Tuttavia, il loro impatto pratico è stato limitato, poiché l'adozione rimane bassa tra le principali piattaforme.
Campo Metadata NOTRAIN: Questa strategia prevede l'aggiunta di un tag NOTRAIN ai metadata delle immagini, indicando chiaramente che l'immagine non dovrebbe essere utilizzata per l'addestramento dell'AI. Questo approccio potrebbe suscitare notevole attenzione date le questioni sui diritti d'autore associate alle immagini.
Protocollo di Riserva TDM: Questo protocollo consente agli editori di specificare i propri diritti riguardo al Text Data Mining. Fornisce un metodo per i webmaster di dichiarare le loro preferenze all'interno dei loro documenti utilizzando tag leggibili dalle macchine.
Studio Empirico
Questo studio valuta il tasso di adozione degli standard ad hoc precedentemente discussi. Abbiamo analizzato milioni di pagine web e i loro tag, cercando istanze dei protocolli discussi. Questo ha fornito una visione ampia delle pratiche attuali.
Circa il 56% dei siti web crawled fornisce un file robots.txt valido, mostrando il ruolo costante del REP nel tempo. Il tag HTML robots appare in circa il 52,7% delle pagine web, mentre l'intestazione X-Robots-Tag è presente solo nello 0,6% delle risposte HTTP esaminate.
User Agents
Specifici user agent mirati a escludere l'addestramento AI, come Google-Extended, hanno guadagnato una notevole attenzione. Google-Extended è emerso in oltre 650.000 file robots.txt analizzati. È significativo notare che molti siti di notizie attualmente coinvolti in cause contro aziende di AI hanno optato per questi specifici user agent per limitare il loro contenuto dall'addestramento AI.
Meta Tag
I nuovi tag noai, noimageai e noml hanno visto una bassa adozione, apparendo solo su 82 su circa 1,4 milioni di host distinti. Al contrario, i tag noarchive e nocache mostrano adozione fino all'1,27% delle pagine web. Tuttavia, l'interpretazione di questi tag da parte di Microsoft solleva interrogativi su come bilanci il controllo degli utenti con la disponibilità dei dati.
Protocollo di Riserva TDM
L'adozione del Protocollo di Riserva TDM resta bassa. A gennaio 2024, solo un pugno di host ha fornito un file tdmrep.json, con pochissimi che utilizzano il tag tdm-reservation. Tuttavia, alcuni siti web francesi hanno iniziato ad adottare questo nuovo protocollo.
Conclusione
La conversazione attuale attorno al controllo degli editori web sottolinea l'urgente necessità di nuovi standard che consentano di optare fuori dall'addestramento dell'AI. La protezione della proprietà intellettuale è ben consolidata nelle leggi dell'UE e degli Stati Uniti, richiedendo giustificazione per qualsiasi crawling o scraping web secondo la legge sul copyright. La DSMD dell'UE regola le attività di TDM, offrendo un quadro per i creatori di contenuti per rivendicare i propri diritti.
L'ascesa dell'AI generativa ha introdotto molti standard ad hoc, riflettendo i desideri degli editori web per un maggiore controllo sui propri dati. Questo documento valuta proposte chiave basate su uno schema strutturato, identificando sia i loro punti di forza che le sfide. Mentre alcuni approcci sono idealistici e scarsamente adottati, specifici user agent offrono un mezzo più frequente per gli editori di esprimere le proprie preferenze.
In generale, i webmaster devono navigare nelle complessità di questi standard per preservare i propri diritti in mezzo al paesaggio in evoluzione dell'uso dei dati legati all'AI.
Titolo: A Survey of Web Content Control for Generative AI
Estratto: The groundbreaking advancements around generative AI have recently caused a wave of concern culminating in a row of lawsuits, including high-profile actions against Stability AI and OpenAI. This situation of legal uncertainty has sparked a broad discussion on the rights of content creators and publishers to protect their intellectual property on the web. European as well as US law already provides rough guidelines, setting a direction for technical solutions to regulate web data use. In this course, researchers and practitioners have worked on numerous web standards and opt-out formats that empower publishers to keep their data out of the development of generative AI models. The emerging AI/ML opt-out protocols are valuable in regards to data sovereignty, but again, it creates an adverse situation for a site owners who are overwhelmed by the multitude of recent ad hoc standards to consider. In our work, we want to survey the different proposals, ideas and initiatives, and provide a comprehensive legal and technical background in the context of the current discussion on web publishers control.
Autori: Michael Dinzinger, Florian Heß, Michael Granitzer
Ultimo aggiornamento: 2024-04-02 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2404.02309
Fonte PDF: https://arxiv.org/pdf/2404.02309
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://yamadharma.github.io/
- https://kmitd.github.io/ilaria/
- https://conceptbase.sourceforge.net/mjf/
- https://doi.org/10.3030/101070014
- https://site.spawning.ai/spawning-ai-txt
- https://blog.google/technology/ai/an-update-on-web-publisher-controls/
- https://www.deviantart.com/team/journal/update-all-deviations-are-opted-out-of-ai-datasets-934500371
- https://noml.info
- https://blogs.bing.com/webmaster/september-2023/Announcing-new-options-for-webmasters-to-control-u
- https://commoncrawl.org
- https://web.archive.org/web/20211011020458/
- https://the-acap.org/
- https://iptc.org/std/RightsML/2.0/RightsML_2.0-specification.html
- https://web.archive.org/web/20210305191632/
- https://www.copyrighthub.org/assert-your-rights-in-online-content/
- https://c2pa.org
- https://www.dublincore.org/specifications/dublin-core/dcmi-terms/
- https://wiki.whatwg.org/wiki/MetaExtensions
- https://www.metatags.org/all-meta-tags-overview/meta-name-copyright/
- https://microformats.org/wiki/rel-license
- https://html.spec.whatwg.org/multipage/microdata.html
- https://opensource.creativecommons.org/ccrel/
- https://globalprivacycontrol.org