Costruzione del Dataset OBELICS per l'apprendimento multimodale

Indice

Raccolta delle Pagine Web
Semplificazione dei File HTML
Estrazione di Documenti Web Multimodali
Filtraggio dei Documenti Web Multimodali
Filtraggio a Livello di Documento
Passaggi di Filtraggio Aggiuntivi
Analisi di OBELICS
Considerazioni Etiche
Costruzione del Modello
Conclusione
Fonte originale
Link di riferimento

Questo articolo descrive come abbiamo raccolto e processato un gran numero di documenti web per creare un dataset chiamato OBELICS. Il dataset mira a migliorare i modelli di machine learning, in particolare quelli che comprendono sia testo che immagini. Passeremo attraverso i passaggi seguiti dalla raccolta delle pagine web fino al filtraggio finale dei documenti.

Raccolta delle Pagine Web

Il nostro processo è iniziato guardando ai dati web più recenti disponibili da un servizio che archivia regolarmente le pagine web. Ci siamo concentrati sulle collezioni più recenti, che includevano pagine web dal 2020 all'inizio del 2023. In totale, abbiamo raccolto circa 41,2 miliardi di documenti.

Selezione del Contenuto in Inglese

Poi, dovevamo filtrare il contenuto non in inglese. Abbiamo usato uno strumento che analizza il testo per determinare la lingua. Questo passaggio ci ha aiutato a rimuovere circa il 63,6% dei documenti che contenevano testo non in inglese.

Deduplicazione Precoce del Testo

A volte troviamo le stesse pagine web ripetute in diverse collezioni. Tuttavia, il contenuto potrebbe cambiare nel tempo. Quindi, abbiamo deciso di non rimuovere ancora i duplicati basati sugli URL. Invece, abbiamo usato una tecnica per identificare e rimuovere paragrafi e sezioni di testo ripetuti.

Classificazione della Qualità

Abbiamo applicato un processo per assicurarci di mantenere solo testo di alta qualità scritto da esseri umani. Abbiamo usato un modello addestrato su fonti ben note come Wikipedia. Se un documento superava una certa soglia, lo consideravamo scritto da un essere umano. Questo approccio ci ha aiutato a ridurre la collezione a 1,1 miliardi di documenti.

Semplificazione dei File HTML

Le pagine web che abbiamo raccolto contenevano HTML complesso, che è il codice dietro le pagine web. Per rendere più facile gestire questi dati, abbiamo semplificato l'HTML. Abbiamo utilizzato una libreria che rende il parsing HTML più efficiente, permettendoci di creare una struttura più semplice.

Pulizia della Struttura HTML

Abbiamo applicato diversi metodi di pulizia ai documenti HTML. Ad esempio, abbiamo trasformato alcuni tag che indicano interruzioni di riga in vere interruzioni, ci siamo assicurati che non ci fossero spazi eccessivi, e abbiamo rimosso commenti dall'HTML. Abbiamo anche eliminato sezioni non necessarie che non aggiungevano valore al testo.

Disimballaggio dei Tag

Ci siamo concentrati su rimuovere stili extra da tag specifici come corsivo o grassetto. Questo ha reso il testo più pulito e facile da leggere. Abbiamo trasformato il testo stilizzato in testo normale per chiarezza.

Rimozione dei Nodi

Dopo aver disimballato i tag, abbiamo ispezionato l'HTML e deciso quali tag mantenere. Abbiamo tenuto i tag importanti che definiscono la struttura del documento, come paragrafi e intestazioni. Abbiamo rimosso tag che non contribuivano con informazioni preziose, come quelli spesso usati per loghi o navigazione.

Modifica di Nodi Specifici

Alcune parti dell'HTML, come i footer o i menu di navigazione, sono state rimosse perché spesso contenevano informazioni irrilevanti. Abbiamo sostituito alcune di queste sezioni con un testo segnaposto che indicava la fine del contenuto. Questo ha aiutato a concentrarsi sulle informazioni principali.

Seguendo questi passaggi, siamo riusciti a ridurre significativamente la dimensione dei documenti mantenendo contenuti importanti.

Estrazione di Documenti Web Multimodali

Dai file HTML puliti, il nostro obiettivo era convertire questi documenti in un formato che includesse testo e immagini. Questo formato permetteva una migliore analisi del contenuto.

Preservare la Struttura

Ci siamo assicurati di mantenere intatto il formato originale delle pagine web. Ciò significava mantenere l'ordine delle apparizioni di testo e immagini, il che aiuta a capire come si relazionano i contenuti.

Download delle Immagini

Per raccogliere immagini dalle pagine web, abbiamo utilizzato uno strumento progettato per scaricare immagini in modo efficiente. Il nostro obiettivo era ottenere una grande collezione di immagini, puntando a circa 3,6 miliardi. Siamo riusciti a scaricare circa 2 miliardi di immagini in pochi giorni utilizzando una configurazione distribuita con più macchine.

Filtraggio dei Documenti Web Multimodali

Abbiamo creato un sistema di filtraggio in due fasi per garantire che nel nostro dataset rimanesse solo contenuto rilevante.

Filtraggio delle Immagini a Livello di Nodo

In questo passaggio, abbiamo rimosso le immagini che non erano in formati comuni come JPG o PNG e quelle che erano troppo piccole o non ben proporzionate. Abbiamo anche tolto le immagini contenenti parole chiave specifiche associate a loghi o pubblicità.

Filtraggio del Testo a Livello di Paragrafo

Abbiamo applicato diversi filtri per migliorare la qualità dei paragrafi di testo. Abbiamo rimosso paragrafi brevi che non portavano molte informazioni, così come quelli che ripetevano eccessivamente contenuti o contenevano molti caratteri speciali. L'obiettivo era mantenere il testo significativo e rilevante.

Filtraggio a Livello di Documento

A livello di documento, abbiamo di nuovo filtrato documenti che non avevano immagini o ne avevano troppe, poiché questi spesso non fornivano informazioni coerenti. Abbiamo anche applicato gli stessi filtri di testo, apportando aggiustamenti per tagliare valori per una migliore precisione.

Dopo questo ampio processo di filtraggio, siamo arrivati a circa 365 milioni di documenti web e 1,4 miliardi di immagini nel nostro dataset.

Passaggi di Filtraggio Aggiuntivi

Esclusione di Immagini Opt-Out

Per rispettare le preferenze dei creatori di contenuti, ci siamo assicurati di rimuovere qualsiasi immagine da cui i creatori hanno esplicitamente scelto di opt-out. Questo è stato fatto utilizzando uno strumento di verifica specifico.

Deduplicazione delle Immagini

Prima di finalizzare il dataset, abbiamo controllato le immagini duplicate. Se un'immagine appariva troppo frequentemente, l'abbiamo rimossa dal dataset. Tuttavia, abbiamo mantenuto alcuni duplicati all'interno dello stesso documento poiché il contesto potrebbe variare.

Rimozione di Immagini NSFW

Per ridurre contenuti espliciti per adulti, abbiamo usato uno strumento che identifica immagini inappropriate. Abbiamo impostato soglie per minimizzare errori garantendo al contempo diversità nel dataset. Qualsiasi documento contenente tali immagini è stato rimosso completamente.

Deduplicazione dei Documenti

Abbiamo riconosciuto che diversi documenti potrebbero essere simili, specialmente se condividevano lo stesso URL. Quindi, abbiamo mantenuto solo la versione più recente di ciascun documento.

Deduplicazione dei Paragrafi

Per pulire ulteriormente il testo, abbiamo controllato i paragrafi ripetuti attraverso documenti con lo stesso dominio. Questo ha aiutato a rimuovere frasi spam comuni o contenuti generici che non aggiungevano valore.

Dopo tutti questi passaggi di filtraggio, il dataset finale consisteva in circa 141 milioni di documenti e 353 milioni di immagini, con una vasta maggioranza unica.

Analisi di OBELICS

Esempi di Documenti Web Multimodali

In questa sezione, forniamo esempi dei tipi di documenti trovati nel dataset OBELICS. Questo dataset cattura una varietà di argomenti e formati.

Domini Top

Abbiamo osservato quali domini hanno contribuito di più documenti al nostro dataset. Questa analisi aiuta a capire le fonti del nostro contenuto.

Modello di Argomenti

Abbiamo esaminato diversi argomenti presenti nel dataset, rivelando tendenze e temi all'interno dei documenti raccolti. Questo aiuta a identificare aree di interesse e potenziali vie di ricerca.

Considerazioni Etiche

All'inizio del nostro progetto, abbiamo riflettuto sulle linee guida etiche che avrebbero plasmato il nostro lavoro. Abbiamo cercato di incorporare valori che rispettassero il consenso degli utenti e le scelte dei creatori di contenuti.

Trasparenza e Documentazione

Abbiamo notato che lavorare con grandi dataset web è spesso complesso e manca di trasparenza. Per affrontare questo, abbiamo sviluppato uno strumento visivo per aiutare gli utenti a esplorare un sottoinsieme del dataset e comprendere la sua struttura.

Affrontare i Pregiudizi

Come molti dataset raccolti dal web, OBELICS potrebbe contenere pregiudizi e sotto-rappresentazione. Abbiamo espresso le nostre speranze che questo dataset assistesse in ulteriori audit per identificare e mitigare tali problemi.

Valutazione del Modello

Come parte della nostra valutazione del modello, abbiamo testato le uscite per potenziali pregiudizi di genere e razza. Questa valutazione sistematica ci ha permesso di analizzare tendenze e comprendere come diverse caratteristiche fossero rappresentate.

Costruzione del Modello

Panoramica dell'Architettura

Abbiamo costruito un modello di machine learning basato su un'architettura esistente e combinato vari componenti per il processamento di immagini e testo. Questo modello è stato progettato per apprendere dai documenti multimodali che abbiamo creato.

Dettagli di Addestramento

Il processo di addestramento ha coinvolto complessi iper-parametri, che abbiamo selezionato con cura per garantire prestazioni ottimali. Il nostro obiettivo era utilizzare il nostro dataset in modo efficace per addestrare il modello per migliori previsioni e uscite.

Valutazione delle Prestazioni

Durante l'addestramento, abbiamo affrontato sfide come picchi di perdita. Per affrontarli, abbiamo riavviato l'addestramento da checkpoint precedenti e regolato i parametri di conseguenza.

Miscugli di Dati

Abbiamo addestrato il nostro modello su un misto di fonti di dati, incluso il nostro dataset e altri dataset ben noti. Questo mix mirava a fornire un approccio bilanciato all'apprendimento.

Risorse di Calcolo

L'addestramento richiedeva una potenza computazionale significativa. Abbiamo utilizzato GPU ad alte prestazioni e eseguito l'addestramento per diversi giorni per garantire un apprendimento approfondito dal dataset.

Conclusione

Questo articolo delinea i passaggi estesi intrapresi per costruire il dataset OBELICS. Dalla raccolta delle pagine web al filtraggio dei contenuti indesiderati, ci siamo concentrati sulla creazione di una risorsa di alta qualità per futuri compiti di machine learning. Le considerazioni etiche e gli sforzi di trasparenza evidenziano il nostro impegno verso pratiche di dati responsabili. L'analisi continua di questo dataset mira a migliorare la nostra comprensione dell'apprendimento multimodale e delle sue applicazioni.

Costruzione del Dataset OBELICS per l'apprendimento multimodale

Una panoramica completa sulla creazione del dataset OBELICS e le sue implicazioni per il machine learning.

#Raccolta delle Pagine Web

#Selezione del Contenuto in Inglese

#Deduplicazione Precoce del Testo

#Classificazione della Qualità

#Semplificazione dei File HTML

#Pulizia della Struttura HTML

#Disimballaggio dei Tag

#Rimozione dei Nodi

#Modifica di Nodi Specifici

#Estrazione di Documenti Web Multimodali

#Preservare la Struttura

#Download delle Immagini

#Filtraggio dei Documenti Web Multimodali

#Filtraggio delle Immagini a Livello di Nodo

#Filtraggio del Testo a Livello di Paragrafo

#Filtraggio a Livello di Documento

#Passaggi di Filtraggio Aggiuntivi

#Esclusione di Immagini Opt-Out

#Deduplicazione delle Immagini

#Rimozione di Immagini NSFW

#Deduplicazione dei Documenti

#Deduplicazione dei Paragrafi

#Analisi di OBELICS

#Esempi di Documenti Web Multimodali

#Domini Top

#Modello di Argomenti

#Considerazioni Etiche

#Trasparenza e Documentazione

#Affrontare i Pregiudizi

#Valutazione del Modello

#Costruzione del Modello

#Panoramica dell'Architettura

#Dettagli di Addestramento

#Valutazione delle Prestazioni

#Miscugli di Dati

#Risorse di Calcolo

#Conclusione

Link di riferimento

Argomenti citati