Costruzione del Dataset OBELICS per l'apprendimento multimodale
Una panoramica completa sulla creazione del dataset OBELICS e le sue implicazioni per il machine learning.
― 8 leggere min
Indice
- Raccolta delle Pagine Web
- Semplificazione dei File HTML
- Estrazione di Documenti Web Multimodali
- Filtraggio dei Documenti Web Multimodali
- Filtraggio a Livello di Documento
- Passaggi di Filtraggio Aggiuntivi
- Analisi di OBELICS
- Considerazioni Etiche
- Costruzione del Modello
- Conclusione
- Fonte originale
- Link di riferimento
Questo articolo descrive come abbiamo raccolto e processato un gran numero di documenti web per creare un dataset chiamato OBELICS. Il dataset mira a migliorare i modelli di machine learning, in particolare quelli che comprendono sia testo che immagini. Passeremo attraverso i passaggi seguiti dalla raccolta delle pagine web fino al filtraggio finale dei documenti.
Raccolta delle Pagine Web
Il nostro processo è iniziato guardando ai dati web più recenti disponibili da un servizio che archivia regolarmente le pagine web. Ci siamo concentrati sulle collezioni più recenti, che includevano pagine web dal 2020 all'inizio del 2023. In totale, abbiamo raccolto circa 41,2 miliardi di documenti.
Selezione del Contenuto in Inglese
Poi, dovevamo filtrare il contenuto non in inglese. Abbiamo usato uno strumento che analizza il testo per determinare la lingua. Questo passaggio ci ha aiutato a rimuovere circa il 63,6% dei documenti che contenevano testo non in inglese.
Deduplicazione Precoce del Testo
A volte troviamo le stesse pagine web ripetute in diverse collezioni. Tuttavia, il contenuto potrebbe cambiare nel tempo. Quindi, abbiamo deciso di non rimuovere ancora i duplicati basati sugli URL. Invece, abbiamo usato una tecnica per identificare e rimuovere paragrafi e sezioni di testo ripetuti.
Classificazione della Qualità
Abbiamo applicato un processo per assicurarci di mantenere solo testo di alta qualità scritto da esseri umani. Abbiamo usato un modello addestrato su fonti ben note come Wikipedia. Se un documento superava una certa soglia, lo consideravamo scritto da un essere umano. Questo approccio ci ha aiutato a ridurre la collezione a 1,1 miliardi di documenti.
Semplificazione dei File HTML
Le pagine web che abbiamo raccolto contenevano HTML complesso, che è il codice dietro le pagine web. Per rendere più facile gestire questi dati, abbiamo semplificato l'HTML. Abbiamo utilizzato una libreria che rende il parsing HTML più efficiente, permettendoci di creare una struttura più semplice.
Pulizia della Struttura HTML
Abbiamo applicato diversi metodi di pulizia ai documenti HTML. Ad esempio, abbiamo trasformato alcuni tag che indicano interruzioni di riga in vere interruzioni, ci siamo assicurati che non ci fossero spazi eccessivi, e abbiamo rimosso commenti dall'HTML. Abbiamo anche eliminato sezioni non necessarie che non aggiungevano valore al testo.
Disimballaggio dei Tag
Ci siamo concentrati su rimuovere stili extra da tag specifici come corsivo o grassetto. Questo ha reso il testo più pulito e facile da leggere. Abbiamo trasformato il testo stilizzato in testo normale per chiarezza.
Rimozione dei Nodi
Dopo aver disimballato i tag, abbiamo ispezionato l'HTML e deciso quali tag mantenere. Abbiamo tenuto i tag importanti che definiscono la struttura del documento, come paragrafi e intestazioni. Abbiamo rimosso tag che non contribuivano con informazioni preziose, come quelli spesso usati per loghi o navigazione.
Modifica di Nodi Specifici
Alcune parti dell'HTML, come i footer o i menu di navigazione, sono state rimosse perché spesso contenevano informazioni irrilevanti. Abbiamo sostituito alcune di queste sezioni con un testo segnaposto che indicava la fine del contenuto. Questo ha aiutato a concentrarsi sulle informazioni principali.
Seguendo questi passaggi, siamo riusciti a ridurre significativamente la dimensione dei documenti mantenendo contenuti importanti.
Estrazione di Documenti Web Multimodali
Dai file HTML puliti, il nostro obiettivo era convertire questi documenti in un formato che includesse testo e immagini. Questo formato permetteva una migliore analisi del contenuto.
Preservare la Struttura
Ci siamo assicurati di mantenere intatto il formato originale delle pagine web. Ciò significava mantenere l'ordine delle apparizioni di testo e immagini, il che aiuta a capire come si relazionano i contenuti.
Download delle Immagini
Per raccogliere immagini dalle pagine web, abbiamo utilizzato uno strumento progettato per scaricare immagini in modo efficiente. Il nostro obiettivo era ottenere una grande collezione di immagini, puntando a circa 3,6 miliardi. Siamo riusciti a scaricare circa 2 miliardi di immagini in pochi giorni utilizzando una configurazione distribuita con più macchine.
Filtraggio dei Documenti Web Multimodali
Abbiamo creato un sistema di filtraggio in due fasi per garantire che nel nostro dataset rimanesse solo contenuto rilevante.
Filtraggio delle Immagini a Livello di Nodo
In questo passaggio, abbiamo rimosso le immagini che non erano in formati comuni come JPG o PNG e quelle che erano troppo piccole o non ben proporzionate. Abbiamo anche tolto le immagini contenenti parole chiave specifiche associate a loghi o pubblicità.
Filtraggio del Testo a Livello di Paragrafo
Abbiamo applicato diversi filtri per migliorare la qualità dei paragrafi di testo. Abbiamo rimosso paragrafi brevi che non portavano molte informazioni, così come quelli che ripetevano eccessivamente contenuti o contenevano molti caratteri speciali. L'obiettivo era mantenere il testo significativo e rilevante.
Filtraggio a Livello di Documento
A livello di documento, abbiamo di nuovo filtrato documenti che non avevano immagini o ne avevano troppe, poiché questi spesso non fornivano informazioni coerenti. Abbiamo anche applicato gli stessi filtri di testo, apportando aggiustamenti per tagliare valori per una migliore precisione.
Dopo questo ampio processo di filtraggio, siamo arrivati a circa 365 milioni di documenti web e 1,4 miliardi di immagini nel nostro dataset.
Passaggi di Filtraggio Aggiuntivi
Esclusione di Immagini Opt-Out
Per rispettare le preferenze dei creatori di contenuti, ci siamo assicurati di rimuovere qualsiasi immagine da cui i creatori hanno esplicitamente scelto di opt-out. Questo è stato fatto utilizzando uno strumento di verifica specifico.
Deduplicazione delle Immagini
Prima di finalizzare il dataset, abbiamo controllato le immagini duplicate. Se un'immagine appariva troppo frequentemente, l'abbiamo rimossa dal dataset. Tuttavia, abbiamo mantenuto alcuni duplicati all'interno dello stesso documento poiché il contesto potrebbe variare.
Rimozione di Immagini NSFW
Per ridurre contenuti espliciti per adulti, abbiamo usato uno strumento che identifica immagini inappropriate. Abbiamo impostato soglie per minimizzare errori garantendo al contempo diversità nel dataset. Qualsiasi documento contenente tali immagini è stato rimosso completamente.
Deduplicazione dei Documenti
Abbiamo riconosciuto che diversi documenti potrebbero essere simili, specialmente se condividevano lo stesso URL. Quindi, abbiamo mantenuto solo la versione più recente di ciascun documento.
Deduplicazione dei Paragrafi
Per pulire ulteriormente il testo, abbiamo controllato i paragrafi ripetuti attraverso documenti con lo stesso dominio. Questo ha aiutato a rimuovere frasi spam comuni o contenuti generici che non aggiungevano valore.
Dopo tutti questi passaggi di filtraggio, il dataset finale consisteva in circa 141 milioni di documenti e 353 milioni di immagini, con una vasta maggioranza unica.
Analisi di OBELICS
Esempi di Documenti Web Multimodali
In questa sezione, forniamo esempi dei tipi di documenti trovati nel dataset OBELICS. Questo dataset cattura una varietà di argomenti e formati.
Domini Top
Abbiamo osservato quali domini hanno contribuito di più documenti al nostro dataset. Questa analisi aiuta a capire le fonti del nostro contenuto.
Modello di Argomenti
Abbiamo esaminato diversi argomenti presenti nel dataset, rivelando tendenze e temi all'interno dei documenti raccolti. Questo aiuta a identificare aree di interesse e potenziali vie di ricerca.
Considerazioni Etiche
All'inizio del nostro progetto, abbiamo riflettuto sulle linee guida etiche che avrebbero plasmato il nostro lavoro. Abbiamo cercato di incorporare valori che rispettassero il consenso degli utenti e le scelte dei creatori di contenuti.
Trasparenza e Documentazione
Abbiamo notato che lavorare con grandi dataset web è spesso complesso e manca di trasparenza. Per affrontare questo, abbiamo sviluppato uno strumento visivo per aiutare gli utenti a esplorare un sottoinsieme del dataset e comprendere la sua struttura.
Affrontare i Pregiudizi
Come molti dataset raccolti dal web, OBELICS potrebbe contenere pregiudizi e sotto-rappresentazione. Abbiamo espresso le nostre speranze che questo dataset assistesse in ulteriori audit per identificare e mitigare tali problemi.
Valutazione del Modello
Come parte della nostra valutazione del modello, abbiamo testato le uscite per potenziali pregiudizi di genere e razza. Questa valutazione sistematica ci ha permesso di analizzare tendenze e comprendere come diverse caratteristiche fossero rappresentate.
Costruzione del Modello
Panoramica dell'Architettura
Abbiamo costruito un modello di machine learning basato su un'architettura esistente e combinato vari componenti per il processamento di immagini e testo. Questo modello è stato progettato per apprendere dai documenti multimodali che abbiamo creato.
Dettagli di Addestramento
Il processo di addestramento ha coinvolto complessi iper-parametri, che abbiamo selezionato con cura per garantire prestazioni ottimali. Il nostro obiettivo era utilizzare il nostro dataset in modo efficace per addestrare il modello per migliori previsioni e uscite.
Valutazione delle Prestazioni
Durante l'addestramento, abbiamo affrontato sfide come picchi di perdita. Per affrontarli, abbiamo riavviato l'addestramento da checkpoint precedenti e regolato i parametri di conseguenza.
Miscugli di Dati
Abbiamo addestrato il nostro modello su un misto di fonti di dati, incluso il nostro dataset e altri dataset ben noti. Questo mix mirava a fornire un approccio bilanciato all'apprendimento.
Risorse di Calcolo
L'addestramento richiedeva una potenza computazionale significativa. Abbiamo utilizzato GPU ad alte prestazioni e eseguito l'addestramento per diversi giorni per garantire un apprendimento approfondito dal dataset.
Conclusione
Questo articolo delinea i passaggi estesi intrapresi per costruire il dataset OBELICS. Dalla raccolta delle pagine web al filtraggio dei contenuti indesiderati, ci siamo concentrati sulla creazione di una risorsa di alta qualità per futuri compiti di machine learning. Le considerazioni etiche e gli sforzi di trasparenza evidenziano il nostro impegno verso pratiche di dati responsabili. L'analisi continua di questo dataset mira a migliorare la nostra comprensione dell'apprendimento multimodale e delle sue applicazioni.
Titolo: OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents
Estratto: Large multimodal models trained on natural documents, which interleave images and text, outperform models trained on image-text pairs on various multimodal benchmarks. However, the datasets used to train these models have not been released, and the collection process has not been fully specified. We introduce the OBELICS dataset, an open web-scale filtered dataset of interleaved image-text documents comprising 141 million web pages extracted from Common Crawl, 353 million associated images, and 115 billion text tokens. We describe the dataset creation process, present comprehensive filtering rules, and provide an analysis of the dataset's content. To show the viability of OBELICS, we train vision and language models of 9 and 80 billion parameters named IDEFICS, and obtain competitive performance on different multimodal benchmarks. We release our dataset, models and code.
Autori: Hugo Laurençon, Lucile Saulnier, Léo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh
Ultimo aggiornamento: 2023-08-21 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.16527
Fonte PDF: https://arxiv.org/pdf/2306.16527
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://huggingface.co/datasets/HuggingFaceM4/OBELICS
- https://github.com/huggingface/OBELICS
- https://huggingface.co/HuggingFaceM4/idefics-80b
- https://dailylivescores.com/tottenham-vs-chelsea-live-streaming-for-free/
- https://commoncrawl.org/
- https://github.com/buriy/python-readability
- https://github.com/rushter/selectolax
- https://api.spawning.ai/spawning-api
- https://github.com/GantMan/nsfw_model
- https://birdingcraft.com/wordpress/2018/01/23/what-happens-with-birding-in-costa-rica-when-the-rain-stops/
- https://www.halt.org/can-i-expect-compensation-for-my-injuries/
- https://www.quirkybyte.com/blog/2021/11/how-dane-whitman-will-become-black-knight-kit-harringtons-character-explained/
- https://huggingface.co/blog/ethical-charter-multimodal
- https://atlas.nomic.ai/map/f2fba2aa-3647-4f49-a0f3-9347daeee499/ee4a84bd-f125-4bcc-a683-1b4e231cb10f
- https://laion.ai/blog/large-openclip/
- https://huggingface.co/spaces/HuggingFaceM4/obelics
- https://colab.research.google.com/drive/10vOLeP8n9kPgYDpsUrvVqyhWMLb2wokB?usp=sharing