OmniCorpus Dataset: Una Nuova Risorsa per l'Apprendimento Multimodale
Un dataset completo che unisce immagini e testo per aiutare il machine learning.
― 7 leggere min
Indice
- Scopo del Dataset
- Creazione e Finanziamento
- Istanze e Tipi di Dati
- Campionamento e Rappresentatività
- Contenuto delle Istanze
- Etichette e Obiettivi
- Informazioni Mancanti e Relazioni
- Qualità dei Dati
- Link a Risorse Esterni
- Riservatezza e Sensibilità
- Considerazioni Etiche
- Processo di Raccolta Dati
- Acquisizione Dati e Procedure
- Tempistiche per la Raccolta Dati
- Revisioni Etiche
- Elaborazione e Filtraggio dei Dati
- Controllo Qualità
- Utilizzi del Dataset
- Applicazioni Future
- Pericoli di Uso Improprio
- Distribuzione del Dataset
- Informazioni sulla Licenza
- Manutenzione Continua
- Supporto e Contatti
- Conclusione
- Fonte originale
- Link di riferimento
Il dataset OmniCorpus è stato creato per migliorare il modo in cui lavoriamo con i Dati combinando Immagini e testi. Ha oltre 10 miliardi di coppie di immagini e testi, con l'obiettivo di aiutare le macchine a capire e imparare meglio da entrambi i tipi di informazioni. A differenza dei vecchi dataset che si concentravano principalmente sul Testo in inglese, questo dataset include molte lingue e tipi di contenuti provenienti da varie fonti, fornendo una risorsa ricca per addestrare modelli che analizzano sia dati visivi che testuali.
Scopo del Dataset
Lo scopo principale del dataset OmniCorpus è affrontare le sfide trovate nei dataset precedenti che avevano un ambito e una varietà limitati. Includendo un'ampia gamma di dati provenienti da diversi siti web e piattaforme, OmniCorpus offre una base più completa per addestrare modelli che possono dare senso a informazioni miste. Questa diversità è importante per sviluppare modelli in grado di gestire compiti del mondo reale in cui immagini e testo spesso si uniscono.
Creazione e Finanziamento
Non ci sono informazioni attualmente disponibili su chi ha creato il dataset OmniCorpus a causa di restrizioni. Allo stesso modo, i dettagli sulle fonti di finanziamento saranno forniti in seguito.
Istanze e Tipi di Dati
Il dataset è composto da molte istanze, ognuna delle quali rappresenta una combinazione di un'immagine e del suo testo correlato. Queste istanze provengono da diverse fonti, inclusi vari siti web e video. Il dataset è strutturato in modo da consentire diverse disposizioni dei dati, come solo testo, solo immagini, o un mix di entrambi.
In particolare, ci sono 8,6 miliardi di immagini, 1,7 trilioni di token testuali e 2,2 miliardi di documenti nel dataset, rendendolo significativamente più grande e più vario rispetto ai dataset passati focalizzati sulla combinazione di immagini e testo.
Campionamento e Rappresentatività
I dati in OmniCorpus sono un campione tratto da collezioni estese come Common Crawl, siti web cinesi e altri grandi dataset. Anche se sono stati fatti sforzi per garantire che i dati siano di alta qualità e pertinenti, non copre ogni possibile istanza da queste collezioni più grandi. Quindi, potrebbe non riflettere completamente ogni demografica o area geografica.
Contenuto delle Istanze
Ogni istanza include link a immagini e testo accompagnatorio. I dati comprendono URL grezzi per le immagini, insieme a descrizioni testuali e informazioni aggiuntive come la dimensione dell'immagine e la lingua utilizzata. Questo consente flessibilità a seconda del tipo di analisi necessaria.
Etichette e Obiettivi
OmniCorpus non fornisce etichette o obiettivi specifici per ogni istanza. I ricercatori possono utilizzare il dataset per vari compiti come riconoscere immagini, generare didascalie o rispondere a domande sui contenuti visivi, a seconda delle loro esigenze specifiche.
Informazioni Mancanti e Relazioni
Sebbene le singole istanze contengano le immagini e i testi, potrebbero esserci informazioni mancanti, come contesto o dettagli di background che non erano disponibili. Inoltre, le relazioni tra le istanze, come valutazioni degli utenti o interazioni sociali, non sono esplicitamente annotate nel dataset.
Qualità dei Dati
Il dataset è generato attraverso un processo automatizzato, il che significa che potrebbe contenere alcuni errori o rumore. Tuttavia, sono stati adottati accorgimenti per pulire i dati e filtrare contenuti irrilevanti.
Link a Risorse Esterni
Il dataset si basa su link a immagini ospitate online. Anche se è stato raccolto con l'intenzione di mantenere la stabilità, non c'è garanzia che tutti questi link rimarranno disponibili in futuro. Gli utenti devono prestare attenzione a rispettare eventuali restrizioni associate alle fonti originali quando accedono a questi dati.
Riservatezza e Sensibilità
Il dataset potrebbe contenere contenuti sensibili o immagini che alcuni utenti potrebbero trovare inquietanti. Nonostante gli sforzi per minimizzare tali contenuti, è ancora possibile trovare materiale che potrebbe essere considerato offensivo. Esiste un subset accuratamente curato per ridurre le possibilità di imbattersi in tali contenuti.
Considerazioni Etiche
Durante la creazione del dataset OmniCorpus, sono state affrontate varie questioni etiche. Dato il grande volume di raccolta dati, non era pratico ottenere il consenso da tutti i creatori di contenuti. Tuttavia, sono state messe in atto misure per rimuovere le immagini quando richieste. Sforzi per filtrare contenuti dannosi sono stati implementati come parte del processo per garantire uno standard di qualità più elevato.
Processo di Raccolta Dati
I dati per OmniCorpus sono stati raccolti da fonti osservabili, inclusi siti web e piattaforme online. Questo processo di raccolta è stato automatizzato, utilizzando tecnologie avanzate per catturare e compilare dati.
Acquisizione Dati e Procedure
Per raccogliere i dati, è stato impiegato un processo sofisticato, utilizzando una combinazione di software e hardware. Questo ha comportato l'esecuzione di programmi su macchine potenti per elaborare grandi quantità di dati in modo efficiente.
Tempistiche per la Raccolta Dati
Il dataset è stato compilato nell'arco di diversi anni, riflettendo una vasta gamma di contenuti sia recenti che più datati. Questo ampio sforzo di raccolta aiuta a garantire che il dataset contenga una varietà diversificata di informazioni, piuttosto che riflettere solo dati contemporanei.
Revisioni Etiche
Non è stata condotta una revisione etica formale durante la creazione del dataset, ma sono stati utilizzati meccanismi di filtraggio multipli per evitare di includere istanze problematiche. Un monitoraggio continuo continua a affrontare eventuali preoccupazioni etiche che potrebbero sorgere.
Elaborazione e Filtraggio dei Dati
I dati hanno subito un'ampia preelaborazione per garantire qualità. Questo ha incluso la rimozione di contenuti irrilevanti, la deduplicazione dei documenti e l'applicazione di feedback umano per affinare il dataset.
Controllo Qualità
Sebbene siano stati raccolti dati grezzi, questi sono stati anche puliti e curati per migliorare la loro qualità. Sono in programma azioni per rendere disponibile agli utenti questo software di preelaborazione, consentendo trasparenza per quanto riguarda come sono stati gestiti i dati.
Utilizzi del Dataset
Il dataset OmniCorpus è stato utilizzato per addestrare modelli che affrontano compiti come la generazione di didascalie per immagini e la risposta a domande basate su input visivi. La natura diversificata del dataset consente una moltitudine di applicazioni nel campo dell'apprendimento automatico multimodale.
Applicazioni Future
I temi in cui il dataset OmniCorpus potrebbe essere utile includono vari compiti che richiedono l'integrazione di immagini e testo. Questo comprende aree come il question answering visivo, le traduzioni da immagine a testo e altre collaborazioni visione-linguaggio.
Pericoli di Uso Improprio
Gli utenti dovrebbero essere cauti quando applicano il dataset, poiché potrebbe includere bias presenti nelle fonti originali. È necessaria una curatela attenta per prevenire la perpetuazione di stereotipi dannosi o assunzioni errate.
Distribuzione del Dataset
Il dataset OmniCorpus sarà condiviso pubblicamente e accessibile tramite piattaforme come GitHub. Sarà rilasciato sotto una licenza open-source, consentendo a ricercatori e sviluppatori di utilizzare i dati rispettando i termini associati ad esso.
Informazioni sulla Licenza
Il dataset è reso disponibile sotto una licenza che consente la condivisione e il riutilizzo, a condizione che la fonte sia adeguatamente riconosciuta. Gli utenti sono responsabili del rispetto delle licenze originali dei contenuti inclusi.
Manutenzione Continua
Sebbene non siano previsti aggiornamenti al dataset, gli utenti hanno la possibilità di richiedere la rimozione di campioni specifici. L'attenzione rimarrà sulla fornitura della versione più aggiornata del dataset.
Supporto e Contatti
Informazioni su chi manterrà il dataset e come gli utenti possono contattare per domande saranno condivise in seguito a causa di determinate restrizioni.
Conclusione
Il dataset OmniCorpus rappresenta un significativo avanzamento nel campo della ricerca multimodale, fornendo una vasta risorsa per comprendere la relazione tra immagini e testo. Con un'enfasi su considerazioni etiche e controllo qualità, mira a supportare applicazioni diversificate, tenendo conto dei potenziali bias e delle sfide.
Titolo: OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
Estratto: Image-text interleaved data, consisting of multiple images and texts arranged in a natural document format, aligns with the presentation paradigm of internet data and closely resembles human reading habits. Recent studies have shown that such data aids multimodal in-context learning and maintains the capabilities of large language models during multimodal fine-tuning. However, the limited scale and diversity of current image-text interleaved data restrict the development of multimodal large language models. In this paper, we introduce OmniCorpus, a 10 billion-scale image-text interleaved dataset. Using an efficient data engine, we filter and extract large-scale high-quality documents, which contain 8.6 billion images and 1,696 billion text tokens. Compared to counterparts (e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while maintaining good data quality; 2) features more diverse sources, including both English and non-English websites as well as video-centric websites; 3) is more flexible, easily degradable from an image-text interleaved format to pure text corpus and image-text pairs. Through comprehensive analysis and experiments, we validate the quality, usability, and effectiveness of the proposed dataset. We hope this could provide a solid data foundation for future multimodal model research. Code and data are released at https://github.com/OpenGVLab/OmniCorpus.
Autori: Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai
Ultimo aggiornamento: 2024-07-12 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.08418
Fonte PDF: https://arxiv.org/pdf/2406.08418
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.