Conjunto de datos OmniCorpus: Un nuevo recurso para el aprendizaje multimodal
Un conjunto de datos completo que combina imágenes y texto para ayudar al aprendizaje automático.
― 8 minilectura
Tabla de contenidos
- Propósito del Conjunto de Datos
- Creación y Financiamiento
- Instancias y Tipos de Datos
- Muestreo y Representatividad
- Contenido de las Instancias
- Etiquetas y Objetivos
- Falta de Información y Relaciones
- Calidad de los Datos
- Enlaces a Recursos Externos
- Confidencialidad y Sensibilidad
- Consideraciones Éticas
- Proceso de Recopilación de Datos
- Adquisición de Datos y Procedimientos
- Cronología para la Recopilación de Datos
- Revisiones Éticas
- Procesamiento y Filtrado de Datos
- Control de Calidad
- Usos del Conjunto de Datos
- Aplicaciones Futuras
- Peligros del Uso Incorrecto
- Distribución del Conjunto de Datos
- Información de Licencia
- Mantenimiento Continuo
- Soporte y Contacto
- Conclusión
- Fuente original
- Enlaces de referencia
El conjunto de Datos OmniCorpus se creó para mejorar la forma en que trabajamos con datos que combinan Imágenes y texto. Tiene más de 10 mil millones de pares de imágenes y Textos, con el objetivo de ayudar a las máquinas a entender y aprender mejor de ambos tipos de información. A diferencia de Conjuntos de datos más antiguos que se centraban principalmente en el texto en inglés, este conjunto incluye muchos idiomas y tipos de contenido de diversas fuentes, proporcionando un recurso rico para entrenar modelos que analicen datos visuales y textuales.
Propósito del Conjunto de Datos
El principal propósito del conjunto de datos OmniCorpus es abordar los desafíos que se encontraron en conjuntos de datos anteriores que tenían un alcance y variedad limitados. Al incluir una amplia gama de datos de diferentes sitios web y plataformas, OmniCorpus ofrece una base más completa para entrenar modelos que puedan entender información mixta. Esta diversidad es importante para desarrollar modelos que puedan manejar tareas del mundo real donde las imágenes y el texto a menudo se juntan.
Creación y Financiamiento
No se dispone actualmente de información sobre quién creó el conjunto de datos OmniCorpus debido a restricciones. De igual manera, los detalles sobre las fuentes de financiamiento se proporcionarán más adelante.
Instancias y Tipos de Datos
El conjunto de datos consiste en muchas instancias, cada una representando una combinación de una imagen y su texto relacionado. Estas instancias provienen de diferentes fuentes, incluyendo una variedad de sitios web y videos. El conjunto de datos está estructurado de manera que permite diferentes arreglos de la información, como solo texto, solo imágenes o una mezcla de ambos.
Específicamente, hay 8.6 mil millones de imágenes, 1.7 billones de tokens de texto y 2.2 mil millones de documentos en el conjunto de datos, lo que lo hace significativamente más grande y variado en comparación con conjuntos de datos anteriores centrados en combinar imágenes y texto.
Muestreo y Representatividad
Los datos en OmniCorpus son una muestra extraída de colecciones extensas como Common Crawl, sitios web chinos y otros grandes conjuntos de datos. A pesar de que se han tomado medidas para asegurar que los datos sean de alta calidad y relevantes, no cubre todas las posibles instancias de estas colecciones más grandes. Por lo tanto, puede que no refleje completamente cada demografía o área geográfica.
Contenido de las Instancias
Cada instancia incluye enlaces a imágenes y texto acompañante. Los datos comprenden URL en bruto para imágenes, junto con descripciones de texto e información adicional como el tamaño de la imagen y el idioma utilizado. Esto permite flexibilidad dependiendo de qué tipo de análisis se necesite.
Etiquetas y Objetivos
OmniCorpus no proporciona etiquetas o objetivos específicos para cada instancia. Los investigadores pueden usar el conjunto de datos para diversas tareas como reconocer imágenes, generar subtítulos o responder preguntas sobre visuales, dependiendo de sus necesidades específicas.
Falta de Información y Relaciones
Si bien las instancias individuales contienen las imágenes y el texto, puede haber información faltante, como contexto o detalles de fondo que no estaban disponibles. Además, las relaciones entre instancias, como calificaciones de usuarios o interacciones sociales, no están explícitamente anotadas en el conjunto de datos.
Calidad de los Datos
El conjunto de datos se genera a través de un proceso automatizado, lo que significa que puede contener algunos errores o ruido. Sin embargo, se han tomado medidas para limpiar los datos y filtrar contenido irrelevante.
Enlaces a Recursos Externos
El conjunto de datos depende de enlaces a imágenes alojadas en línea. Aunque se recopiló con la intención de mantener la estabilidad, no hay garantía de que todos estos enlaces permanecerán disponibles en el futuro. Los usuarios deben tener cuidado de respetar cualquier restricción asociada con las fuentes originales al acceder a estos datos.
Confidencialidad y Sensibilidad
El conjunto de datos podría contener contenido o imágenes sensibles que algunos usuarios podrían encontrar angustiante. A pesar de los esfuerzos por minimizar dicho contenido, aún es posible encontrar material que podría considerarse ofensivo. Existe un subconjunto cuidadosamente curado para reducir las posibilidades de encontrar dicho contenido.
Consideraciones Éticas
Durante la creación del conjunto de datos OmniCorpus, se abordaron varias cuestiones éticas. Dada la gran escala de la recopilación de datos, no fue práctico obtener el consentimiento de todos los creadores de contenido. Sin embargo, se implementaron medidas para eliminar imágenes cuando se solicitó. También se llevaron a cabo esfuerzos para filtrar contenido dañino como parte del proceso para garantizar un estándar de calidad más alto.
Proceso de Recopilación de Datos
Los datos para OmniCorpus se recopilaron de fuentes observables, incluidos sitios web y plataformas en línea. Este proceso de recopilación fue automatizado, utilizando tecnología avanzada para capturar y compilar datos.
Adquisición de Datos y Procedimientos
Para recopilar los datos, se empleó un proceso sofisticado, utilizando una combinación de software y hardware. Esto implicó ejecutar programas en máquinas potentes para procesar grandes cantidades de datos de manera eficiente.
Cronología para la Recopilación de Datos
El conjunto de datos se compiló a lo largo de varios años, reflejando una amplia variedad de contenido de fuentes tanto recientes como antiguas. Este amplio esfuerzo de recopilación ayuda a asegurar que el conjunto de datos contenga una gama diversa de información, en lugar de solo reflejar datos contemporáneos.
Revisiones Éticas
No se realizó ninguna revisión ética formal durante la creación del conjunto de datos, pero se usaron múltiples mecanismos de filtrado para evitar incluir instancias problemáticas. Se sigue monitoreando para abordar cualquier preocupación ética que pueda surgir.
Procesamiento y Filtrado de Datos
Los datos pasaron por un extenso preprocesamiento para garantizar calidad. Esto incluyó la eliminación de contenido irrelevante, la deduplicación de documentos y la aplicación de retroalimentación humana para refinar el conjunto de datos.
Control de Calidad
Aunque se recopilaron datos en bruto, también fueron limpiados y curados para mejorar su calidad. Hay planes para hacer que este software de preprocesamiento esté disponible para los usuarios, permitiendo transparencia respecto a cómo se manejaron los datos.
Usos del Conjunto de Datos
El conjunto de datos OmniCorpus se ha utilizado para entrenar modelos que abordan tareas como generar subtítulos para imágenes y responder preguntas basadas en entradas visuales. La naturaleza diversa del conjunto de datos permite múltiples aplicaciones en el campo del aprendizaje automático multimodal.
Aplicaciones Futuras
Temas donde el conjunto de datos OmniCorpus podría ser útil incluyen diversas tareas que requieren la integración de imágenes y texto. Esto abarca áreas como la respuesta a preguntas visuales, traducciones de imagen a texto y otras colaboraciones de visión y lenguaje.
Peligros del Uso Incorrecto
Los usuarios deben ser cautelosos al aplicar el conjunto de datos, ya que podría incluir sesgos presentes en las fuentes originales. Se necesita una curación cuidadosa para prevenir la perpetuación de estereotipos dañinos o supuestos incorrectos.
Distribución del Conjunto de Datos
El conjunto de datos OmniCorpus se compartirá públicamente y será accesible a través de plataformas como GitHub. Se publicará bajo una licencia de código abierto, permitiendo a investigadores y desarrolladores utilizar los datos mientras cumplan con los términos asociados.
Información de Licencia
El conjunto de datos está disponible bajo una licencia que permite compartir y reutilizar, siempre que la fuente sea adecuadamente reconocida. Los usuarios son responsables de cumplir con las licencias originales del contenido incluido.
Mantenimiento Continuo
Aunque no se planean actualizaciones para el conjunto de datos, los usuarios tienen la opción de solicitar la eliminación de muestras específicas. El enfoque seguirá siendo proporcionar la versión más actualizada del conjunto de datos.
Soporte y Contacto
La información sobre quién mantendrá el conjunto de datos y cómo los usuarios pueden contactarse para consultas se compartirá más adelante debido a ciertas restricciones.
Conclusión
El conjunto de datos OmniCorpus sirve como un avance significativo en el campo de la investigación multimodal, proporcionando un vasto recurso para entender la relación entre imágenes y texto. Con un énfasis en consideraciones éticas y control de calidad, busca apoyar diversas aplicaciones mientras se mantiene consciente de posibles sesgos y desafíos.
Título: OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
Resumen: Image-text interleaved data, consisting of multiple images and texts arranged in a natural document format, aligns with the presentation paradigm of internet data and closely resembles human reading habits. Recent studies have shown that such data aids multimodal in-context learning and maintains the capabilities of large language models during multimodal fine-tuning. However, the limited scale and diversity of current image-text interleaved data restrict the development of multimodal large language models. In this paper, we introduce OmniCorpus, a 10 billion-scale image-text interleaved dataset. Using an efficient data engine, we filter and extract large-scale high-quality documents, which contain 8.6 billion images and 1,696 billion text tokens. Compared to counterparts (e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while maintaining good data quality; 2) features more diverse sources, including both English and non-English websites as well as video-centric websites; 3) is more flexible, easily degradable from an image-text interleaved format to pure text corpus and image-text pairs. Through comprehensive analysis and experiments, we validate the quality, usability, and effectiveness of the proposed dataset. We hope this could provide a solid data foundation for future multimodal model research. Code and data are released at https://github.com/OpenGVLab/OmniCorpus.
Autores: Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai
Última actualización: 2024-07-12 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2406.08418
Fuente PDF: https://arxiv.org/pdf/2406.08418
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.