Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Inteligencia artificial

Conjunto de datos OmniCorpus: Un nuevo recurso para el aprendizaje multimodal

Un conjunto de datos completo que combina imágenes y texto para ayudar al aprendizaje automático.

― 8 minilectura


Lanzamiento del DatasetLanzamiento del DatasetOmniCorpusavanzado de IA.imágenes y texto para un entrenamientoNuevo conjunto de datos combina
Tabla de contenidos

El conjunto de Datos OmniCorpus se creó para mejorar la forma en que trabajamos con datos que combinan Imágenes y texto. Tiene más de 10 mil millones de pares de imágenes y Textos, con el objetivo de ayudar a las máquinas a entender y aprender mejor de ambos tipos de información. A diferencia de Conjuntos de datos más antiguos que se centraban principalmente en el texto en inglés, este conjunto incluye muchos idiomas y tipos de contenido de diversas fuentes, proporcionando un recurso rico para entrenar modelos que analicen datos visuales y textuales.

Propósito del Conjunto de Datos

El principal propósito del conjunto de datos OmniCorpus es abordar los desafíos que se encontraron en conjuntos de datos anteriores que tenían un alcance y variedad limitados. Al incluir una amplia gama de datos de diferentes sitios web y plataformas, OmniCorpus ofrece una base más completa para entrenar modelos que puedan entender información mixta. Esta diversidad es importante para desarrollar modelos que puedan manejar tareas del mundo real donde las imágenes y el texto a menudo se juntan.

Creación y Financiamiento

No se dispone actualmente de información sobre quién creó el conjunto de datos OmniCorpus debido a restricciones. De igual manera, los detalles sobre las fuentes de financiamiento se proporcionarán más adelante.

Instancias y Tipos de Datos

El conjunto de datos consiste en muchas instancias, cada una representando una combinación de una imagen y su texto relacionado. Estas instancias provienen de diferentes fuentes, incluyendo una variedad de sitios web y videos. El conjunto de datos está estructurado de manera que permite diferentes arreglos de la información, como solo texto, solo imágenes o una mezcla de ambos.

Específicamente, hay 8.6 mil millones de imágenes, 1.7 billones de tokens de texto y 2.2 mil millones de documentos en el conjunto de datos, lo que lo hace significativamente más grande y variado en comparación con conjuntos de datos anteriores centrados en combinar imágenes y texto.

Muestreo y Representatividad

Los datos en OmniCorpus son una muestra extraída de colecciones extensas como Common Crawl, sitios web chinos y otros grandes conjuntos de datos. A pesar de que se han tomado medidas para asegurar que los datos sean de alta calidad y relevantes, no cubre todas las posibles instancias de estas colecciones más grandes. Por lo tanto, puede que no refleje completamente cada demografía o área geográfica.

Contenido de las Instancias

Cada instancia incluye enlaces a imágenes y texto acompañante. Los datos comprenden URL en bruto para imágenes, junto con descripciones de texto e información adicional como el tamaño de la imagen y el idioma utilizado. Esto permite flexibilidad dependiendo de qué tipo de análisis se necesite.

Etiquetas y Objetivos

OmniCorpus no proporciona etiquetas o objetivos específicos para cada instancia. Los investigadores pueden usar el conjunto de datos para diversas tareas como reconocer imágenes, generar subtítulos o responder preguntas sobre visuales, dependiendo de sus necesidades específicas.

Falta de Información y Relaciones

Si bien las instancias individuales contienen las imágenes y el texto, puede haber información faltante, como contexto o detalles de fondo que no estaban disponibles. Además, las relaciones entre instancias, como calificaciones de usuarios o interacciones sociales, no están explícitamente anotadas en el conjunto de datos.

Calidad de los Datos

El conjunto de datos se genera a través de un proceso automatizado, lo que significa que puede contener algunos errores o ruido. Sin embargo, se han tomado medidas para limpiar los datos y filtrar contenido irrelevante.

Enlaces a Recursos Externos

El conjunto de datos depende de enlaces a imágenes alojadas en línea. Aunque se recopiló con la intención de mantener la estabilidad, no hay garantía de que todos estos enlaces permanecerán disponibles en el futuro. Los usuarios deben tener cuidado de respetar cualquier restricción asociada con las fuentes originales al acceder a estos datos.

Confidencialidad y Sensibilidad

El conjunto de datos podría contener contenido o imágenes sensibles que algunos usuarios podrían encontrar angustiante. A pesar de los esfuerzos por minimizar dicho contenido, aún es posible encontrar material que podría considerarse ofensivo. Existe un subconjunto cuidadosamente curado para reducir las posibilidades de encontrar dicho contenido.

Consideraciones Éticas

Durante la creación del conjunto de datos OmniCorpus, se abordaron varias cuestiones éticas. Dada la gran escala de la recopilación de datos, no fue práctico obtener el consentimiento de todos los creadores de contenido. Sin embargo, se implementaron medidas para eliminar imágenes cuando se solicitó. También se llevaron a cabo esfuerzos para filtrar contenido dañino como parte del proceso para garantizar un estándar de calidad más alto.

Proceso de Recopilación de Datos

Los datos para OmniCorpus se recopilaron de fuentes observables, incluidos sitios web y plataformas en línea. Este proceso de recopilación fue automatizado, utilizando tecnología avanzada para capturar y compilar datos.

Adquisición de Datos y Procedimientos

Para recopilar los datos, se empleó un proceso sofisticado, utilizando una combinación de software y hardware. Esto implicó ejecutar programas en máquinas potentes para procesar grandes cantidades de datos de manera eficiente.

Cronología para la Recopilación de Datos

El conjunto de datos se compiló a lo largo de varios años, reflejando una amplia variedad de contenido de fuentes tanto recientes como antiguas. Este amplio esfuerzo de recopilación ayuda a asegurar que el conjunto de datos contenga una gama diversa de información, en lugar de solo reflejar datos contemporáneos.

Revisiones Éticas

No se realizó ninguna revisión ética formal durante la creación del conjunto de datos, pero se usaron múltiples mecanismos de filtrado para evitar incluir instancias problemáticas. Se sigue monitoreando para abordar cualquier preocupación ética que pueda surgir.

Procesamiento y Filtrado de Datos

Los datos pasaron por un extenso preprocesamiento para garantizar calidad. Esto incluyó la eliminación de contenido irrelevante, la deduplicación de documentos y la aplicación de retroalimentación humana para refinar el conjunto de datos.

Control de Calidad

Aunque se recopilaron datos en bruto, también fueron limpiados y curados para mejorar su calidad. Hay planes para hacer que este software de preprocesamiento esté disponible para los usuarios, permitiendo transparencia respecto a cómo se manejaron los datos.

Usos del Conjunto de Datos

El conjunto de datos OmniCorpus se ha utilizado para entrenar modelos que abordan tareas como generar subtítulos para imágenes y responder preguntas basadas en entradas visuales. La naturaleza diversa del conjunto de datos permite múltiples aplicaciones en el campo del aprendizaje automático multimodal.

Aplicaciones Futuras

Temas donde el conjunto de datos OmniCorpus podría ser útil incluyen diversas tareas que requieren la integración de imágenes y texto. Esto abarca áreas como la respuesta a preguntas visuales, traducciones de imagen a texto y otras colaboraciones de visión y lenguaje.

Peligros del Uso Incorrecto

Los usuarios deben ser cautelosos al aplicar el conjunto de datos, ya que podría incluir sesgos presentes en las fuentes originales. Se necesita una curación cuidadosa para prevenir la perpetuación de estereotipos dañinos o supuestos incorrectos.

Distribución del Conjunto de Datos

El conjunto de datos OmniCorpus se compartirá públicamente y será accesible a través de plataformas como GitHub. Se publicará bajo una licencia de código abierto, permitiendo a investigadores y desarrolladores utilizar los datos mientras cumplan con los términos asociados.

Información de Licencia

El conjunto de datos está disponible bajo una licencia que permite compartir y reutilizar, siempre que la fuente sea adecuadamente reconocida. Los usuarios son responsables de cumplir con las licencias originales del contenido incluido.

Mantenimiento Continuo

Aunque no se planean actualizaciones para el conjunto de datos, los usuarios tienen la opción de solicitar la eliminación de muestras específicas. El enfoque seguirá siendo proporcionar la versión más actualizada del conjunto de datos.

Soporte y Contacto

La información sobre quién mantendrá el conjunto de datos y cómo los usuarios pueden contactarse para consultas se compartirá más adelante debido a ciertas restricciones.

Conclusión

El conjunto de datos OmniCorpus sirve como un avance significativo en el campo de la investigación multimodal, proporcionando un vasto recurso para entender la relación entre imágenes y texto. Con un énfasis en consideraciones éticas y control de calidad, busca apoyar diversas aplicaciones mientras se mantiene consciente de posibles sesgos y desafíos.

Fuente original

Título: OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Resumen: Image-text interleaved data, consisting of multiple images and texts arranged in a natural document format, aligns with the presentation paradigm of internet data and closely resembles human reading habits. Recent studies have shown that such data aids multimodal in-context learning and maintains the capabilities of large language models during multimodal fine-tuning. However, the limited scale and diversity of current image-text interleaved data restrict the development of multimodal large language models. In this paper, we introduce OmniCorpus, a 10 billion-scale image-text interleaved dataset. Using an efficient data engine, we filter and extract large-scale high-quality documents, which contain 8.6 billion images and 1,696 billion text tokens. Compared to counterparts (e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while maintaining good data quality; 2) features more diverse sources, including both English and non-English websites as well as video-centric websites; 3) is more flexible, easily degradable from an image-text interleaved format to pure text corpus and image-text pairs. Through comprehensive analysis and experiments, we validate the quality, usability, and effectiveness of the proposed dataset. We hope this could provide a solid data foundation for future multimodal model research. Code and data are released at https://github.com/OpenGVLab/OmniCorpus.

Autores: Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai

Última actualización: 2024-07-12 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.08418

Fuente PDF: https://arxiv.org/pdf/2406.08418

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares