Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Aprendizaje automático

Sistema MXT: Mejorando los Datos de Productos en el E-Commerce

Un sistema que mejora la precisión de la información de productos en sitios web de comercio electrónico.

― 6 minilectura


Revolucionando laRevolucionando laprecisión de los datos deproductosatributos en compras en línea.Simplificando la extracción de
Tabla de contenidos

Los sitios web de comercio electrónico tienen una variedad enorme de productos, con un montón de información adjunta a cada artículo. Esta información puede ser en forma de descripciones de texto e imágenes. Sin embargo, los vendedores a veces se olvida de llenar detalles importantes sobre sus productos o pueden proporcionar información incorrecta. Esto puede dificultar que los clientes encuentren lo que buscan.

Para abordar este problema, desarrollamos un sistema que puede identificar y completar automáticamente los detalles que faltan sobre los productos. Nuestro enfoque combina tanto la descripción de texto como las imágenes de los productos para entender mejor qué atributos (como color y tamaño) se ofrecen. Así, los clientes obtienen una imagen más completa de los productos que les interesan.

El Desafío de la Extracción de Atributos

Cuando los productos se listan en línea, a menudo vienen con una mezcla de información estructurada y no estructurada. La información estructurada incluye atributos claros como color, tamaño y material, mientras que la información no estructurada puede ser texto descriptivo e imágenes que tal vez no mencionen directamente esos atributos. Desafortunadamente, los vendedores no siempre proporcionan información completa o correcta.

Esta situación presenta un desafío. Necesitamos extraer estos atributos que faltan del texto e imágenes proporcionados. Por ejemplo, si un vestido se lista sin mencionar su tipo de manga, nuestro sistema debería aún ser capaz de identificar si el vestido tiene mangas largas o cortas basándose en su imagen.

Nuestra Solución: El Sistema MXT

Nuestra solución es un sistema llamado MXT, que significa un marco de extracción de atributos multimodal. Este sistema aprovecha tres métodos importantes para lograr resultados precisos:

  1. Fusión de Texto e Imagen: Creamos una comprensión combinada al fusionar ideas tanto del texto como de las imágenes. Esto ayuda al modelo a hacer mejores juicios sobre los atributos.

  2. Adaptación a Tipos de Producto: Nuestro modelo puede ajustarse para manejar diferentes tipos de productos a la vez. En vez de crear un modelo separado para cada tipo de producto, tenemos un modelo que aprende de múltiples productos.

  3. Modelo Generativo: El sistema genera respuestas en tiempo real. Cuando ve un producto, hace preguntas como, “¿De qué color es esto?” y luego usa tanto el texto como las imágenes para dar con la respuesta.

Componentes Clave del Sistema MXT

Nuestro sistema MXT consta de tres componentes vitales:

1. Puerta de Adaptación Multimodal (MAG)

MAG juega un papel crucial en la fusión de la información del texto y las imágenes. Los datos de texto e imagen se procesan juntos, asegurando que la representación final del producto incluya los detalles más relevantes de cada fuente.

2. Red Xception

Esta red es un potente codificador de imágenes que ayuda a crear representaciones visuales del producto. Se enfoca en distinguir características importantes en una imagen, lo cual es esencial para identificar atributos como tipo de manga o escote.

3. Codificador-Descodificador T5

Este es un modelo de texto sofisticado que genera respuestas. Toma la información combinada del texto y la imagen y produce valores de atributos basados en las preguntas planteadas.

Rendimiento y Pruebas

Probamos nuestro sistema MXT en datos reales de productos de plataformas de comercio electrónico populares. Los resultados fueron impresionantes. Nuestro modelo superó significativamente a los modelos tradicionales diseñados para la extracción de atributos, mostrando una mejor capacidad para recordar detalles sobre los productos con precisión.

Llevamos a cabo experimentos extensos en dos conjuntos de datos del mundo real para validar nuestros hallazgos. Comparamos el rendimiento de nuestro modelo contra métodos de vanguardia y encontramos que nuestro enfoque consistentemente entregó mejores resultados.

Aplicaciones en el Mundo Real

El sistema MXT ha sido desplegado con éxito en una tienda de comercio electrónico importante, donde ha procesado información para miles de tipos de productos y atributos. Ha extraído millones de valores de atributos, mejorando la calidad de las listas de productos y mejorando la experiencia de compra para los clientes.

Escalabilidad y Pragmática

Una de las principales fortalezas del sistema MXT es su capacidad para escalar. Dado que puede procesar múltiples tipos de productos simultáneamente, evita el lío de tener modelos separados para cada tipo. Esto facilita la gestión y reduce costos.

También utilizamos supervisión a distancia en el entrenamiento de nuestros modelos. Esto significa que no dependimos en gran medida del trabajo humano para etiquetar datos, lo cual suele ser una tarea que consume tiempo y es costosa.

Manejo de Información Faltante

Una característica clave de nuestro sistema es su capacidad para predecir atributos que no estaban presentes en los datos de entrenamiento. En modelos tradicionales, si un atributo específico no estaba incluido en el conjunto de entrenamiento, el modelo no podría reconocerlo. Sin embargo, nuestro modelo puede hacer predicciones incluso para nuevos atributos o valores no vistos, lo cual es una ventaja significativa.

Además, puede extraer valores que no se mencionan explícitamente en el texto, pero que se pueden inferir de imágenes o contexto. Por ejemplo, si la descripción de una camisa no menciona su color, pero la imagen claramente muestra que es roja, nuestro modelo aún así lo identificará.

Direcciones Futuras

Aunque hemos logrado un éxito sustancial con nuestro sistema MXT, hay varias áreas donde buscamos hacer más mejoras.

  1. Expansión del Idioma: Actualmente, nuestras pruebas se han limitado a conjuntos de datos en inglés. Queremos expandir nuestro modelo para manejar múltiples idiomas, haciéndolo accesible para plataformas de comercio electrónico globales.

  2. Mejorando el Tokenizador: El tokenizador T5 actualmente no captura términos específicos de comercio electrónico con precisión. Al pre-entrenarlo en datos solo de comercio electrónico, podemos mejorar su comprensión del lenguaje específico de la industria.

  3. Combinando Enfoques: Estamos interesados en mezclar nuestro modelo generativo con métodos de extracción existentes. Estos modelos tradicionales funcionan bien para atributos con detalles numéricos específicos, como medidas. Al fusionar lo mejor de ambos mundos, podemos aumentar la precisión general.

  4. Técnicas Basadas en Grafos: Los productos a menudo comparten características comunes. Al usar métodos basados en grafos, podemos capturar mejor las relaciones entre diferentes productos, lo que podría llevar a una mejor inferencia de atributos.

Conclusión

En resumen, el sistema MXT se destaca como una solución efectiva para extraer atributos de productos de listas en línea. Al integrar de manera inteligente la información textual y visual, llena con éxito los vacíos que a menudo ocurren en las descripciones de productos. Su capacidad para adaptarse a varios tipos de productos y predecir atributos no vistos marca un avance significativo en el campo.

A medida que continuamos perfeccionando el sistema MXT, seguimos optimistas sobre su potencial para transformar el panorama del comercio electrónico, haciendo que la experiencia de compra sea más fluida y satisfactoria para todos los clientes.

Fuente original

Título: Large Scale Generative Multimodal Attribute Extraction for E-commerce Attributes

Resumen: E-commerce websites (e.g. Amazon) have a plethora of structured and unstructured information (text and images) present on the product pages. Sellers often either don't label or mislabel values of the attributes (e.g. color, size etc.) for their products. Automatically identifying these attribute values from an eCommerce product page that contains both text and images is a challenging task, especially when the attribute value is not explicitly mentioned in the catalog. In this paper, we present a scalable solution for this problem where we pose attribute extraction problem as a question-answering task, which we solve using \textbf{MXT}, consisting of three key components: (i) \textbf{M}AG (Multimodal Adaptation Gate), (ii) \textbf{X}ception network, and (iii) \textbf{T}5 encoder-decoder. Our system consists of a generative model that \emph{generates} attribute-values for a given product by using both textual and visual characteristics (e.g. images) of the product. We show that our system is capable of handling zero-shot attribute prediction (when attribute value is not seen in training data) and value-absent prediction (when attribute value is not mentioned in the text) which are missing in traditional classification-based and NER-based models respectively. We have trained our models using distant supervision, removing dependency on human labeling, thus making them practical for real-world applications. With this framework, we are able to train a single model for 1000s of (product-type, attribute) pairs, thus reducing the overhead of training and maintaining separate models. Extensive experiments on two real world datasets show that our framework improves the absolute recall@90P by 10.16\% and 6.9\% from the existing state of the art models. In a popular e-commerce store, we have deployed our models for 1000s of (product-type, attribute) pairs.

Autores: Anant Khandelwal, Happy Mittal, Shreyas Sunil Kulkarni, Deepak Gupta

Última actualización: 2023-06-01 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.00379

Fuente PDF: https://arxiv.org/pdf/2306.00379

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares