Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial# Recuperación de información# Aprendizaje automático

Mejorando la Extracción de Atributos y Valores en E-commerce

Un nuevo modelo mejora la identificación de atributos y valores de productos en listados en línea.

― 7 minilectura


Impulso en la ExtracciónImpulso en la Extracciónde Datos de E-commerceproductos.la extracción de atributos deEl nuevo modelo mejora la precisión en
Tabla de contenidos

El comercio electrónico ha crecido rapidísimo, lo que ha llevado a tener un montón de productos disponibles en línea. Cada producto suele tener varias características, conocidas como atributos, y cada atributo tiene valores específicos. Por ejemplo, un smartphone puede tener atributos como Marca, Color y Nombre del Modelo con valores como Samsung, Phantom Gray y Galaxy S21. Estos atributos y valores ayudan a los clientes a encontrar los productos que quieren.

Sin embargo, los listados de productos de los vendedores a menudo tienen información incompleta, lo que se puede mejorar usando detalles del título del producto. La tarea de identificar automáticamente estos pares atributo-valor es importante en el comercio electrónico, pero puede ser complicada por la variedad de categorías de productos y la cantidad limitada de datos de entrenamiento etiquetados disponibles.

El Desafío

Extraer pares atributo-valor de los nombres de productos no es fácil. Los vendedores a veces proporcionan detalles que son incompletos o inconsistentes, lo que hace que los sistemas automatizados no funcionen bien. Además, hay muchos atributos para varios productos, a menudo en miles, lo que complica la tarea aún más.

Además, algunos términos pueden superponerse o usarse de manera intercambiable, como Modelo No. y Número de Modelo. Estas inconsistencias representan un desafío para cualquier sistema diseñado para clasificar o extraer esta información.

Además, estos sistemas de extracción a menudo necesitan trabajar En tiempo real, especialmente en entornos de alto tráfico, lo que añade otra capa de dificultad.

Nuestra Solución

Para abordar estos problemas, desarrollamos un modelo de dos etapas que extrae pares atributo-valor de los títulos de los productos. El modelo está diseñado para aprender de datos parcialmente etiquetados, lo que significa que puede trabajar con pares atributo-valor incompletos, reduciendo la necesidad de conjuntos de datos totalmente anotados.

Etapa Uno: Extracción de Atributos

La primera etapa del modelo utiliza un modelo generativo para predecir los posibles atributos presentes en el título del producto. En otras palabras, toma un nombre de producto y genera una lista de posibles atributos asociados con ese nombre.

Etapa Dos: Extracción de Valores

Una vez que se identifican los atributos, entra en acción la segunda etapa. Esta etapa utiliza un modelo de clasificación para determinar los valores correspondientes a cada atributo identificado.

Al usar estas dos etapas, el modelo puede manejar de manera efectiva las complejidades involucradas con varios atributos mientras también se entrena con datos parcialmente etiquetados.

Rendimiento del Modelo

Nuestro modelo muestra una mejora significativa sobre los sistemas existentes. Aumenta el número de pares atributo-valor correctamente identificados en un 56.3% en comparación con enfoques anteriores. Además, introdujimos un método llamado "bootstrapping," que ayuda a refinar y expandir el conjunto de datos de entrenamiento progresivamente.

Integración en Aplicaciones del Mundo Real

Integramos con éxito este modelo en la plataforma B2B de comercio electrónico más grande de India, logrando un aumento del 21.1% en la identificación precisa de pares atributo-valor sobre los sistemas existentes manteniendo un alto puntaje de precisión.

Importancia de los Atributos y Valores

En el contexto del comercio electrónico, los atributos y valores juegan un papel esencial al ayudar a los clientes a refinar sus búsquedas. Atributos comunes como Marca, Modelo y Color ayudan a los consumidores a tomar decisiones informadas rápidamente.

Por ejemplo, si un comprador está buscando un producto en particular, saber su Marca y Modelo puede reducir significativamente los resultados de búsqueda. Sin embargo, si la información de atributo-valor es escasa o incorrecta, puede llevar a confusión o frustración para los clientes.

Metodología para la Extracción de Atributos y Valores

El modelo emplea un enfoque de dos etapas:

  1. Extracción de Atributos mediante Modelo Generativo: Este paso identifica todos los atributos relevantes asociados con un nombre de producto.
  2. Extracción de Valores mediante Modelo de Clasificación: Este paso clasifica cada palabra en el título del producto para determinar si representa un valor para los atributos identificados.

Entrenamiento con Datos Parcialmente Etiquetados

Un aspecto único de nuestro método es su capacidad para aprender de manera efectiva de datos parcialmente etiquetados. Al incorporar marcadores durante el proceso de entrenamiento, el modelo puede entender mejor qué palabras en el título del producto corresponden a valores para varios atributos.

Estos marcadores ayudan al modelo a concentrarse en las partes relevantes de la entrada, lo que le permite generar predicciones más precisas y útiles durante el proceso de extracción.

Poda de Valores

Además de las técnicas anteriores, hemos introducido un concepto llamado "Poda de Valores." Esto asegura que el modelo pueda generar salidas nulas para cualquier atributo incorrecto predicho por el sistema. Este método mejora la precisión general de la extracción de pares atributo-valor al filtrar predicciones irrelevantes, llevando a una salida más limpia.

Comparación con Modelos Existentes

Al comparar nuestro sistema con modelos existentes, se muestra un rendimiento superior tanto en evaluaciones automatizadas como manuales. La precisión-qué tan a menudo son correctas las predicciones del modelo-y el recall-cuántas predicciones correctas hace el modelo-son a menudo más altas para nuestro modelo.

Usando diferentes variaciones de nuestro modelo, evaluamos cómo varios componentes como marcadores y poda de valores afectan el rendimiento general. Los resultados indicaron que ambos son cruciales para mejorar la capacidad del modelo para extraer atributos y valores con precisión.

Configuración Experimental

Para verificar la efectividad de nuestro modelo, realizamos experimentos usando datos del mundo real. Sacamos listados de productos de una plataforma B2B de comercio electrónico popular, asegurando que tuviéramos un conjunto diverso de atributos y productos para una prueba exhaustiva.

Al usar un conjunto de datos con miles de pares único atributo-valor, pudimos entrenar el modelo de manera efectiva y evaluar su rendimiento en un número sustancial de ejemplos.

Resultados

Los resultados de nuestros experimentos revelan que el modelo de dos etapas supera consistentemente a los sistemas existentes, particularmente en tareas que involucran datos incompletos. El uso de marcadores y la poda de valores mejora significativamente el equilibrio entre precisión y recall.

Manejo de Nombres de Productos Largos

Para evaluar aún más el rendimiento del modelo, examinamos cuán bien maneja los nombres de productos largos, ya que son comunes en el comercio electrónico. Nuestro modelo mantuvo una alta precisión incluso con nombres de productos que contienen muchas palabras, lo que demuestra su robustez y adaptabilidad.

Conclusión

En conclusión, nuestro modelo de dos etapas aborda efectivamente los desafíos de extraer pares atributo-valor de los títulos de productos en el comercio electrónico. Al integrar técnicas innovadoras como entrenamiento con datos parcialmente etiquetados, incrustaciones de marcadores y poda de valores, nuestro enfoque ofrece una mejora sustancial sobre los métodos tradicionales.

El éxito de nuestro modelo cuando se aplica a una gran plataforma en línea destaca su valor práctico y su potencial para una aplicación más amplia en el sector del comercio electrónico.

Visualizamos que futuras expansiones podrían involucrar más iteraciones de bootstrapping para seguir mejorando la calidad de los datos. A medida que el panorama del comercio electrónico evoluciona, la necesidad de una extracción precisa y en tiempo real de atributos seguirá siendo crítica, y nuestro modelo está bien posicionado para satisfacer estas necesidades.

Fuente original

Título: A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification

Resumen: In the e-commerce domain, the accurate extraction of attribute-value pairs (e.g., Brand: Apple) from product titles and user search queries is crucial for enhancing search and recommendation systems. A major challenge with neural models for this task is the lack of high-quality training data, as the annotations for attribute-value pairs in the available datasets are often incomplete. To address this, we introduce GenToC, a model designed for training directly with partially-labeled data, eliminating the necessity for a fully annotated dataset. GenToC employs a marker-augmented generative model to identify potential attributes, followed by a token classification model that determines the associated values for each attribute. GenToC outperforms existing state-of-the-art models, exhibiting upto 56.3% increase in the number of accurate extractions. Furthermore, we utilize GenToC to regenerate the training dataset to expand attribute-value annotations. This bootstrapping substantially improves the data quality for training other standard NER models, which are typically faster but less capable in handling partially-labeled data, enabling them to achieve comparable performance to GenToC. Our results demonstrate GenToC's unique ability to learn from a limited set of partially-labeled data and improve the training of more efficient models, advancing the automated extraction of attribute-value pairs. Finally, our model has been successfully integrated into IndiaMART, India's largest B2B e-commerce platform, achieving a significant increase of 20.2% in the number of correctly identified attribute-value pairs over the existing deployed system while achieving a high precision of 89.5%.

Autores: D. Subhalingam, Keshav Kolluru, Mausam, Saurabh Singal

Última actualización: 2024-11-18 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2405.10918

Fuente PDF: https://arxiv.org/pdf/2405.10918

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares