Mejorando la Extracción de Atributos y Valores en E-commerce
Un nuevo modelo mejora la identificación de atributos y valores de productos en listados en línea.
― 7 minilectura
Tabla de contenidos
El comercio electrónico ha crecido rapidísimo, lo que ha llevado a tener un montón de productos disponibles en línea. Cada producto suele tener varias características, conocidas como atributos, y cada atributo tiene valores específicos. Por ejemplo, un smartphone puede tener atributos como Marca, Color y Nombre del Modelo con valores como Samsung, Phantom Gray y Galaxy S21. Estos atributos y valores ayudan a los clientes a encontrar los productos que quieren.
Sin embargo, los listados de productos de los vendedores a menudo tienen información incompleta, lo que se puede mejorar usando detalles del título del producto. La tarea de identificar automáticamente estos pares atributo-valor es importante en el comercio electrónico, pero puede ser complicada por la variedad de categorías de productos y la cantidad limitada de datos de entrenamiento etiquetados disponibles.
El Desafío
Extraer pares atributo-valor de los nombres de productos no es fácil. Los vendedores a veces proporcionan detalles que son incompletos o inconsistentes, lo que hace que los sistemas automatizados no funcionen bien. Además, hay muchos atributos para varios productos, a menudo en miles, lo que complica la tarea aún más.
Además, algunos términos pueden superponerse o usarse de manera intercambiable, como Modelo No. y Número de Modelo. Estas inconsistencias representan un desafío para cualquier sistema diseñado para clasificar o extraer esta información.
Además, estos sistemas de extracción a menudo necesitan trabajar En tiempo real, especialmente en entornos de alto tráfico, lo que añade otra capa de dificultad.
Nuestra Solución
Para abordar estos problemas, desarrollamos un modelo de dos etapas que extrae pares atributo-valor de los títulos de los productos. El modelo está diseñado para aprender de datos parcialmente etiquetados, lo que significa que puede trabajar con pares atributo-valor incompletos, reduciendo la necesidad de conjuntos de datos totalmente anotados.
Extracción de Atributos
Etapa Uno:La primera etapa del modelo utiliza un modelo generativo para predecir los posibles atributos presentes en el título del producto. En otras palabras, toma un nombre de producto y genera una lista de posibles atributos asociados con ese nombre.
Etapa Dos: Extracción de Valores
Una vez que se identifican los atributos, entra en acción la segunda etapa. Esta etapa utiliza un modelo de clasificación para determinar los valores correspondientes a cada atributo identificado.
Al usar estas dos etapas, el modelo puede manejar de manera efectiva las complejidades involucradas con varios atributos mientras también se entrena con datos parcialmente etiquetados.
Rendimiento del Modelo
Nuestro modelo muestra una mejora significativa sobre los sistemas existentes. Aumenta el número de pares atributo-valor correctamente identificados en un 56.3% en comparación con enfoques anteriores. Además, introdujimos un método llamado "bootstrapping," que ayuda a refinar y expandir el conjunto de datos de entrenamiento progresivamente.
Integración en Aplicaciones del Mundo Real
Integramos con éxito este modelo en la plataforma B2B de comercio electrónico más grande de India, logrando un aumento del 21.1% en la identificación precisa de pares atributo-valor sobre los sistemas existentes manteniendo un alto puntaje de precisión.
Importancia de los Atributos y Valores
En el contexto del comercio electrónico, los atributos y valores juegan un papel esencial al ayudar a los clientes a refinar sus búsquedas. Atributos comunes como Marca, Modelo y Color ayudan a los consumidores a tomar decisiones informadas rápidamente.
Por ejemplo, si un comprador está buscando un producto en particular, saber su Marca y Modelo puede reducir significativamente los resultados de búsqueda. Sin embargo, si la información de atributo-valor es escasa o incorrecta, puede llevar a confusión o frustración para los clientes.
Metodología para la Extracción de Atributos y Valores
El modelo emplea un enfoque de dos etapas:
- Extracción de Atributos mediante Modelo Generativo: Este paso identifica todos los atributos relevantes asociados con un nombre de producto.
- Extracción de Valores mediante Modelo de Clasificación: Este paso clasifica cada palabra en el título del producto para determinar si representa un valor para los atributos identificados.
Entrenamiento con Datos Parcialmente Etiquetados
Un aspecto único de nuestro método es su capacidad para aprender de manera efectiva de datos parcialmente etiquetados. Al incorporar marcadores durante el proceso de entrenamiento, el modelo puede entender mejor qué palabras en el título del producto corresponden a valores para varios atributos.
Estos marcadores ayudan al modelo a concentrarse en las partes relevantes de la entrada, lo que le permite generar predicciones más precisas y útiles durante el proceso de extracción.
Poda de Valores
Además de las técnicas anteriores, hemos introducido un concepto llamado "Poda de Valores." Esto asegura que el modelo pueda generar salidas nulas para cualquier atributo incorrecto predicho por el sistema. Este método mejora la precisión general de la extracción de pares atributo-valor al filtrar predicciones irrelevantes, llevando a una salida más limpia.
Comparación con Modelos Existentes
Al comparar nuestro sistema con modelos existentes, se muestra un rendimiento superior tanto en evaluaciones automatizadas como manuales. La precisión-qué tan a menudo son correctas las predicciones del modelo-y el recall-cuántas predicciones correctas hace el modelo-son a menudo más altas para nuestro modelo.
Usando diferentes variaciones de nuestro modelo, evaluamos cómo varios componentes como marcadores y poda de valores afectan el rendimiento general. Los resultados indicaron que ambos son cruciales para mejorar la capacidad del modelo para extraer atributos y valores con precisión.
Configuración Experimental
Para verificar la efectividad de nuestro modelo, realizamos experimentos usando datos del mundo real. Sacamos listados de productos de una plataforma B2B de comercio electrónico popular, asegurando que tuviéramos un conjunto diverso de atributos y productos para una prueba exhaustiva.
Al usar un conjunto de datos con miles de pares único atributo-valor, pudimos entrenar el modelo de manera efectiva y evaluar su rendimiento en un número sustancial de ejemplos.
Resultados
Los resultados de nuestros experimentos revelan que el modelo de dos etapas supera consistentemente a los sistemas existentes, particularmente en tareas que involucran datos incompletos. El uso de marcadores y la poda de valores mejora significativamente el equilibrio entre precisión y recall.
Manejo de Nombres de Productos Largos
Para evaluar aún más el rendimiento del modelo, examinamos cuán bien maneja los nombres de productos largos, ya que son comunes en el comercio electrónico. Nuestro modelo mantuvo una alta precisión incluso con nombres de productos que contienen muchas palabras, lo que demuestra su robustez y adaptabilidad.
Conclusión
En conclusión, nuestro modelo de dos etapas aborda efectivamente los desafíos de extraer pares atributo-valor de los títulos de productos en el comercio electrónico. Al integrar técnicas innovadoras como entrenamiento con datos parcialmente etiquetados, incrustaciones de marcadores y poda de valores, nuestro enfoque ofrece una mejora sustancial sobre los métodos tradicionales.
El éxito de nuestro modelo cuando se aplica a una gran plataforma en línea destaca su valor práctico y su potencial para una aplicación más amplia en el sector del comercio electrónico.
Visualizamos que futuras expansiones podrían involucrar más iteraciones de bootstrapping para seguir mejorando la calidad de los datos. A medida que el panorama del comercio electrónico evoluciona, la necesidad de una extracción precisa y en tiempo real de atributos seguirá siendo crítica, y nuestro modelo está bien posicionado para satisfacer estas necesidades.
Título: A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification
Resumen: In the e-commerce domain, the accurate extraction of attribute-value pairs (e.g., Brand: Apple) from product titles and user search queries is crucial for enhancing search and recommendation systems. A major challenge with neural models for this task is the lack of high-quality training data, as the annotations for attribute-value pairs in the available datasets are often incomplete. To address this, we introduce GenToC, a model designed for training directly with partially-labeled data, eliminating the necessity for a fully annotated dataset. GenToC employs a marker-augmented generative model to identify potential attributes, followed by a token classification model that determines the associated values for each attribute. GenToC outperforms existing state-of-the-art models, exhibiting upto 56.3% increase in the number of accurate extractions. Furthermore, we utilize GenToC to regenerate the training dataset to expand attribute-value annotations. This bootstrapping substantially improves the data quality for training other standard NER models, which are typically faster but less capable in handling partially-labeled data, enabling them to achieve comparable performance to GenToC. Our results demonstrate GenToC's unique ability to learn from a limited set of partially-labeled data and improve the training of more efficient models, advancing the automated extraction of attribute-value pairs. Finally, our model has been successfully integrated into IndiaMART, India's largest B2B e-commerce platform, achieving a significant increase of 20.2% in the number of correctly identified attribute-value pairs over the existing deployed system while achieving a high precision of 89.5%.
Autores: D. Subhalingam, Keshav Kolluru, Mausam, Saurabh Singal
Última actualización: 2024-11-18 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2405.10918
Fuente PDF: https://arxiv.org/pdf/2405.10918
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.