Mejorando la Extracción de Atributos y Valores en E-commerce

Tabla de contenidos

El Desafío
Nuestra Solución
Rendimiento del Modelo
Integración en Aplicaciones del Mundo Real
Importancia de los Atributos y Valores
Metodología para la Extracción de Atributos y Valores
Comparación con Modelos Existentes
Resultados
Conclusión
Fuente original
Enlaces de referencia

El comercio electrónico ha crecido rapidísimo, lo que ha llevado a tener un montón de productos disponibles en línea. Cada producto suele tener varias características, conocidas como atributos, y cada atributo tiene valores específicos. Por ejemplo, un smartphone puede tener atributos como Marca, Color y Nombre del Modelo con valores como Samsung, Phantom Gray y Galaxy S21. Estos atributos y valores ayudan a los clientes a encontrar los productos que quieren.

Sin embargo, los listados de productos de los vendedores a menudo tienen información incompleta, lo que se puede mejorar usando detalles del título del producto. La tarea de identificar automáticamente estos pares atributo-valor es importante en el comercio electrónico, pero puede ser complicada por la variedad de categorías de productos y la cantidad limitada de datos de entrenamiento etiquetados disponibles.

El Desafío

Extraer pares atributo-valor de los nombres de productos no es fácil. Los vendedores a veces proporcionan detalles que son incompletos o inconsistentes, lo que hace que los sistemas automatizados no funcionen bien. Además, hay muchos atributos para varios productos, a menudo en miles, lo que complica la tarea aún más.

Además, algunos términos pueden superponerse o usarse de manera intercambiable, como Modelo No. y Número de Modelo. Estas inconsistencias representan un desafío para cualquier sistema diseñado para clasificar o extraer esta información.

Además, estos sistemas de extracción a menudo necesitan trabajar En tiempo real, especialmente en entornos de alto tráfico, lo que añade otra capa de dificultad.

Nuestra Solución

Para abordar estos problemas, desarrollamos un modelo de dos etapas que extrae pares atributo-valor de los títulos de los productos. El modelo está diseñado para aprender de datos parcialmente etiquetados, lo que significa que puede trabajar con pares atributo-valor incompletos, reduciendo la necesidad de conjuntos de datos totalmente anotados.

Etapa Uno: Extracción de Atributos

La primera etapa del modelo utiliza un modelo generativo para predecir los posibles atributos presentes en el título del producto. En otras palabras, toma un nombre de producto y genera una lista de posibles atributos asociados con ese nombre.

Etapa Dos: Extracción de Valores

Una vez que se identifican los atributos, entra en acción la segunda etapa. Esta etapa utiliza un modelo de clasificación para determinar los valores correspondientes a cada atributo identificado.

Al usar estas dos etapas, el modelo puede manejar de manera efectiva las complejidades involucradas con varios atributos mientras también se entrena con datos parcialmente etiquetados.

Rendimiento del Modelo

Nuestro modelo muestra una mejora significativa sobre los sistemas existentes. Aumenta el número de pares atributo-valor correctamente identificados en un 56.3% en comparación con enfoques anteriores. Además, introdujimos un método llamado "bootstrapping," que ayuda a refinar y expandir el conjunto de datos de entrenamiento progresivamente.

Integración en Aplicaciones del Mundo Real

Integramos con éxito este modelo en la plataforma B2B de comercio electrónico más grande de India, logrando un aumento del 21.1% en la identificación precisa de pares atributo-valor sobre los sistemas existentes manteniendo un alto puntaje de precisión.

Importancia de los Atributos y Valores

En el contexto del comercio electrónico, los atributos y valores juegan un papel esencial al ayudar a los clientes a refinar sus búsquedas. Atributos comunes como Marca, Modelo y Color ayudan a los consumidores a tomar decisiones informadas rápidamente.

Por ejemplo, si un comprador está buscando un producto en particular, saber su Marca y Modelo puede reducir significativamente los resultados de búsqueda. Sin embargo, si la información de atributo-valor es escasa o incorrecta, puede llevar a confusión o frustración para los clientes.

Metodología para la Extracción de Atributos y Valores

El modelo emplea un enfoque de dos etapas:

Extracción de Atributos mediante Modelo Generativo: Este paso identifica todos los atributos relevantes asociados con un nombre de producto.
Extracción de Valores mediante Modelo de Clasificación: Este paso clasifica cada palabra en el título del producto para determinar si representa un valor para los atributos identificados.

Entrenamiento con Datos Parcialmente Etiquetados

Un aspecto único de nuestro método es su capacidad para aprender de manera efectiva de datos parcialmente etiquetados. Al incorporar marcadores durante el proceso de entrenamiento, el modelo puede entender mejor qué palabras en el título del producto corresponden a valores para varios atributos.

Estos marcadores ayudan al modelo a concentrarse en las partes relevantes de la entrada, lo que le permite generar predicciones más precisas y útiles durante el proceso de extracción.

Poda de Valores

Además de las técnicas anteriores, hemos introducido un concepto llamado "Poda de Valores." Esto asegura que el modelo pueda generar salidas nulas para cualquier atributo incorrecto predicho por el sistema. Este método mejora la precisión general de la extracción de pares atributo-valor al filtrar predicciones irrelevantes, llevando a una salida más limpia.

Comparación con Modelos Existentes

Al comparar nuestro sistema con modelos existentes, se muestra un rendimiento superior tanto en evaluaciones automatizadas como manuales. La precisión-qué tan a menudo son correctas las predicciones del modelo-y el recall-cuántas predicciones correctas hace el modelo-son a menudo más altas para nuestro modelo.

Usando diferentes variaciones de nuestro modelo, evaluamos cómo varios componentes como marcadores y poda de valores afectan el rendimiento general. Los resultados indicaron que ambos son cruciales para mejorar la capacidad del modelo para extraer atributos y valores con precisión.

Configuración Experimental

Para verificar la efectividad de nuestro modelo, realizamos experimentos usando datos del mundo real. Sacamos listados de productos de una plataforma B2B de comercio electrónico popular, asegurando que tuviéramos un conjunto diverso de atributos y productos para una prueba exhaustiva.

Al usar un conjunto de datos con miles de pares único atributo-valor, pudimos entrenar el modelo de manera efectiva y evaluar su rendimiento en un número sustancial de ejemplos.

Resultados

Los resultados de nuestros experimentos revelan que el modelo de dos etapas supera consistentemente a los sistemas existentes, particularmente en tareas que involucran datos incompletos. El uso de marcadores y la poda de valores mejora significativamente el equilibrio entre precisión y recall.

Manejo de Nombres de Productos Largos

Para evaluar aún más el rendimiento del modelo, examinamos cuán bien maneja los nombres de productos largos, ya que son comunes en el comercio electrónico. Nuestro modelo mantuvo una alta precisión incluso con nombres de productos que contienen muchas palabras, lo que demuestra su robustez y adaptabilidad.

Conclusión

En conclusión, nuestro modelo de dos etapas aborda efectivamente los desafíos de extraer pares atributo-valor de los títulos de productos en el comercio electrónico. Al integrar técnicas innovadoras como entrenamiento con datos parcialmente etiquetados, incrustaciones de marcadores y poda de valores, nuestro enfoque ofrece una mejora sustancial sobre los métodos tradicionales.

El éxito de nuestro modelo cuando se aplica a una gran plataforma en línea destaca su valor práctico y su potencial para una aplicación más amplia en el sector del comercio electrónico.

Visualizamos que futuras expansiones podrían involucrar más iteraciones de bootstrapping para seguir mejorando la calidad de los datos. A medida que el panorama del comercio electrónico evoluciona, la necesidad de una extracción precisa y en tiempo real de atributos seguirá siendo crítica, y nuestro modelo está bien posicionado para satisfacer estas necesidades.

Mejorando la Extracción de Atributos y Valores en E-commerce

Un nuevo modelo mejora la identificación de atributos y valores de productos en listados en línea.

El Desafío

Nuestra Solución

Etapa Uno: Extracción de Atributos

Etapa Dos: Extracción de Valores

Rendimiento del Modelo

Integración en Aplicaciones del Mundo Real

Importancia de los Atributos y Valores

Metodología para la Extracción de Atributos y Valores

Entrenamiento con Datos Parcialmente Etiquetados

Poda de Valores

Comparación con Modelos Existentes

Configuración Experimental

Resultados

Manejo de Nombres de Productos Largos

Conclusión

Enlaces de referencia

Temas referenciados

Mejorando la Extracción de Atributos y Valores en E-commerce

Un nuevo modelo mejora la identificación de atributos y valores de productos en listados en línea.

#El Desafío

#Nuestra Solución

#Etapa Uno: Extracción de Atributos

#Etapa Dos: Extracción de Valores

#Rendimiento del Modelo

#Integración en Aplicaciones del Mundo Real

#Importancia de los Atributos y Valores

#Metodología para la Extracción de Atributos y Valores

#Entrenamiento con Datos Parcialmente Etiquetados

#Poda de Valores

#Comparación con Modelos Existentes

#Configuración Experimental

#Resultados

#Manejo de Nombres de Productos Largos

#Conclusión

Enlaces de referencia

Temas referenciados

El Desafío

Nuestra Solución

Etapa Uno: Extracción de Atributos

Etapa Dos: Extracción de Valores

Rendimiento del Modelo

Integración en Aplicaciones del Mundo Real

Importancia de los Atributos y Valores

Metodología para la Extracción de Atributos y Valores

Entrenamiento con Datos Parcialmente Etiquetados

Poda de Valores

Comparación con Modelos Existentes

Configuración Experimental

Resultados

Manejo de Nombres de Productos Largos

Conclusión