Sci Simple

New Science Research Articles Everyday

# Informática # Visión por Computador y Reconocimiento de Patrones

Revolucionando las compras en línea con búsqueda visual

Nueva tecnología hace más fácil encontrar productos exactos en línea.

Xinliang Zhu, Michael Huang, Han Ding, Jinyu Yang, Kelvin Chen, Tao Zhou, Tal Neiman, Ouye Xie, Son Tran, Benjamin Yao, Doug Gray, Anuj Bindal, Arnab Dhua

― 7 minilectura


Soluciones de Compras Soluciones de Compras Inteligentes productos en línea. Transformando cómo encontramos
Tabla de contenidos

En el mundo de las compras en línea, encontrar el producto exacto que quieres a veces puede parecer como buscar una aguja en un pajar. Imagina intentar encontrar un suéter verde en un montón de ropa donde todo está un poco fuera de lugar. Ahora, imagina hacer esto con millones de productos en muchos sitios web diferentes. Suena difícil, ¿verdad? Bueno, ahí es donde la tecnología inteligente entra para hacer la vida un poco más fácil.

El Desafío de la Búsqueda Visual

Cuando navegas por una tienda online, a menudo usas imágenes para guiar tus elecciones. Pero, ¿cuál es el rollo cuando tu búsqueda es una imagen de estilo de vida desordenada y el catálogo de productos está lleno de imágenes limpias y ordenadas? Esta situación crea un problema conocido como el desafío "de la calle a la tienda". ¿Por qué es un problema? Porque estas imágenes vienen de diferentes dominios y hacer que coincidan es más complicado de lo que piensas.

¿Cómo funciona? Normalmente, envías una foto y el motor de búsqueda intenta encontrar artículos que coincidan. La parte complicada es que la computadora puede enfocarse demasiado en algunos detalles irrelevantes, como un fondo elegante o elementos divertidos (pero inútiles) en la imagen, en lugar de centrarse en lo que realmente quieres. Así que, si buscas un secador de pelo, el sistema podría pensar que estás buscando un gato porque ve una cola peluda en el fondo. Es un poco incómodo, ¿no?

El Poder de la Tecnología Multimodal

Para abordar este problema, los investigadores han recurrido a algo llamado "Multimodalidad", que es solo una palabra elegante para usar múltiples tipos de datos, como imágenes y texto, juntos. Al mezclar estos dos, el proceso de búsqueda se vuelve mucho más fluido.

¿Cómo lo hacen? Primero, entrenan modelos usando pares de imágenes y sus descripciones. Esto permite que el sistema no solo reconozca características visuales, sino que también entienda lo que esas imágenes representan. Por ejemplo, una foto de un suéter acogedor emparejada con las palabras "suéter de lana suave" ayuda al modelo a aprender la conexión entre los dos.

Usando Más Datos y Entrenando Modelos

La clave para hacer que este sistema funcione mejor está en recopilar una gran cantidad de datos y entrenar modelos de manera efectiva. Los investigadores reunieron millones de pares de imágenes y textos de diversas fuentes, incluidas redes sociales, tiendas en línea y bases de datos. Con tanta información, pueden enseñar al sistema a reconocer mejor patrones y conceptos.

Al desarrollar dos modelos—llamémoslos el modelo de 3 torres y el de 4 torres—los investigadores pudieron mejorar la precisión de las predicciones. El modelo de 3 torres utiliza tres tipos de entrada: una imagen de consulta, una imagen del producto y una descripción de texto del producto. El modelo de 4 torres añade otra capa al incluir una consulta de texto corta, dando al sistema más información para trabajar.

Entrenando los Modelos

Entrenar estos modelos es toda una tarea. Implica alimentarles una enorme cantidad de datos para que aprendan a emparejar imágenes con los productos correctos. Piénsalo como un juego donde los modelos tienen que averiguar quién pertenece a qué grupo. El objetivo es colocar elementos similares cerca unos de otros mientras se separan los diferentes.

Durante la fase de entrenamiento, los modelos reconocen que algunos artículos pueden parecer similares pero tener funciones muy diferentes. Al aprender de sus errores pasados, los modelos se vuelven mejores en reconocer las características clave que realmente importan.

El Lado Divertido de Emparejar

Vamos a añadir un poco de humor aquí. Imagina que tu motor de búsqueda, en lugar de sacar los mejores productos, decide emparejarte con opciones al azar basándose en lo que cree que te podría gustar. Buscas un abrigo de invierno y te sugiere un cortador de pizza en su lugar. Podrías reírte, pero luego tu estómago gruñe, y tal vez te tientas a pedir una pizza en lugar de seguir buscando.

Búsqueda Multimodal

Pensando más allá, esta tecnología también permite algo llamado búsqueda multimodal. Esencialmente, significa que en lugar de solo mostrar imágenes que coincidan con tu consulta, el sistema puede usar tanto imágenes como texto para encontrar los mejores resultados. Así que cuando escribes "quiero un suéter cálido", no solo saca todos los suéteres. También podría mostrarte descripciones, colores y estilos que coincidan con tus preferencias.

Este sistema multimodal puede hacer maravillas. Los usuarios no solo reciben un conjunto de imágenes; obtienen una experiencia personalizada que se adapta a sus necesidades. Es como tener un comprador personal que sabe exactamente lo que quieres.

Datos de Entrenamiento

Para que la magia suceda, los investigadores necesitaban una enorme cantidad de datos de entrenamiento. Recopilaron 100 millones de imágenes de 23 millones de productos diferentes. ¡Eso suena a mucho, ¿verdad? ¡Y lo es! Cada imagen fue emparejada con títulos de productos, descripciones y otros detalles útiles.

Mientras creaban sus conjuntos de datos, se dieron cuenta de que podían encontrar una manera de filtrar el desorden y ayudar a los clientes a encontrar fácilmente lo que buscaban sin las frustraciones habituales que vienen con las compras en línea.

Protocolo de Evaluación

Después de construir estos modelos, el siguiente paso fue la evaluación. ¿Qué tan bien funcionan estos sistemas en el mundo real? Las evaluaciones se diseñaron para evaluar los modelos en función del rendimiento de recuperación. Esto significa que querían averiguar con qué frecuencia los modelos podían identificar correctamente los productos en función de las consultas de los usuarios.

La evaluación involucró ensamblar un conjunto de imágenes de consulta, que sirvieron como casos de prueba para los modelos. Al comparar la salida del modelo con los productos reales, los investigadores pudieron determinar la efectividad de sus modelos en un entorno del mundo real.

¿Qué Viene Después?

Mirando hacia el futuro, hay muchas posibilidades emocionantes para el desarrollo de estos modelos. La tecnología está en constante evolución y siempre hay espacio para mejorar.

Sin embargo, es importante reconocer que, aunque estos sistemas pueden acercarse bastante a entender lo que los usuarios quieren, no son perfectos. A veces, pueden priorizar obtener una coincidencia que sea "más o menos cercana" en lugar de una coincidencia exacta. Por ejemplo, si estás buscando un zapato específico, podrías terminar con un modelo similar en lugar del correcto.

Los investigadores están trabajando para refinar aún más estos sistemas. También están explorando cómo mejorar el rendimiento de la búsqueda multimodal para que entienda mejor atributos específicos de los productos, como tamaños y colores.

Conclusión

En conclusión, los desarrollos continuos en esta área de la tecnología significan un futuro brillante para las compras en línea. Con la introducción de sistemas multimodales, la búsqueda de productos puede ser más simple, rápida y precisa que nunca.

Solo imagina un mundo donde puedes ingresar directamente lo que quieres y ver los productos exactos que coinciden con tus preferencias sin el lío de desplazamientos interminables. Ese mundo se está acercando cada día más, gracias a estos esfuerzos de investigación innovadores. Y aunque aún podríamos encontrar algunos emparejamientos divertidos, la tecnología sigue mejorando, acercándonos un paso más a la experiencia de compra en línea que todos soñamos.

Así que, ¡prepárate! El futuro de las compras en línea se ve brillante y está lleno de posibilidades. Solo esperemos que no sugiera ese cortador de pizza la próxima vez que busques un abrigo de invierno.

Fuente original

Título: Bringing Multimodality to Amazon Visual Search System

Resumen: Image to image matching has been well studied in the computer vision community. Previous studies mainly focus on training a deep metric learning model matching visual patterns between the query image and gallery images. In this study, we show that pure image-to-image matching suffers from false positives caused by matching to local visual patterns. To alleviate this issue, we propose to leverage recent advances in vision-language pretraining research. Specifically, we introduce additional image-text alignment losses into deep metric learning, which serve as constraints to the image-to-image matching loss. With additional alignments between the text (e.g., product title) and image pairs, the model can learn concepts from both modalities explicitly, which avoids matching low-level visual features. We progressively develop two variants, a 3-tower and a 4-tower model, where the latter takes one more short text query input. Through extensive experiments, we show that this change leads to a substantial improvement to the image to image matching problem. We further leveraged this model for multimodal search, which takes both image and reformulation text queries to improve search quality. Both offline and online experiments show strong improvements on the main metrics. Specifically, we see 4.95% relative improvement on image matching click through rate with the 3-tower model and 1.13% further improvement from the 4-tower model.

Autores: Xinliang Zhu, Michael Huang, Han Ding, Jinyu Yang, Kelvin Chen, Tao Zhou, Tal Neiman, Ouye Xie, Son Tran, Benjamin Yao, Doug Gray, Anuj Bindal, Arnab Dhua

Última actualización: 2024-12-17 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2412.13364

Fuente PDF: https://arxiv.org/pdf/2412.13364

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares