Revolucionando as compras online com busca visual
Nova tecnologia facilita a busca por produtos exatos online.
Xinliang Zhu, Michael Huang, Han Ding, Jinyu Yang, Kelvin Chen, Tao Zhou, Tal Neiman, Ouye Xie, Son Tran, Benjamin Yao, Doug Gray, Anuj Bindal, Arnab Dhua
― 7 min ler
Índice
No mundo das compras online, achar o produto exato que você quer pode parecer, às vezes, como procurar uma agulha em um palheiro. Imagina tentar achar um suéter verde num monte de roupas onde tudo tá meio esquisito. Agora, imagina fazer isso com milhões de produtos em vários sites diferentes. Difícil, né? É aí que a tecnologia inteligente entra pra facilitar a vida.
O Desafio da Busca Visual
Quando você navega por uma loja online, geralmente usa imagens pra te ajudar a escolher. Mas, qual é a doida quando sua busca é uma foto de estilo de vida toda bagunçada e o catálogo de produtos tá cheio de imagens bem organizadas? Essa situação cria um problema conhecido como o desafio "da rua pra loja". Por que isso é um problema? Porque essas imagens vêm de domínios diferentes, e combiná-las é mais complicado do que você pensa.
Como funciona? Normalmente, você manda uma foto, e o motor de busca tenta encontrar itens que combinam. O problema é que o computador pode focar demais em alguns detalhes irrelevantes—tipo um fundo chique ou itens divertidos (mas inúteis) na imagem—ao invés de se concentrar no que você realmente quer. Então, se você procura um secador de cabelo, o sistema pode achar que você tá procurando um gato porque vê uma cauda fofa no fundo. Meio awkward, né?
O Poder da Tecnologia Multimodal
Pra resolver esse problema, os pesquisadores apelaram pra algo chamado "Multimodalidade", que é só uma palavrinha chique pra usar vários tipos de dados—como imagens e texto—juntos. Misturando essas duas coisas, o processo de busca fica muito mais tranquilo.
Como eles fazem isso? Primeiro, eles treinam modelos usando pares de imagens e suas descrições. Isso permite que o sistema não só reconheça recursos visuais, mas também entenda o que aquelas imagens representam. Por exemplo, uma foto de um suéter aconchegante junto com as palavras "suéter de lã macia" ajuda o modelo a aprender a conexão entre os dois.
Usando Mais Dados e Treinando Modelos
O segredo pra fazer esse sistema funcionar melhor tá em coletar uma porção de dados e treinar modelos de forma eficaz. Os pesquisadores juntaram milhões de pares de imagem-texto de várias fontes, incluindo redes sociais, lojas online e bancos de dados. Com tanta informação, eles conseguem ensinar o sistema a reconhecer padrões e conceitos com mais precisão.
Desenvolvendo dois modelos—vamos chamar de modelo 3-tower e modelo 4-tower—os pesquisadores conseguiram melhorar a precisão nas previsões. O modelo 3-tower usa três tipos de entrada—uma imagem de consulta, uma imagem do produto e uma descrição do produto. O modelo 4-tower adiciona mais uma camada, incluindo uma consulta de texto curta, dando ao sistema mais informações pra trabalhar.
Treinando os Modelos
Treinar esses modelos é um baita trabalho. É tipo alimentar eles com uma quantidade absurda de dados pra que eles aprendam a combinar imagens com os produtos certos. Pense nisso como um jogo onde os modelos têm que descobrir quem pertence a qual grupo. O objetivo é colocar itens semelhantes perto um do outro enquanto afasta itens diferentes.
Durante a fase de treinamento, os modelos percebem que alguns itens podem parecer parecidos, mas têm funções bem diferentes. Aprendendo com os erros do passado, os modelos ficam melhores em reconhecer as características essenciais que realmente importam.
O Lado Engraçado da Correspondência
Vamos adicionar uma dose de humor aqui. Imagina se seu motor de busca, em vez de puxar os melhores produtos, decidisse te combinar com opções aleatórias baseado no que ele acha que você pode gostar. Você procura um casaco de inverno, e ele sugere um cortador de pizza em vez. Você até poderia rir, mas aí seu estômago ronca, e talvez você fique tentado a pedir uma pizza em vez de continuar a busca!
Busca Multimodal
Pensando mais um pouco, essa tecnologia também permite algo chamado busca multimodal. Basicamente, isso significa que, em vez de mostrar só imagens que combinam com sua consulta, o sistema pode usar tanto imagens quanto texto pra encontrar os melhores resultados. Então, quando você digita "quero um suéter quente", ele não puxa só todos os suéteres. Pode também mostrar descrições, cores e estilos que combinam com suas preferências.
Esse sistema multimodal pode fazer maravilhas. Os usuários não recebem só um conjunto de imagens; eles ganham uma experiência personalizada que atende às suas necessidades. É como ter um personal shopper que sabe exatamente o que você quer.
Dados de Treinamento
Pra fazer a mágica acontecer, os pesquisadores precisavam de uma quantidade imensa de dados de treinamento. Eles coletaram 100 milhões de imagens de 23 milhões de produtos diferentes. Isso parece muito, né? É! Cada imagem foi emparelhada com títulos de produtos, descrições e outros detalhes úteis.
Enquanto criavam seus conjuntos de dados, perceberam que podiam encontrar um jeito de filtrar a bagunça e ajudar os clientes a encontrarem facilmente o que estavam procurando, sem a frustração habitual das compras online.
Avaliação
Protocolo deDepois de construir esses modelos, o próximo passo foi a avaliação. Quão bem esses sistemas funcionam na vida real? As avaliações foram projetadas pra checar o desempenho dos modelos com base na recuperação. Isso significa que eles queriam descobrir com que frequência os modelos conseguiam identificar os produtos corretos com base nas consultas dos usuários.
A avaliação envolveu montar um conjunto de imagens de consulta, que serviram como casos de teste pros modelos. Comparando a saída do modelo com produtos reais, os pesquisadores puderam determinar quão eficazes eram seus modelos num contexto do mundo real.
E Agora?
Olhando pro futuro, há muitas possibilidades empolgantes pro desenvolvimento desses modelos. A tecnologia tá sempre evoluindo, e sempre há espaço pra melhorias.
Porém, é importante reconhecer que, enquanto esses sistemas podem chegar bem perto de entender o que os usuários querem, eles não são perfeitos. Às vezes, podem priorizar fazer uma combinação que é "meio parecida" ao invés de uma que seja uma combinação exata. Por exemplo, se você tá procurando um sapato específico, pode acabar com um modelo similar em vez do certo.
Os pesquisadores tão trabalhando pra refinar ainda mais esses sistemas. Eles também tão explorando como melhorar o desempenho da busca multimodal pra que entenda melhor características específicas dos produtos, como tamanhos e cores.
Conclusão
Pra concluir, os desenvolvimentos contínuos nessa área da tecnologia significam um futuro brilhante pras compras online. Com a introdução de sistemas multimodais, a busca por produtos pode ser mais simples, rápida e precisa do que nunca.
Imagina um mundo onde você pode digitar exatamente o que quer e ver os produtos exatos que combinam com suas preferências sem a chatice de rolar infinitamente. Esse mundo tá cada vez mais perto, graças a esses esforços de pesquisa inovadores. E embora a gente ainda possa encontrar algumas combinações engraçadas, a tecnologia continua melhorando, nos trazendo um passo mais perto da experiência de compra online que todos sonhamos.
Então, se prepara! O futuro das compras online parece brilhante e cheio de possibilidades. Só vamos torcer pra não sugerir aquele cortador de pizza da próxima vez que você estiver procurando um casaco de inverno!
Fonte original
Título: Bringing Multimodality to Amazon Visual Search System
Resumo: Image to image matching has been well studied in the computer vision community. Previous studies mainly focus on training a deep metric learning model matching visual patterns between the query image and gallery images. In this study, we show that pure image-to-image matching suffers from false positives caused by matching to local visual patterns. To alleviate this issue, we propose to leverage recent advances in vision-language pretraining research. Specifically, we introduce additional image-text alignment losses into deep metric learning, which serve as constraints to the image-to-image matching loss. With additional alignments between the text (e.g., product title) and image pairs, the model can learn concepts from both modalities explicitly, which avoids matching low-level visual features. We progressively develop two variants, a 3-tower and a 4-tower model, where the latter takes one more short text query input. Through extensive experiments, we show that this change leads to a substantial improvement to the image to image matching problem. We further leveraged this model for multimodal search, which takes both image and reformulation text queries to improve search quality. Both offline and online experiments show strong improvements on the main metrics. Specifically, we see 4.95% relative improvement on image matching click through rate with the 3-tower model and 1.13% further improvement from the 4-tower model.
Autores: Xinliang Zhu, Michael Huang, Han Ding, Jinyu Yang, Kelvin Chen, Tao Zhou, Tal Neiman, Ouye Xie, Son Tran, Benjamin Yao, Doug Gray, Anuj Bindal, Arnab Dhua
Última atualização: 2024-12-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2412.13364
Fonte PDF: https://arxiv.org/pdf/2412.13364
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.