Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Enfrentando Desafios do E-Commerce com LLMs

Usando LLMs pra melhorar tarefas de e-commerce com ajuste de instruções e quantização.

Zhaopeng Feng, Zijie Meng, Zuozhu Liu

― 6 min ler


LLMs TransformamLLMs TransformamEstratégias de E-Commercemodelos de linguagem avançados.Melhorando as compras online com
Índice

Modelos de linguagem grandes (LLMs) têm chamado bastante atenção pela sua utilidade em várias áreas, especialmente em tarefas relacionadas ao e-commerce. O e-commerce envolve muitas interações entre produtos e usuários, tornando-se um ótimo espaço para aplicar LLMs. Mas usar LLMs gerais para e-commerce pode ser complicado por causa dos termos e conceitos únicos desse campo.

Pra ajudar com isso, criamos um guia chamado EC-Guide. Esse guia é feito especialmente pra ajustar instruções e quantizar LLMs pra tarefas de e-commerce. A gente também usou um método chamado Chain-of-Thought (CoT) durante o processo, que ajuda a melhorar o desempenho do modelo em resolver problemas de matemática. Nossa abordagem nos trouxe reconhecimento em competições focadas em desafios de compras online. Além disso, nosso método pode ser usado com diferentes modelos, permitindo que funcione bem com sistemas maiores.

O Desafio do E-Commerce

O e-commerce traz desafios complexos por causa da variedade de termos de compra, comportamentos de usuários e variações de produtos. Recentemente, os LLMs mostraram-se promissores em lidar com essas dificuldades. Pra apoiar isso, foi organizada uma competição chamada Amazon KDD Cup'24. Essa competição apresentou o ShopBench, um benchmark pra simular as complexidades das compras online com 57 tarefas e cerca de 20.000 perguntas baseadas em dados reais da Amazon.

A competição tinha várias trilhas, cada uma focando em diferentes aspectos das compras online:

  1. Compreensão de Conceitos de Compra: Essa trilha envolve entender termos e conceitos complicados de compras.
  2. Raciocínio sobre Conhecimento de Compra: Essa trilha é sobre tomar decisões informadas relacionadas ao conhecimento de compras.
  3. Alinhamento de Comportamento do Usuário: Essa trilha examina como entender mudanças nos comportamentos dos clientes.
  4. Habilidades Multilíngues: Essa trilha foca em lidar com múltiplas línguas durante as compras.
  5. Geral: Essa trilha espera uma única solução que cubra todas as perguntas.

Nossa equipe, chamada "ZJU-AI4H," se saiu bem nessa competição, garantindo o segundo lugar em uma trilha e o quinto em outra. Nossa solução envolveu três etapas principais: criar Conjuntos de dados, ajustar instruções e quantizar o modelo após o treinamento. Descobrimos que o raciocínio Chain-of-Thought podia melhorar bastante o desempenho dos nossos cálculos matemáticos.

Construção do Conjunto de Dados

Pra montar um bom conjunto de dados pra Ajuste de Instruções, criamos o EC-Guide, que contém 74.000 exemplos de diferentes tipos de tarefas. Esses tipos de tarefas incluem:

  • Geração: Aqui, cada pergunta vem com instruções específicas, e o modelo precisa gerar um texto que siga essas instruções. Tivemos várias subtarefas como Elaboração de Produto, Pergunta e Resposta de Produto, e mais.

  • Questões de Múltipla Escolha: Essa tarefa envolve escolher a resposta certa de uma lista de opções. Criamos várias subtarefas nessa categoria, como prever relações de produtos e análises de sentimento.

  • Recuperação: Nessa tarefa, o modelo precisa encontrar respostas de uma lista de itens disponíveis. Desenvolvemos subtarefas pra inferir compras potenciais e recuperar trechos de avaliações.

  • Ranking: O objetivo aqui é reclassificar itens com base em quão bem eles atendem às necessidades do usuário.

  • Reconhecimento de Entidades Nomeadas: Essa tarefa foca em identificar entidades nomeadas no texto, o que é crucial pra entender e categorizar informações no e-commerce.

Ajuste de Instruções

O ajuste de instruções ajuda a melhorar a capacidade do modelo de fornecer respostas precisas com base nas instruções que recebe. Ao treinar o modelo com um conjunto de dados cuidadosamente selecionado, nosso objetivo era ajudar ele a entender o que é necessário para várias tarefas de e-commerce. A meta era aumentar sua capacidade de gerar respostas relevantes.

Ao implantar modelos maiores, é importante usar métodos eficazes pra economizar memória e acelerar o processo. Um desses métodos é a Quantização, que permite converter parâmetros de alta precisão em formatos de menor precisão sem mudar a estrutura do modelo.

Quantização Pós-Treinamento

Modelos se tornam mais capazes à medida que crescem em tamanho, mas isso também significa que eles precisam de mais poder computacional durante o uso. Como modelos grandes costumam armazenar seus parâmetros em formatos de alta precisão, eles podem ser lentos e exigir muitos recursos. Pra resolver isso, aplicamos um método de quantização que ajuda a tornar o modelo mais leve e rápido, mantendo a precisão.

Selecionamos cuidadosamente exemplos de treinamento com base nos tipos de tarefas do nosso conjunto de dados pra garantir uma quantização eficaz. Também comparamos nossa abordagem com amostras de outras fontes externas pra medir o quão bem nosso método se saiu.

Raciocínio Chain-of-Thought (CoT)

Depois de completar as fases de ajuste de instruções e quantização, introduzimos o raciocínio Chain-of-Thought durante a fase de inferência. Isso significa que usamos uma estratégia específica quando o modelo enfrenta perguntas que envolvem cálculos. Nessas situações, sugerimos ao modelo que pense passo a passo, o que ajuda ele a chegar à resposta correta. Por exemplo, simplesmente dizer "Vamos pensar passo a passo" pode fazer o modelo se sair melhor em tarefas relacionadas.

Resultados e Desempenho

Através do nosso processo de treinamento e ajuste, observamos melhorias significativas. Medimos o desempenho de diferentes modelos em condições de treinamento semelhantes. Notavelmente, um dos nossos modelos alcançou as maiores pontuações em ambas as trilhas da competição. Também descobrimos que modelos que usam dados do domínio para quantização se saíram melhor do que aqueles que usam dados externos, indicando a importância de material de treinamento relevante.

Nosso estudo também destacou uma descoberta interessante: em alguns casos, conjuntos de treinamento menores podiam gerar melhores resultados do que conjuntos maiores. Isso sugere que a composição do conjunto de dados de treinamento pode afetar significativamente o desempenho.

Conclusão

A competição no Amazon KDD Cup’24 apresentou um teste único para a aplicação de LLMs no domínio do e-commerce. Nossa solução envolveu uma estratégia bem planejada que incluiu construção de conjuntos de dados, ajuste de instruções e quantização após o treinamento. O desenvolvimento do EC-Guide nos permitiu adaptar nossa abordagem especificamente às necessidades do e-commerce.

Além disso, a integração do raciocínio Chain-of-Thought se mostrou valiosa pra aumentar as capacidades aritméticas, resultando em um desempenho melhor em várias tarefas. As descobertas desse trabalho podem ajudar a informar futuras aplicações de LLMs no e-commerce e áreas semelhantes, enfatizando a importância de conjuntos de dados apropriados e técnicas eficazes de ajuste de modelo.

No geral, nosso trabalho indica um grande potencial dos LLMs em lidar com as complexidades das compras online, abrindo caminho pra melhores experiências de usuário e soluções de e-commerce mais inteligentes.

Fonte original

Título: EC-Guide: A Comprehensive E-Commerce Guide for Instruction Tuning and Quantization

Resumo: Large language models (LLMs) have attracted considerable attention in various fields for their cost-effective solutions to diverse challenges, especially with advancements in instruction tuning and quantization. E-commerce, with its complex tasks and extensive product-user interactions, presents a promising application area for LLMs. However, the domain-specific concepts and knowledge inherent in e-commerce pose significant challenges for adapting general LLMs. To address this issue, we developed EC-Guide \href{https://github.com/fzp0424/EC-Guide-KDDUP-2024}, a comprehensive e-commerce guide for instruction tuning and quantization of LLMs. We also heuristically integrated Chain-of-Thought (CoT) during inference to enhance arithmetic performance. Our approach achieved the 2nd place in Track 2 and 5th place in Track 5 at the Amazon KDD Cup'24 \href{https://www.aicrowd.com/challenges/amazon-kdd-cup-2024-multi-task-online-shopping-challenge-for-llms}. Additionally, our solution is model-agnostic, enabling effective scalability across larger systems.

Autores: Zhaopeng Feng, Zijie Meng, Zuozhu Liu

Última atualização: 2024-08-06 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2408.02970

Fonte PDF: https://arxiv.org/pdf/2408.02970

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes