Simple Science

Ciência de ponta explicada de forma simples

# Informática# Interação Homem-Computador

Construindo um Agente de Voz para Circularidade Têxtil

Saiba como o TextileBot ajuda os usuários a entenderem têxteis sustentáveis.

― 8 min ler


TextileBot: Redefinindo aTextileBot: Redefinindo aInteração por Vozsustentáveis e circularidade.Um agente da voz para têxteis
Índice

Criar Agentes de Voz que consigam ter conversas sobre tópicos específicos é uma tarefa desafiadora. Um dos grandes problemas é a necessidade de muita informação sobre aquele tópico específico. Modelos de Linguagem de Grande Escala (LLMs) têm ganhado popularidade e capacidade, o que significa que eles podem ajudar a resolver esse problema sem precisar de tantos dados. Dando a LLMs tarefas específicas usando prompts, podemos orientá-los a responder a perguntas dos usuários sem precisar que eles sejam treinados com muitos dados primeiro.

Neste artigo, a gente fala sobre como construímos um agente de voz chamado TextileBot. Esse agente foca em têxteis e circularidade, uma prática sustentável na indústria têxtil. A gente compartilha como projetamos, desenvolvemos e testamos o TextileBot com base em um estudo com usuários reais.

O que é Circularidade Têxtil?

Circularidade têxtil é tudo sobre tornar a indústria têxtil mais sustentável. Significa reutilizar, reciclar ou decompor materiais para gerar menos desperdício e reduzir o impacto ambiental. Esse tópico inclui muita informação de várias áreas, como moda, cadeia de suprimentos e ciência dos materiais. Por causa da complexidade desse tema, é uma área ideal para mostrar o que um agente de voz pode fazer.

Como a indústria têxtil contribui bastante para a poluição, encontrar maneiras sustentáveis de produzir e consumir têxteis é crucial. O objetivo é ajudar as pessoas no dia a dia a entenderem melhor a circularidade têxtil e incentivá-las a se envolver com práticas sustentáveis.

O Desafio de Construir Agentes de Voz

Agentes de voz típicos, como Alexa ou Google Home, são projetados para fornecer informações sobre uma ampla gama de tópicos. No entanto, eles muitas vezes não têm a profundidade necessária para assuntos especializados. Desenvolver um agente de voz focado em um campo específico vem com desafios, especialmente a necessidade de dados especializados. Coletar e preparar esses dados pode ser demorado e caro.

Além disso, a maioria dos agentes de voz segue padrões simples de pergunta-resposta, o que significa que eles não conseguem lembrar facilmente interações passadas. Isso limita a profundidade das conversas e faz com que essas interações pareçam bem básicas.

Usando Modelos de Linguagem de Grande Escala

Avanços recentes em LLMs permitem uma abordagem mais flexível para desenvolver agentes de voz. Esses modelos são ferramentas poderosas que conseguem entender e gerar texto semelhante ao humano com base em entradas mínimas. Por exemplo, você pode simplesmente perguntar, "O que é moda sustentável?" e eles podem fornecer uma resposta razoável sem precisar de treinamento extenso especificamente para têxteis.

LLMs podem ser usados no que chamamos de maneira "zero-shot", o que significa que podemos orientá-los a realizar tarefas sem um treinamento específico nessa tarefa. Aproveitando o conhecimento existente desses modelos e guiando-os com prompts estruturados, podemos criar um agente de voz que se especializa em têxteis sem precisar de muitos dados personalizados.

O Processo de Desenvolvimento do TextileBot

Focamos em um processo de três fases para criar o TextileBot:

Fase 1: Estrutura do Conhecimento

Primeiro, construímos uma estrutura para organizar conhecimento sobre têxteis. Isso envolveu criar uma maneira estruturada de apresentar informações através de prompts. Por exemplo, se queremos saber sobre "fibra de algodão", estruturamos a informação para que mostre claramente sua relação com outras fibras. Essa técnica, chamada Cadeia de Estrutura de Conhecimento Baseada em Taxonomia, ajuda a garantir que o LLM forneça respostas precisas e relevantes.

Fase 2: Refinamento de Prompts

Em seguida, refinamos os prompts que usamos para nos comunicar com o LLM. Isso significa que criamos várias abordagens para fazer perguntas de uma maneira que levasse a melhores respostas específicas para têxteis. Ao personalizar os prompts, podemos ajustar como o agente interage com os usuários, se deve ser mais formal ou casual.

Fase 3: Interações Contínuas com Memória

A fase final envolveu desenvolver um sistema que permite que o modelo lembre interações anteriores. Assim, os usuários podem ter conversas contínuas sobre têxteis, tornando a experiência mais envolvente. Essa função de memória é crucial para habilitar um diálogo em múltiplas interações, onde os usuários não precisam repetir o que disseram.

Estudo de Usuário para Testar o TextileBot

Para avaliar como o TextileBot se sai, realizamos um estudo com 30 participantes. Cada participante interagiu com três versões diferentes do agente de voz: a versão padrão, a versão Expert com conhecimento detalhado e a versão Assistant com uma abordagem mais casual. Queríamos ver como os usuários reagiam a cada versão e como o agente de voz conseguia gerenciar conversas sobre têxteis.

Fases de Interação do Usuário

Organizamos a interação do usuário em quatro fases principais:

  1. Bate-Papo Livre: Os participantes podiam ter qualquer conversa que quisessem para nos ajudar a avaliar a personalidade de cada agente.
  2. Coleta de Informação: Os participantes faziam perguntas específicas sobre têxteis e circularidade, permitindo que testássemos o conhecimento e a capacidade de resposta do agente.
  3. Questionários: Após interagir com cada versão, os participantes preencheram um questionário sobre sua experiência.
  4. Feedback Geral: Por fim, os participantes compartilharam seus pensamentos sobre o que poderia ser melhorado.

Resultados do Estudo de Usuário

O estudo com os usuários forneceu insights valiosos sobre como eles interagiram com o TextileBot.

Níveis de Engajamento

A maioria dos participantes gostou de interagir com os agentes de voz. Eles se envolveram em várias trocas, indicando que acharam as conversas interessantes. A versão Assistant recebeu as melhores avaliações de engajamento, enquanto a versão Expert foi elogiada pelas informações detalhadas, mas criticada por respostas que eram longas demais.

Função de Memória

Os participantes apreciaram a função de memória, pois podiam se referir a perguntas e comentários anteriores durante suas interações. Esse recurso fez com que as conversas parecessem mais naturais e cativantes.

Desejos de Melhoria

Embora os participantes geralmente tenham tido experiências positivas, eles deram feedback sobre áreas que poderiam ser melhoradas. Muitos expressaram o desejo de que os agentes fizessem perguntas de volta, criando uma experiência mais conversacional. Os participantes também queriam respostas mais curtas e concisas e um tom mais amigável.

O Papel da Interação Social em Agentes de Voz

Uma parte notável do estudo envolveu examinar como os participantes interagiam socialmente com os agentes de voz. Muitos participantes usaram frases educadas como "obrigado" e "por favor", indicando que tratavam os agentes de voz como se estivessem conversando com outra pessoa. Esse comportamento destaca a importância de criar agentes de voz que não apenas forneçam informações, mas também envolvam os usuários de uma maneira que seja relacionável.

Principais Lições para Futuros Agentes de Voz

Com base em nossas descobertas, podemos destacar várias lições importantes para criar agentes de voz eficazes:

  • Engajamento Importa: Agentes de voz precisam incentivar diálogos contínuos em vez de simples trocas de perguntas e respostas.
  • Memória é Essencial: Permitir que os agentes lembrem interações passadas melhora a experiência do usuário e cria um fluxo de conversa mais natural.
  • Personalidade é Importante: Usuários preferem agentes de voz que apresentam qualidades humanas, incluindo um tom amigável e a capacidade de fazer perguntas de volta.
  • Concisão Conta: Usuários apreciam respostas concisas e claras em vez de respostas longas e prolixas.

Conclusão

O desenvolvimento do TextileBot demonstra o potencial de usar LLMs para criar agentes de voz específicos de domínio. Ao focar em uma abordagem estruturada, incluindo organização do conhecimento e refinamento de prompts, conseguimos criar um agente capaz de envolver os usuários em conversas significativas sobre têxteis e circularidade.

O estudo com os usuários mostrou que os participantes valorizam interações que parecem mais humanas, destacando a necessidade de futuros agentes de voz priorizarem engajamento, memória e personalidade. As respostas dos usuários informarão os esforços contínuos para desenvolver agentes de voz que sirvam não só como fontes de informação, mas como companheiros interativos em campos específicos.

Com esse trabalho, esperamos inspirar outros a explorar o potencial dos LLMs na criação de agentes de voz em vários domínios, enquanto defendemos práticas sustentáveis na indústria têxtil.

Fonte original

Título: LLM-Mediated Domain-Specific Voice Agents: The Case of TextileBot

Resumo: Developing domain-specific conversational agents (CAs) has been challenged by the need for extensive domain-focused data. Recent advancements in Large Language Models (LLMs) make them a viable option as a knowledge backbone. LLMs behaviour can be enhanced through prompting, instructing them to perform downstream tasks in a zero-shot fashion (i.e. without training). To this end, we incorporated structural knowledge into prompts and used prompted LLMs to build domain-specific voice-based CAs. We demonstrate this approach for the specific domain of textile circularity in form of the design, development, and evaluation of TextileBot. We present the design and development of the voice agent TextileBot and also the insights from an in-person user study (N=30) evaluating three variations of TextileBots. We analyse the human-agent interactions, combining quantitative and qualitative methods. Our results suggest that participants engaged in multi-turn conversations, and their perceptions of the three variation agents and respective interactions varied demonstrating the effectiveness of our prompt-based LLM approach. We discuss the dynamics of these interactions and their implications for designing future voice-based CAs. The results show that our method's potential for building domain-specific CAs. Furthermore, most participants engaged in multi-turn conversations, and their perceptions of the three voice agents and respective interactions varied demonstrating the effectiveness of our prompt-based LLM approach. We discuss the dynamics of these interactions and their implications for designing future voice-based CAs.

Autores: Shu Zhong, Elia Gatti, James Hardwick, Miriam Ribul, Youngjun Cho, Marianna Obrist

Última atualização: 2024-06-15 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.10590

Fonte PDF: https://arxiv.org/pdf/2406.10590

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes