Otimização da Colaboração Humano-Robô em Armazéns
Um novo método melhora a eficiência e a equidade nas operações de coleta em armazéns com robôs.
― 7 min ler
Índice
Em armazéns, pegar itens para pedidos é um processo crucial e caro. Tradicionalmente, os trabalhadores humanos são os principais responsáveis por essa tarefa, gastando uma boa parte do tempo pegando itens. A introdução de Robôs Móveis Autônomos (AMRs) levou a sistemas colaborativos onde trabalhadores humanos e robôs trabalham juntos na coleta dos itens. Nesse cenário, tanto humanos quanto robôs operam de forma independente e se encontram em locais designados para carregar itens nos robôs.
Embora seja essencial focar em tornar a coleta eficiente, também é importante considerar como a carga de trabalho é distribuída entre os trabalhadores humanos. Se um coletor tiver uma carga muito maior que outro, isso pode levar a estresse e risco de lesões. Assim, este estudo tem como objetivo desenvolver um método que otimize tanto a eficiência quanto a Justiça nesses sistemas colaborativos.
Visão Geral do Problema
No nosso trabalho, apresentamos um novo método para melhorar a atribuição de coletores humanos aos AMRs em um armazém. O objetivo é criar uma abordagem que não só maximize a eficiência da coleta, mas também garanta que a carga de trabalho seja distribuída de forma justa entre os coletores.
Criamos um cenário onde as tarefas de coleta são atribuídas tanto a trabalhadores humanos quanto a robôs. Os trabalhadores humanos coletam itens de locais específicos e os carregam nos robôs. Cada robô tem um caminho definido e um conjunto de itens a coletar, chamado de "pickrun".
Como o processo de coleta pode variar devido a muitos fatores incertos - como a velocidade com que os coletores se movem, quantos itens precisam ser coletados e possíveis interrupções - precisamos de uma solução flexível que possa se adaptar a essas incertezas.
Abordagem Proposta
Nossa abordagem envolve usar um tipo especializado de aprendizado chamado Aprendizado por Reforço Profundo Multi-Objetivo (DRL) para criar políticas de atribuição de coletores aos robôs. Esse método nos permite encontrar um equilíbrio entre dois objetivos importantes: eficiência e justiça.
Para alcançar isso, modelamos o layout do armazém como um grafo, onde cada local (como corredores e prateleiras) é representado como um nó, e as conexões entre esses locais são as arestas. Essa estrutura nos ajuda a gerenciar as complexas relações e movimentos dentro do armazém.
Modelo de Simulação
Para testar nosso método, desenvolvemos um modelo de simulação que representa o sistema colaborativo de coleta. Esse modelo imita as operações do mundo real em um centro de distribuição de produtos, levando em conta várias incertezas, como a velocidade dos coletores e robôs, e possíveis atrasos na coleta.
Projetamos a simulação para incluir todos os elementos-chave do armazém, incluindo o layout, locais dos itens e o processo de coleta do início ao fim. Gerando pick runs aleatórios para cada cenário, garantimos um conjunto diversificado de testes que realmente poderia refletir as complexidades de um armazém real.
O Papel do DRL
O Aprendizado por Reforço Profundo nos permite criar um agente de aprendizado que interage com o ambiente do armazém. O agente aprende com suas experiências e melhora continuamente sua política de atribuição de tarefas entre coletores humanos e robôs.
No nosso modelo, o agente DRL recebe informações sobre o estado atual do armazém e decide como alocar as tarefas de coleta com base em experiências anteriores. Esse processo acontece em múltiplas etapas, onde o agente aprende a otimizar a alocação de trabalhadores para as tarefas, enquanto também melhora a justiça na distribuição da carga de trabalho.
Justiça e Eficiência
Em nosso estudo, enfatizamos a importância tanto da eficiência quanto da justiça. Eficiência refere-se à redução do tempo total necessário para concluir as tarefas de coleta, enquanto justiça se refere à distribuição equitativa da carga de trabalho entre os coletores humanos.
Formulamos nosso problema para capturar explicitamente esses dois objetivos. Usando uma abordagem multi-objetivo, conseguimos gerar um conjunto de soluções, chamadas de políticas não dominadas, que representa um equilíbrio entre alta eficiência e justiça. Isso significa que, para um nível específico de eficiência, também podemos identificar o quanto de justiça estamos dispostos a sacrificar, e vice-versa.
Experimentação
Realizamos extensos experimentos para validar nossa abordagem. Nosso objetivo era demonstrar que as políticas aprendidas pelo nosso agente DRL podem superar métodos tradicionais em eficiência e justiça.
Estrutura dos Experimentos
Os experimentos foram estruturados em torno de diferentes tamanhos e configurações de armazéns. Testamos uma variedade de cenários, cada um com diferentes números de coletores e robôs, para avaliar quão bem nosso método se adapta a diferentes condições.
Comparamos nossa abordagem a dois principais benchmarks: uma política gananciosa que atribui coletores com base na proximidade dos caminhos dos robôs e um método baseado em regras que segue padrões fixos de escaneamento para atribuição de robôs.
Resultados
Os resultados dos nossos experimentos mostraram melhorias significativas em relação aos métodos de benchmark. Em termos de eficiência, as políticas geradas pela nossa abordagem DRL levaram à redução dos tempos de coleta em todos os cenários testados. Nossa abordagem também demonstrou um desempenho superior na distribuição justa das cargas de trabalho entre os coletores.
No geral, as políticas não dominadas equilibraram efetivamente os tempos de coleta e o desvio padrão das cargas de trabalho entre os trabalhadores. Isso é crucial para garantir que nenhum coletor fique sobrecarregado em comparação aos seus colegas.
Implementação
A implementação da nossa abordagem está centrada em torno da estrutura do DRL, que envolve vários componentes-chave.
Representação Gráfica
Uma etapa crucial na nossa implementação é a representação gráfica do armazém. Essa representação ajuda a modelar eficientemente as relações espaciais entre diferentes locais de coleta. Os nós representam vários pontos no armazém, enquanto as arestas indicam os caminhos possíveis que coletores e robôs podem seguir.
Arquitetura da Rede Neural
Desenvolvemos uma arquitetura de rede neural especializada, projetada para capturar as informações regionais relevantes tanto para a eficiência quanto para a justiça na carga de trabalho. Essa arquitetura ajuda o agente DRL a aprender políticas eficazes que consideram vários fatores que influenciam o processo de coleta.
Algoritmo de Aprendizado
Para otimizar o desempenho do agente DRL, usamos um algoritmo de Otimização de Política Proximal (PPO). Esse método de aprendizado permite que o agente melhore seu processo de tomada de decisão, evitando mudanças drásticas de política que poderiam desestabilizar o desempenho.
Conclusão
Em conclusão, nosso estudo apresenta uma abordagem nova para otimizar a colaboração entre coletores humanos e robôs nas operações de armazém. Aproveitando o Aprendizado por Reforço Profundo Multi-Objetivo, conseguimos criar políticas que melhoram tanto a eficiência quanto a justiça na carga de trabalho.
Os resultados da simulação validam a eficácia do nosso método em cenários de armazém do mundo real. Além disso, nossa arquitetura e estrutura de aprendizado demonstram boa adaptabilidade a diferentes configurações de armazém e condições operacionais. Este trabalho abre caminho para processos de coleta mais eficientes e equitativos na logística, beneficiando, em última análise, tanto trabalhadores quanto organizações.
À medida que avançamos, pretendemos refinar ainda mais nossa abordagem, incorporando restrições e preferências práticas adicionais para aumentar a aplicabilidade de nossa solução em ambientes do mundo real.
Título: Learning Efficient and Fair Policies for Uncertainty-Aware Collaborative Human-Robot Order Picking
Resumo: In collaborative human-robot order picking systems, human pickers and Autonomous Mobile Robots (AMRs) travel independently through a warehouse and meet at pick locations where pickers load items onto the AMRs. In this paper, we consider an optimization problem in such systems where we allocate pickers to AMRs in a stochastic environment. We propose a novel multi-objective Deep Reinforcement Learning (DRL) approach to learn effective allocation policies to maximize pick efficiency while also aiming to improve workload fairness amongst human pickers. In our approach, we model the warehouse states using a graph, and define a neural network architecture that captures regional information and effectively extracts representations related to efficiency and workload. We develop a discrete-event simulation model, which we use to train and evaluate the proposed DRL approach. In the experiments, we demonstrate that our approach can find non-dominated policy sets that outline good trade-offs between fairness and efficiency objectives. The trained policies outperform the benchmarks in terms of both efficiency and fairness. Moreover, they show good transferability properties when tested on scenarios with different warehouse sizes. The implementation of the simulation model, proposed approach, and experiments are published.
Autores: Igor G. Smit, Zaharah Bukhsh, Mykola Pechenizkiy, Kostas Alogariastos, Kasper Hendriks, Yingqian Zhang
Última atualização: 2024-04-09 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2404.08006
Fonte PDF: https://arxiv.org/pdf/2404.08006
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.