Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Robótica

Enfrentando Desafios da Construção com Tecnologia Avançada

Um novo conjunto de dados busca apoiar a automação nos processos de construção.

― 9 min ler


Transformando aTransformando aconstrução com robóticaesforços de automação na construção.Um conjunto de dados impulsiona os
Índice

A indústria da Construção tá enfrentando uns perrengues, tipo a falta de trabalhadores qualificados e a queda na produtividade. Pra lidar com isso, tá surgindo um interesse maior em usar tecnologias como robôs autônomos. Mas desenvolver software pra esses robôs exige um monte de dados, que muitas vezes é difícil de achar no ramo da construção. Pra ajudar nisso, a gente criou um conjunto de dados específico pra construção em concreto armado. Esse conjunto inclui 14.805 Imagens RGB com rótulos pra diferentes partes do processo de construção.

A Necessidade de Tecnologia na Construção

Historicamente, a indústria da construção é bem devagar pra adotar tecnologias digitais. Muitas empresas desse setor reconhecem os benefícios que essas tecnologias podem trazer, mas na hora de implementar, a coisa complica. Estudos mostraram que a construção é um dos setores com as menores taxas de adoção de ferramentas digitais, e isso contribuiu pra falta de crescimento na produtividade em comparação com outras indústrias.

Além disso, a indústria da construção viu um aumento constante no emprego desde 2015. Mas o número de horas trabalhadas também subiu, mostrando que os trabalhadores estão sobrecarregados. Com a produtividade do trabalho caindo e as preocupações de segurança aumentando, a necessidade de automação na construção é urgente. Ferramentas digitais, especialmente sistemas robóticos autônomos, poderiam ajudar muito a diminuir a demanda por mão de obra e melhorar a segurança, encarregando-se de tarefas perigosas.

Desafios em Ambientes de Construção

Um grande problema com a implantação de sistemas robóticos na construção é o jeito que os canteiros de obra funcionam. Diferente de fábricas, os canteiros são muitas vezes uma bagunça e não têm espaços definidos pra diferentes atividades. Nas fábricas, as tarefas costumam ser bem entendidas, facilitando a programação dos robôs. Já nos canteiros, o negócio é dinâmico, e os robôs precisam de tecnologia sensorial avançada pra navegar nesses ambientes que mudam o tempo todo.

Pra construir sistemas robóticos robustos que consigam funcionar nesses lugares, é necessário uma quantidade grande de dados. Mas esse tipo de dado geralmente é escasso na indústria da construção. Pra preencher essa lacuna, nosso conjunto de dados foca nos processos de construção em concreto armado, fornecendo imagens valiosas que os sistemas robóticos podem aprender.

Visão Geral do Conjunto de Dados

Nosso conjunto de dados contém 14.805 imagens capturadas principalmente em canteiros de obra reais. Ele se concentra nas barras de reforço expostas, também conhecidas como 'rebars', durante o processo de construção com shotcrete. O conjunto inclui imagens de várias tarefas de construção e reparo, mostrando diferentes situações onde as rebars aparecem.

Junto com essas imagens, temos máscaras de Segmentação que categorizam os diferentes componentes em cada foto. As quatro principais classes no conjunto são:

  • Rebars expostas, que podem ser estruturas inteiras ou parcialmente expostas em concreto defeituoso
  • Pessoas, geralmente representando trabalhadores da construção com equipamentos de segurança
  • Carros, que são veículos de passageiros comuns
  • Caminhões, que representam maquinário pesado ou veículos de entrega

No total, temos 54.115 instâncias dessas categorias, oferecendo um recurso rico pra treinar modelos.

Coleta e Rotulagem de Dados

Pra criar esse conjunto de dados, coletamos imagens de duas fontes principais: nossas próprias visitas a canteiros de obra e vídeos disponíveis publicamente em plataformas como o YouTube. Usando uma configuração de câmera especial, gravamos as atividades que estavam rolando nesses lugares.

Devido a questões legais envolvendo o uso de vídeos do YouTube, não conseguimos incluir os quadros reais no nosso conjunto de dados. Em vez disso, anotamos os vídeos e criamos um mapeamento pra quadros específicos, permitindo que os usuários acessem o conteúdo original. Isso nos ajudou a aumentar o tamanho do conjunto de dados sem violar nenhuma regra.

Na Anotação, usamos uma técnica que preserva a privacidade pra borrar rostos. Também aplicamos melhorias pra aumentar a qualidade das imagens capturadas em condições de luz desafiadoras. Cada imagem no conjunto é rotulada de acordo com as classes definidas, e diretrizes claras foram dadas pra garantir consistência na marcação dos objetos.

Análise do Conjunto de Dados

Fizemos uma análise detalhada do nosso conjunto de dados, focando em vários aspectos como tamanho da imagem, contagem de objetos e distribuição das classes. As imagens variam em tamanho, representando diferentes cenários do processo de construção. Cada imagem mostra um número diferente de objetos, e garantimos uma distribuição equilibrada das categorias entre os conjuntos de treino, validação e teste.

O conjunto de dados tá dividido em três partes: treino, validação e teste. Essa divisão garante que a gente consiga avaliar nossos modelos de forma eficaz e evitar overfitting. O conjunto de treino contém a maioria das amostras, com um número menor alocado pra validação e teste.

Desafios na Consistência da Anotação

Durante o processo de anotação, percebemos algumas inconsistências na forma como os objetos eram rotulados. Diferentes anotadores às vezes usavam estilos variados pra marcar objetos semelhantes, causando confusão. Por exemplo, alguns quadros podem ter sido rotulados com anotações de área mais amplas, enquanto outros foram marcados com contornos mais específicos pra barras individuais.

Reconhecemos que, apesar de ambos os estilos serem válidos, ter muita variação poderia atrapalhar o treino de modelos de deep learning. Pra lidar com isso, desenvolvemos um método pra identificar quadros com rotulagem inconsistente e os marcamos de acordo. Separando esses estilos, a gente quis melhorar a qualidade do treino pros nossos modelos.

Treinamento de Modelos e Linhas de Base

Pra avaliar a eficácia do conjunto de dados, treinamos vários modelos de segmentação, incluindo YOLOv8L-seg, DeepLabV3 e U-Net. Esses modelos foram escolhidos por suas diferentes abordagens à segmentação de imagem. O YOLOv8L-seg é um modelo de segmentação de instância, enquanto DeepLabV3 e U-Net focam em segmentação semântica, que categoriza cada pixel na imagem.

Pra treinar, usamos pesos pré-treinados de modelos anteriores pra ajudar a melhorar a performance. Essa abordagem nos permitiu ver como os modelos conseguiam aprender com nosso conjunto de dados e quais fatores influenciavam a precisão deles.

Percebemos que enquanto DeepLabV3 e U-Net tiveram desempenhos semelhantes, o YOLOv8L-seg alcançou resultados bem melhores. Assim, focamos em explorar mais melhorias usando esse modelo.

Impacto da Retenção de Dados de Treino

Pra entender como a disponibilidade de dados afeta o desempenho do modelo, fizemos testes onde retivemos certas partes dos dados de treino. Esse experimento ajudou a avaliar quão diverso nosso conjunto de dados era e como a redução da quantidade de dados impactou os modelos.

Descobrimos que reter cerca de 20% dos dados de treino levou a uma queda notável na performance. Os resultados reforçaram a ideia de que ter dados amplos e variados é essencial pra treinar modelos robustos que consigam generalizar bem.

Comparando Diferentes Estilos de Anotação

Depois, investigamos como diferentes estilos de rotulagem afetaram o desempenho dos nossos modelos. Após identificar quadros com rótulos inconsistentes, removemos esses do conjunto de treino e retrabalhamos os modelos. Os resultados mostraram que excluir essas amostras anômalas teve um impacto mínimo, o que sugeriu que variações nos estilos de anotação podem não atrapalhar muito o treino do modelo.

Pra explorar isso mais a fundo, analisamos os gradientes da perda entre amostras pra ver se rótulos conflitantes criavam problemas durante o treino. A análise indicou que os estilos de rotulagem, apesar das diferenças, não impactaram negativamente o desempenho do modelo.

Avaliação Final do Modelo

A última parte do nosso estudo focou em avaliar o modelo YOLOv8L-seg usando a divisão de teste do nosso conjunto de dados. Analisamos seus pontos fortes e fracos, olhando de perto sua precisão e capacidade de identificar rebars expostas com precisão.

Embora o modelo tenha se saído bem na categoria de barras expostas, ele teve dificuldade em generalizar em diferentes cenários que não estavam presentes no conjunto de treino. Isso indica uma necessidade de um conjunto de dados maior e mais diverso pra melhorar o desempenho do modelo em reconhecer várias situações.

Resumo e Direções Futuras

Em resumo, criamos um conjunto de dados abrangente de imagens e máscaras de segmentação focado na construção em concreto armado. Nosso conjunto de dados tá disponível publicamente, buscando aumentar as oportunidades de pesquisa nessa área. A análise revelou a importância da disponibilidade de dados, consistência nas anotações e técnicas de treinamento de modelos.

A gente enfatiza que a indústria da construção ainda tá bem carente de dados de visão computacional, o que atrapalha o progresso no desenvolvimento de sistemas robóticos eficazes. Pra resolver isso, defendemos que mais pesquisadores contribuam com seus Conjuntos de dados, criando um recurso compartilhado que pode aprimorar o treinamento e desempenho dos modelos.

As descobertas do nosso trabalho mostram que, embora nossos modelos mostrem potencial, ainda há espaço pra melhorias. Esperamos que esse conjunto de dados incentive a colaboração e leve a avanços nas aplicações de visão computacional na construção. Unindo esforços, a indústria pode enfrentar melhor os desafios futuros de falta de mão de obra e segurança, abrindo caminho pra um setor de construção mais automatizado e eficiente.

Fonte original

Título: ConRebSeg: A Segmentation Dataset for Reinforced Concrete Construction

Resumo: The construction industry has been traditionally slow in adopting digital technologies. However, these are becoming increasingly necessary due to a plentitude of challenges, such as a shortage of skilled labor and decreasing productivity levels compared to other industries. Autonomous robotic systems can alleviate this problem, but the software development process for these systems is heavily driven by data, a resource usually challenging to find in the construction domain due to the lack of public availability. In our work, we therefore provide a dataset of 14,805 RGB images with segmentation labels for reinforced concrete construction and make it publicly available. We conduct a detailed analysis of our dataset and discuss how to deal with labeling inconsistencies. Furthermore, we establish baselines for the YOLOv8L-seg, DeepLabV3, and U-Net segmentation models and investigate the influence of data availability and label inconsistencies on the performance of these models. Our study showed that the models are precise in their predictions but would benefit from more data to increase the number of recalled instances. Label inconsistencies had a negligible effect on model performance, and we, therefore, advocate for a crowd-sourced dataset to boost the development of autonomous robotic systems in the construction industry.

Autores: Patrick Schmidt, Lazaros Nalpantidis

Última atualização: 2024-07-12 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.09372

Fonte PDF: https://arxiv.org/pdf/2407.09372

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes