FaceTouch: Uma Nova Maneira de Monitorar o Toque no Rosto
O FaceTouch monitora o contato das mãos com o rosto pra ajudar a reduzir a propagação de doenças.
― 10 min ler
Índice
Muitos vírus se espalham pelo nosso sistema respiratório, passando frequentemente de uma pessoa para outra. Um bom exemplo disso é o Covid-19, que destacou a importância de rastrear e reducir contatos para prevenir a propagação. No entanto, ainda falta métodos automáticos que consigam detectar efetivamente quando alguém toca o rosto, especialmente em lugares urbanos movimentados ou em ambientes fechados.
Neste artigo, apresentamos um novo programa de computador chamado FaceTouch. Esse programa utiliza tecnologia avançada para reconhecer quando as mãos entram em contato com rostos através de imagens, seja de videochamadas, câmeras de ônibus ou câmeras de segurança. Mesmo quando os rostos estão parcialmente bloqueados, o FaceTouch consegue aprender a identificar essas situações observando movimentos do corpo, como ações dos braços. Esse sistema vai além de apenas detectar movimentos de mãos e a proximidade com o rosto, tornando-se útil em ambientes lotados. Ele utiliza um método chamado Aprendizado Contrastivo Supervisionado para se treinar em um conjunto de dados que coletamos, já que não existem Conjuntos de dados de referência disponíveis.
As pessoas têm uma tendência natural a tocar o rosto, especialmente em áreas sensíveis como os olhos, nariz e boca. Esse comportamento pode aumentar os riscos à saúde, introduzindo germes no corpo e espalhando doenças. Portanto, é essencial monitorar toques no rosto para mudanças comportamentais. Um sistema automatizado que pode interpretar ações humanas em ambientes complicados pode ser benéfico em muitas situações. Durante pandemias, ser capaz de rastrear onde nossas mãos tocam poderia ajudar a entender como as doenças se espalham.
Recentemente, avanços em visão computacional e aprendizado profundo nos ajudaram a aprender vários aspectos das ações humanas e como elas interagem com o ambiente. Embora ainda haja lacunas na busca por conjuntos de dados de imagens do mundo real para reconhecer toques de mão no rosto, alguns estudos se concentram em usar dispositivos inteligentes vestíveis para detectar essas ações. No entanto, essa abordagem pode ser complicada e insustentável, pois requer dados de múltiplas fontes de diferentes indivíduos. Outros sistemas dependem de detectar mãos e rostos separadamente e decidir se um toque ocorreu com base nas distâncias entre eles. Esse método pode resultar em erros, especialmente quando os movimentos das mãos se assemelham a toques no rosto, mas na verdade são ações não relacionadas, como beber.
Neste trabalho, apresentamos as seguintes contribuições:
- A introdução da estrutura FaceTouch, que visa detectar toques de mão no rosto em várias situações, incluindo videochamadas, imagens de ônibus e gravações de CCTV. Essa estrutura aprende a identificar toques mesmo quando o rosto está parcialmente escondido, observando gestos corporais como movimentos dos braços.
- Expandimos o uso de aprendizado auto-supervisionado para aprendizado supervisionado total, utilizando efetivamente rótulos de imagem.
- Criamos um novo conjunto de dados especificamente para toques de mão no rosto, capturando várias poses humanas em ambientes internos e externos.
- Analisamos diferentes modelos de aprendizado profundo que podem abordar desafios semelhantes.
Após a introdução, vamos explicar trabalhos relacionados e métodos usados anteriormente. Depois disso, descreveremos a estrutura FaceTouch, métodos de treinamento e métricas de avaliação. Vamos resumir os resultados e discuti-los em relação à literatura atual, observando trabalhos futuros e limitações. Por fim, concluiremos nossa pesquisa.
Trabalhos Relacionados
Vários estudos se relacionam a este tópico e podem ser agrupados em duas categorias:
Detecção via Dispositivos de Sensor
Alguns métodos usam smartwatches para detectar toques espontâneos no rosto analisando dados de acelerômetros. Esses métodos envolvem várias técnicas de aprendizado de máquina, incluindo Floresta Aleatória e Máquinas de Vetores de Suporte. Abordagens similares usam dados de acelerômetros para identificar toques no rosto. Outras tecnologias vestíveis foram desenvolvidas para ajudar a prevenir toques inconscientes no rosto, utilizando tanto dados de acelerômetros quanto aprendizado profundo para a classificação de movimentos das mãos. Além disso, um estudo usou um dispositivo usado no ouvido para detectar toques das mãos e identificá-los como mucosos ou não mucosos, analisando sinais térmicos e fisiológicos que indicam mudanças na pele durante o contato facial.
Detecções Separadas de Mão e Rosto
Identificar toques no rosto também pode ser feito detectando uma mão e um rosto separadamente e calculando a distância entre eles para ver se um toque ocorreu. Para a detecção facial, vários métodos leves que funcionam bem em tempo real foram desenvolvidos para dispositivos de borda. Um método usa pirâmides de características e arquiteturas profundas para detectar e localizar rostos em vários contextos. Outro método foca na detecção de rostos pequenos usando técnicas de CNN e redimensiona imagens de entrada para uma melhor detecção multi-resolução.
Para a detecção de mãos, foi criado um modelo de CNN livre de postura para reconhecer mãos a partir de imagens RGB. Outros estudos melhoraram a detecção de mãos usando blocos de aprendizado profundo para uma melhor interpretação dos resultados. Alguns pesquisadores introduziram Redes Adversariais Generativas para reconstruir representações de mãos, enquanto outros desenvolveram modelos para estimar poses das mãos com base em pontos-chave.
Em resumo, progressos foram feitos usando dados de dispositivos de sensor e abordagens aritméticas para entender ações de toque de mão no rosto. Além disso, avanços foram feitos na localização de oclusões faciais causadas por mãos, mas desafios permanecem na reconhecimento de toques no rosto em cenários do mundo real.
Materiais e Métodos
O projeto recebeu aprovação ética do Observatório Urbano da Universidade de Newcastle. O consentimento individual não foi necessário, uma vez que os dados utilizados não divulgam informações pessoais. Apresentamos apenas resultados baseados em dados disponíveis publicamente, com rostos borrados para preservar a privacidade.
Nesta seção, discutimos nossa abordagem, arquitetura, materiais, métricas de avaliação e detalhes de implementação, incluindo hiperparâmetros do modelo.
Para detectar toques no rosto, usamos uma imagem de entrada RGB, que varia em escala e resolução. Confiamos no aprendizado contrastivo supervisionado para abordar essa tarefa. Este método é semelhante à perda triplet, que se mostrou mais eficiente do que o aprendizado supervisionado tradicional.
No aprendizado contrastivo supervisionado, usamos duas redes: uma rede de encoder e uma rede de projeção. O encoder mapeia os dados de entrada para uma representação vetorial, enquanto a rede de projeção mapeia para outro vetor. Essa configuração permite medir distâncias no espaço vetorial latente. O encoder pode consistir em arquiteturas populares como ResNet ou MobileNet, enquanto a rede de projeção é usada apenas durante o treinamento.
A Arquitetura do FaceTouch
Nossa estrutura proposta permite a detecção e localização de humanos e rostos em várias escalas. Ela consiste em quatro componentes principais:
Backbone: Utilizamos dois modelos backbone para Detecção de Objetos e rostos, melhorando a capacidade da estrutura de classificar toques no rosto em cenas complexas. Inicialmente, um detector facial opera, enquanto o detector humano permanece inativo. Se nenhum rosto for detectado, o detector humano é ativado para identificar humanos na cena.
Action Encoder: Após o backbone, passamos as imagens detectadas para um encoder para classificá-las e identificar possíveis toques no rosto usando aprendizado contrastivo supervisionado. Treinamos várias arquiteturas de encoder de última geração para otimizar velocidade e eficiência.
Desfoque Facial: Para garantir a privacidade e reduzir riscos de identificação, adicionamos ruído gaussiano às imagens que contêm rostos detectados, garantindo anonimato.
IA Explicável: Incorporamos um recurso para visualizar a atenção durante a inferência, usando Grad-CAM para destacar quais partes da imagem o modelo foca ao classificar um toque no rosto.
Perdas da Estrutura e Métricas de Avaliação
Para a parte de detecção de objetos, definimos a perda com base na localização e confiança, garantindo detecção e classificação precisas. Para treinar o encoder de ação, usamos perda de contraste supervisionada. Também aplicamos perda de entropia cruzada tradicional emparelhada com perda focal para lidar com desbalanceamentos de classe.
Avaliamo a performance do modelo usando precisão, precisão, recall e F1-score. Calculamos a curva Receiver Operating Characteristic (ROC) para avaliar a performance de classificação tanto do backbone quanto dos encoders de ação.
Dados Coletados
Atualmente, não existem conjuntos de dados de aprendizado profundo de acesso aberto para rotular e classificar toques de mão no rosto. Para resolver isso, compilamos nosso próprio conjunto de dados, coletando mais de 20.000 imagens da internet. Inspecionamos visualmente os dados para focar em casos relevantes de indivíduos tocando seus rostos e dividimos as imagens em conjuntos de treinamento e teste.
Treinamos o modelo para analisar imagens faciais e de corpo inteiro, dando-lhe a flexibilidade de reconhecer toques de mão independentemente do ângulo ou elevação da imagem. Embora isso possa complicar o treinamento, permite que o modelo se adapte a várias necessidades de sensoriamento em múltiplos ambientes.
Detalhes da Implementação
Detecção de Objetos: Treinamos o detector de objetos em um conjunto de dados bem conhecido seguindo os procedimentos apropriados. Usamos técnicas de aumento de dados e otimizamos o modelo com base em taxas de aprendizado e tamanhos de lote.
Reconhecimento de Ação: Para a classificação de ações, treinamos classificadores usando tanto aprendizado supervisionado tradicional quanto aprendizado contrastivo supervisionado. Garantimos explorar uma variedade de arquiteturas, ajustando camadas, funções de ativação e métodos de otimização para obter um alto desempenho.
Resultados e Análise
Depois de treinar diferentes modelos dentro do FaceTouch, nossos resultados demonstram melhorias significativas de desempenho usando aprendizado contrastivo supervisionado em várias arquiteturas. Registramos métricas como Precisão Média Mean Average Precision, Recall e F1-score, indicando a eficácia da nossa abordagem.
O modelo de detecção de objetos mostrou forte desempenho em reconhecer humanos e rostos, enquanto os modelos de reconhecimento de ação se destacaram quando treinados com aprendizado contrastivo supervisionado. Também analisamos como o modelo focou nas posições das mãos e na detecção facial, destacando classificações bem-sucedidas versus identificações incorretas.
A estrutura FaceTouch se mostra útil em aplicações em tempo real, detectando com sucesso toques de mão no rosto em diferentes contextos, incluindo videochamadas, imagens de ônibus de baixa resolução e cenários urbanos complexos. O sistema pode ajudar indivíduos com deficiência visual a manter uma distância social segura enquanto permanecem cientes de outras pessoas que possam estar tocando o rosto.
Direções Futuras de Pesquisa
Os achados deste estudo podem ser expandidos incorporando dados sequenciais em streams de vídeo para detectar padrões nos toques de mão no rosto ou outras interações comuns em espaços públicos. A estrutura FaceTouch poderia melhorar utilizando informações temporais e se encarregando de rotular quadros sequencialmente. Além disso, as capacidades de detecção de objetos poderiam ser estendidas para incluir outros itens além de figuras humanas.
Em conclusão, o FaceTouch representa uma nova e eficaz abordagem para detectar toques de mão no rosto em streams de vídeo não editados. Ao garantir o anonimato dos indivíduos e alavancar um novo conjunto de dados criado, a estrutura demonstra alta validação nos dados de teste e promete aplicações futuras no monitoramento de comportamentos de saúde pública.
Título: FaceTouch: Detecting hand-to-face touch with supervised contrastive learning to assist in tracing infectious disease
Resumo: Through our respiratory system, many viruses and diseases frequently spread and pass from one person to another. Covid-19 served as an example of how crucial it is to track down and cut back on contacts to stop its spread. There is a clear gap in finding automatic methods that can detect hand-to-face contact in complex urban scenes or indoors. In this paper, we introduce a computer vision framework, called FaceTouch, based on deep learning. It comprises deep sub-models to detect humans and analyse their actions. FaceTouch seeks to detect hand-to-face touches in the wild, such as through video chats, bus footage, or CCTV feeds. Despite partial occlusion of faces, the introduced system learns to detect face touches from the RGB representation of a given scene by utilising the representation of the body gestures such as arm movement. This has been demonstrated to be useful in complex urban scenarios beyond simply identifying hand movement and its closeness to faces. Relying on Supervised Contrastive Learning, the introduced model is trained on our collected dataset, given the absence of other benchmark datasets. The framework shows a strong validation in unseen datasets which opens the door for potential deployment.
Autores: Mohamed R. Ibrahim, Terry Lyons
Última atualização: 2023-08-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.12840
Fonte PDF: https://arxiv.org/pdf/2308.12840
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.ctan.org/pkg/latexdiff?lang=en
- https://journals.plos.org/plosone/s/figures
- https://journals.plos.org/plosone/s/tables
- https://journals.plos.org/plosone/s/latex
- https://arxiv.org/abs/2008.01769
- https://arxiv.org/abs/1708.00370
- https://arxiv.org/abs/1907.05047
- https://arxiv.org/abs/1904.10633
- https://arxiv.org/abs/1905.00641
- https://arxiv.org/abs/1612.04402
- https://arxiv.org/abs/2105.10904
- https://arxiv.org/abs/2005.01351
- https://arxiv.org/abs/2207.03112
- https://arxiv.org/abs/2004.11362
- https://arxiv.org/abs/1412.6622
- https://arxiv.org/abs/1704.04861
- https://arxiv.org/abs/2010.11929
- https://arxiv.org/abs/2103.02440
- https://arxiv.org/abs/1903.06593
- https://arxiv.org/abs/1812.08008