Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanços em Aprendizado Semi-Supervisionado para Reconhecimento de Expressões Faciais

Este estudo investiga métodos semi-supervisionados para melhorar a precisão do reconhecimento de expressões faciais.

― 10 min ler


AprendizadoAprendizadoSemi-Supervisionado emFERsignificativos para o reconhecimento desemi-supervisionadas trazem benefíciosEstudo mostra que técnicas
Índice

O Reconhecimento de Expressões Faciais (FER) é uma área importante na visão computacional que permite que os computadores identifiquem emoções humanas. Essa tecnologia pode ser aplicada em vários lugares, como saúde, segurança e dispositivos inteligentes.

As técnicas de deep learning contribuíram bastante para o avanço do FER. Porém, um grande problema é a necessidade de uma quantidade enorme de dados rotulados para treinar os modelos. Isso pode ser caro e demorado de coletar. Para resolver isso, os pesquisadores estão usando o Aprendizado semi-supervisionado, que se baseia em uma pequena quantidade de dados rotulados combinados com um grande conjunto de dados não rotulados.

O aprendizado semi-supervisionado ganhou atenção pela sua capacidade de melhorar o desempenho usando uma rotulagem mínima. Ele usa as informações dos dados não rotulados para ajudar a melhorar o processo de aprendizado baseado nas amostras rotuladas. Embora alguns estudos tenham analisado o aprendizado semi-supervisionado no FER, muitos métodos recentes desenvolvidos em visão computacional geral ainda não foram testados nesse contexto.

Esse estudo tem como objetivo examinar vários métodos de aprendizado semi-supervisionado para FER usando diferentes cenários de dados. Vamos analisar como esses métodos se saem quando aplicados a diferentes tipos de dados não rotulados, incluindo distribuições internas (ID), distribuições externas (OOD) e conjuntos de dados não restritos.

Reconhecimento de Expressão Facial

FER é uma parte crucial da tecnologia de visão computacional, permitindo que máquinas reconheçam emoções humanas a partir de imagens. Essa capacidade tem aplicações em áreas como avaliação de saúde mental, análise de feedback de clientes e sistemas de vigilância. Com a ajuda do deep learning, muitos sistemas de FER alcançaram resultados impressionantes ao reconhecer uma variedade de emoções, incluindo felicidade, tristeza, raiva e surpresa.

Embora o deep learning tenha trazido avanços significativos, um dos principais desafios ainda é a necessidade de grandes conjuntos de dados rotulados. Coletar esses conjuntos pode ser um processo muito trabalhoso, dificultando a aplicação de métodos de deep learning de forma mais ampla. O aprendizado semi-supervisionado oferece uma possível solução para esse problema, permitindo que os modelos aprendam com dados rotulados e não rotulados.

Aprendizado Semi-Supervisionado

O aprendizado semi-supervisionado é um método que usa uma pequena quantidade de dados rotulados junto com uma quantidade maior de dados não rotulados. O objetivo principal é aprender representações melhores dos dados e melhorar o desempenho do modelo. Nesse approach, tanto amostras rotuladas quanto não rotuladas são utilizadas, ajudando o modelo a generalizar melhor quando encontra dados novos e não vistos.

A ideia é aproveitar as regularidades nos dados não rotulados para apoiar o aprendizado em situações onde os dados rotulados são escassos. Ao fazer isso, o aprendizado semi-supervisionado pode aumentar a quantidade de dados disponíveis de forma eficaz e melhorar o desempenho do modelo sem a necessidade de conjuntos de dados rotulados extensos.

Nos últimos anos, vários métodos semi-supervisionados foram propostos, e alguns desses métodos mostraram potencial em melhorar os sistemas de FER. Contudo, a aplicação desses métodos no contexto do FER ainda é limitada e mais exploração é necessária.

Tipos de Dados Não Rotulados

No nosso estudo, vamos focar em três tipos de dados não rotulados:

  1. Dados não rotulados de distribuição interna (ID): Esses dados vêm da mesma fonte que os dados rotulados. As imagens representam características e classes de emoção semelhantes às presentes no conjunto rotulado.

  2. Dados não rotulados de distribuição externa (OOD): Esses dados contêm imagens das mesmas classes de emoções, mas vêm de uma fonte diferente. A distribuição desses dados é diferente da dos dados rotulados, o que pode criar desafios para o modelo.

  3. Dados não rotulados não restritos: Esse tipo de dado vem de fontes diferentes e pode incluir imagens de classes de emoções que não necessariamente se alinham com as classes rotuladas. Esse cenário é considerado mais difícil do que tanto o aprendizado ID quanto OOD, já que o modelo precisa aprender a reconhecer emoções de contextos totalmente diferentes.

Objetivos do Estudo

Os principais objetivos deste estudo são:

  • Investigar e comparar 11 métodos recentes de aprendizado semi-supervisionado para FER.
  • Avaliar seu desempenho em vários cenários com diferentes tipos de dados não rotulados, incluindo ID, OOD, não restritos e conjuntos de dados muito pequenos.
  • Analisar o desempenho desses métodos semi-supervisionados em comparação com métodos de aprendizado totalmente supervisionados.

Visão Geral dos Métodos Semi-Supervisionados

Neste estudo, vamos examinar 11 métodos semi-supervisionados avaliados para FER. Esses métodos incluem:

  1. Pi-model: Um método que aplica duas ampliações em uma imagem não rotulada e força suas previsões a serem semelhantes.

  2. Pseudo-label: Um método simples que prevê as probabilidades de classe para amostras não rotuladas e usa previsões de alta confiança para tratá-las como pseudo-rótulos.

  3. Mean Teacher: Uma versão estendida do Pi-model que usa uma média móvel exponencial das previsões como um modelo professor.

  4. Treinamento Adversarial Virtual (VAT): Nesse método, uma perturbação adversarial é usada para criar diferentes variações de entrada enquanto se mantém a consistência nas previsões.

  5. Adaptação de Domínio Não Supervisionada (UDA): Essa técnica melhora o desempenho dos modelos usando métodos de ampliação avançados para gerar amostras variadas.

  6. MixMatch: Uma abordagem híbrida que combina os conceitos de regularização de consistência e minimização de entropia, melhorando as previsões em dados não rotulados.

  7. ReMixMatch: Um aprimoramento do MixMatch com novas ideias como alinhamento de distribuição e ancoragem de ampliação.

  8. FixMatch: Um método híbrido que usa ampliações fracas e fortes para gerar previsões e trata previsões de alta confiança como rótulos.

  9. FlexMatch: Uma melhoria sobre o FixMatch que introduz um limite específico de classe com base no status de aprendizado de cada classe.

  10. CoMatch: Uma extensão do FixMatch que aplica aprendizado contrastivo orientado por pseudo-rótulos previstos.

  11. Aprendizado Semi-Supervisionado Contratante Consciente de Classe (CCSSL): Um método projetado para aprendizado OOD que foca na discriminação de instâncias usando perda contrastiva.

Configuração Experimental

Para avaliar o desempenho desses métodos semi-supervisionados, realizamos experimentos com um total de seis conjuntos de dados para FER:

  • FER13: Contém mais de 28.000 imagens de sete emoções, coletadas da internet.
  • RAF-DB: Um conjunto de dados composto por aproximadamente 15.000 imagens, anotadas por múltiplos anotadores.
  • AffectNet: Um grande conjunto de dados com cerca de 284.000 imagens cobrindo oito emoções.
  • CelebA: Uma coleção em grande escala de imagens de rostos, não limitada a expressões.
  • KDEF: Um conjunto de dados menor com cerca de 5.000 imagens capturadas em ambientes controlados.
  • DDCF: Outro conjunto de dados pequeno com cerca de 6.500 imagens de múltiplas emoções.

Para todos os métodos, usamos o mesmo encoder e protocolo de treinamento para garantir uma comparação justa. O encoder utilizado foi o ResNet-50. Realizamos experimentos com diferentes números de amostras rotuladas para avaliar o desempenho em diferentes cenários.

Resultados

Aprendizado Semi-Supervisionado com Dados Não Rotulados ID

Na nossa primeira rodada de experimentos, avaliamos o desempenho dos métodos semi-supervisionados em dados não rotulados ID usando os conjuntos de dados FER13, RAF-DB e AffectNet. Os resultados mostraram que o FixMatch superou consistentemente os outros métodos, alcançando a maior precisão em vários cenários. Notavelmente, ele demonstrou uma precisão média de mais de 50% em diferentes conjuntos de dados, superando em muito o segundo melhor método.

Análise de Sensibilidade

Em seguida, realizamos uma análise de sensibilidade para entender melhor como os hiperparâmetros chave impactam o desempenho do FixMatch e do MixMatch. Descobrimos que parâmetros específicos variavam em seus valores ideais entre os diferentes conjuntos de dados, indicando que a sintonia é essencial para o desempenho do modelo.

Comparação com Aprendizado Totalmente Supervisionado

Além de avaliar métodos semi-supervisionados, também comparamos seu desempenho com o aprendizado totalmente supervisionado. Os métodos semi-supervisionados mostraram melhorias significativas em relação ao aprendizado totalmente supervisionado quando ambas as abordagens receberam a mesma quantidade de dados rotulados. Por exemplo, vários métodos semi-supervisionados melhoraram a precisão em mais de 8% em alguns conjuntos de dados.

Aprendizado Semi-Supervisionado com Dados Não Rotulados OOD

Posteriormente, voltamos nossa atenção para dados não rotulados OOD. Os resultados indicaram que todos os métodos sofreram uma queda de desempenho em comparação com cenários de aprendizado ID. No entanto, o ReMixMatch e o CCSSL se destacaram como os melhores para o aprendizado de dados não rotulados OOD. Apesar da queda na precisão, esses métodos ainda superaram o aprendizado totalmente supervisionado.

Aprendizado Semi-Supervisionado com Dados Não Rotulados Não Restritos

Quando avaliamos os métodos usando dados não rotulados não restritos, observamos tendências semelhantes. O ReMixMatch novamente obteve os melhores resultados, embora outros métodos ficassem para trás. O desempenho dos métodos semi-supervisionados permaneceu superior ao dos métodos totalmente supervisionados, enfatizando sua eficácia mesmo em cenários mais difíceis.

Pequenos Conjuntos de Dados

Finalmente, também testamos os métodos semi-supervisionados em dois pequenos conjuntos de dados, KDEF e DDCF. Novamente, o ReMixMatch mostrou a melhor precisão média. Esses resultados sugerem que mesmo com dados limitados, o aprendizado semi-supervisionado pode ser benéfico.

Conclusão

Este estudo apresenta uma análise detalhada de vários métodos de aprendizado semi-supervisionado para FER. As descobertas indicam que, enquanto o FixMatch é notavelmente eficaz para dados não rotulados ID, o ReMixMatch se destaca em contextos mais desafiadores, como OOD e cenários não restritos. Importante, as melhorias de desempenho dos métodos semi-supervisionados em relação ao aprendizado totalmente supervisionado demonstram seu forte potencial em aplicações do mundo real.

A pesquisa destaca como o aprendizado semi-supervisionado pode ser uma abordagem valiosa para melhorar sistemas de reconhecimento de expressões faciais, especialmente quando coletar dados rotulados é desafiador. Os resultados também sugerem que é possível alcançar uma precisão razoável mesmo ao lidar com fontes de dados diversas, tornando o aprendizado semi-supervisionado uma área importante para exploração futura em FER e potencialmente em outros domínios.

Agradecimentos

Agradecemos o apoio de várias organizações que tornaram essa pesquisa possível. As descobertas desta pesquisa podem informar futuros estudos em aprendizado semi-supervisionado e suas aplicações em diferentes áreas.

Fonte original

Título: Exploring the Boundaries of Semi-Supervised Facial Expression Recognition using In-Distribution, Out-of-Distribution, and Unconstrained Data

Resumo: Deep learning-based methods have been the key driving force behind much of the recent success of facial expression recognition (FER) systems. However, the need for large amounts of labelled data remains a challenge. Semi-supervised learning offers a way to overcome this limitation, allowing models to learn from a small amount of labelled data along with a large unlabelled dataset. While semi-supervised learning has shown promise in FER, most current methods from general computer vision literature have not been explored in the context of FER. In this work, we present a comprehensive study on 11 of the most recent semi-supervised methods, in the context of FER, namely Pi-model, Pseudo-label, Mean Teacher, VAT, UDA, MixMatch, ReMixMatch, FlexMatch, CoMatch, and CCSSL. Our investigation covers semi-supervised learning from in-distribution, out-of-distribution, unconstrained, and very small unlabelled data. Our evaluation includes five FER datasets plus one large face dataset for unconstrained learning. Our results demonstrate that FixMatch consistently achieves better performance on in-distribution unlabelled data, while ReMixMatch stands out among all methods for out-of-distribution, unconstrained, and scarce unlabelled data scenarios. Another significant observation is that with an equal number of labelled samples, semi-supervised learning delivers a considerable improvement over supervised learning, regardless of whether the unlabelled data is in-distribution, out-of-distribution, or unconstrained. We also conduct sensitivity analyses on critical hyper-parameters for the two best methods of each setting. To facilitate reproducibility and further development, we make our code publicly available at: github.com/ShuvenduRoy/SSL_FER_OOD.

Autores: Shuvendu Roy, Ali Etemad

Última atualização: 2024-11-21 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.01229

Fonte PDF: https://arxiv.org/pdf/2306.01229

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes