Melhorando o reconhecimento de expressões faciais com dados ruidosos
Um novo método melhora a detecção de emoções apesar de rótulos de dados bagunçados.
― 5 min ler
Índice
O Reconhecimento de Expressões Faciais (FER) é uma tecnologia que busca identificar emoções humanas através das expressões faciais. Essa tecnologia tem várias aplicações, como monitorar a fadiga de motoristas, avaliar a saúde mental, melhorar o aprendizado online e aprimorar as interações com robôs e assistentes virtuais. No entanto, o FER enfrenta desafios, principalmente por conta de rótulos imprecisos nos conjuntos de dados usados para treinamento. Essas imprecisões são chamadas de anotações ruidosas.
O Problema das Anotações Ruidosas
As anotações ruidosas acontecem por várias razões, incluindo preconceitos pessoais de quem rotula os dados e a qualidade das imagens em si. Por causa desses fatores, muitos conjuntos de dados contêm amostras rotuladas incorretamente. Quando um modelo de aprendizado é treinado em conjuntos de dados ruidosos, ele pode focar em características erradas ou enganosas, levando a um desempenho ruim.
Soluções Atuais
Recentemente, várias abordagens tentaram resolver esse problema selecionando amostras que são mais limpas ou menos ruidosas. Esses métodos geralmente envolvem escolher amostras com baixa perda durante o treinamento. No entanto, essa abordagem muitas vezes ignora amostras mais desafiadoras que poderiam melhorar a capacidade do modelo de generalizar de forma eficaz.
Além disso, alguns métodos precisam de conhecimento prévio da taxa de ruído no conjunto de dados, que muitas vezes não está disponível em situações do mundo real. Eles também tendem a usar múltiplas redes para treinamento, tornando o processo mais complicado e exigente em termos de recursos.
Abordagem Proposta
O método proposto usa uma nova abordagem empregando um limiar adaptativo dinâmico para distinguir entre amostras que o modelo pode aprender com confiança e aquelas que não pode. Em vez de descartar amostras incertas, o método analisa as classes negativas dentro dessas amostras para guiar o processo de aprendizado do modelo.
Ao aprender quais classes uma amostra não pertence, o modelo pode melhorar sua compreensão de qual classe realmente pertence. Isso é especialmente útil, já que os conjuntos de dados de FER geralmente contêm cerca de 7 a 8 classes de emoção, o que significa que até mesmo um palpite aleatório pode ser correto cerca de 85% das vezes.
Experimento e Resultados
Para testar esse método, um modelo conhecido como ResNet-18 foi treinado em conjuntos de dados com diferentes níveis de rótulos ruidosos sintéticos. Comparações foram feitas com modelos de referência que usavam apenas amostras confiantes ou utilizavam métodos de aprendizado mais tradicionais.
Os resultados mostraram que a estrutura proposta superou os modelos de referência, alcançando melhor precisão no reconhecimento das expressões faciais. As melhorias variaram bastante, dependendo dos níveis de ruído presentes nos conjuntos de dados. Isso demonstra a eficácia de aprender tanto com amostras confiantes quanto não confiantes.
Insights Visuais das Previsões do Modelo
As previsões foram analisadas através de várias imagens, mostrando quão bem o modelo conseguiu reconhecer emoções sob diferentes aumentações. Uma análise de imagens levemente e fortemente aumentadas destacou a capacidade do modelo de permanecer consistente em suas previsões, mesmo quando enfrentava diferentes níveis de dificuldade.
Matrizes de Confusão, que mostram as classificações erradas, ilustraram que enquanto algumas expressões eram mais fáceis de prever do que outras, o modelo aprendeu consistentemente a identificar características relevantes para várias emoções. Isso é crucial para refinar a precisão do modelo em aplicações do mundo real.
Desafios no Campo
Apesar dos avanços, os sistemas de FER ainda enfrentam problemas relacionados à qualidade das imagens, discrepâncias nas anotações e variações nas emoções humanas. Mesmo com conjuntos de dados controlados, fatores externos como iluminação, ângulos e obstruções podem prejudicar as previsões.
Muitos modelos atuais também lidam com o problema do desequilíbrio de classes, onde algumas emoções podem ter significativamente mais dados de treinamento do que outras. Esse desequilíbrio pode distorcer o desempenho dos modelos, fazendo com que eles favoreçam as classes mais comuns.
Direções Futuras
Para frente, há uma necessidade de simplificar os sistemas de reconhecimento de expressões faciais, enquanto ainda mantêm sua eficácia. Pesquisas futuras podem se concentrar em refinar os métodos usados para gerenciamento de ruído e melhorar como os modelos aprendem com diferentes entradas de dados. Além disso, integrar feedback de aplicações do mundo real poderia ajudar a ajustar os modelos para um desempenho melhor.
Conclusão
O reconhecimento de expressões faciais é um campo valioso com muitas aplicações práticas, mas enfrenta desafios principalmente devido a rótulos ruidosos nos conjuntos de dados. O método proposto oferece uma abordagem promissora para abordar esses problemas, combinando amostras confiantes e não confiantes no processo de aprendizado. À medida que a tecnologia continua a se desenvolver, ela tem o potencial de revolucionar a forma como as máquinas interpretam as emoções humanas.
Título: Class adaptive threshold and negative class guided noisy annotation robust Facial Expression Recognition
Resumo: The hindering problem in facial expression recognition (FER) is the presence of inaccurate annotations referred to as noisy annotations in the datasets. These noisy annotations are present in the datasets inherently because the labeling is subjective to the annotator, clarity of the image, etc. Recent works use sample selection methods to solve this noisy annotation problem in FER. In our work, we use a dynamic adaptive threshold to separate confident samples from non-confident ones so that our learning won't be hampered due to non-confident samples. Instead of discarding the non-confident samples, we impose consistency in the negative classes of those non-confident samples to guide the model to learn better in the positive class. Since FER datasets usually come with 7 or 8 classes, we can correctly guess a negative class by 85% probability even by choosing randomly. By learning "which class a sample doesn't belong to", the model can learn "which class it belongs to" in a better manner. We demonstrate proposed framework's effectiveness using quantitative as well as qualitative results. Our method performs better than the baseline by a margin of 4% to 28% on RAFDB and 3.3% to 31.4% on FERPlus for various levels of synthetic noisy labels in the aforementioned datasets.
Autores: Darshan Gera, Badveeti Naveen Siva Kumar, Bobbili Veerendra Raj Kumar, S Balasubramanian
Última atualização: 2023-05-03 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.01884
Fonte PDF: https://arxiv.org/pdf/2305.01884
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.