Avanços em Aprendizado Zero-Shot para Sensoriamento IoT
Uma nova abordagem melhora o aprendizado zero-shot para uma classificação de dados IoT mais eficaz.
― 9 min ler
Índice
- Visão Geral do Problema
- Zero-Shot Learning
- Modelos de Base
- Abordagem Proposta
- Implementação do Método
- Extração de Protótipos de Classe
- Extração de Embeddings IoT
- Treinamento do Modelo
- Detecção em Conjunto Aberto
- Classificação Zero-Shot
- Avaliação e Resultados
- Discussão
- Conclusão
- Fonte original
- Ligações de referência
Nos últimos anos, o deep learning deu grandes passos em várias áreas, incluindo a Internet das Coisas (IoT). Dispositivos IoT estão em todo lugar, coletando dados por meio de vários sensores. Esses dispositivos podem nos ajudar a entender e analisar nosso entorno em tempo real. No entanto, os modelos tradicionais de deep learning têm limitações, especialmente quando se trata de reconhecer novos tipos de dados que eles nunca viram antes. Isso é um desafio, especialmente ao trabalhar com dados de dispositivos IoT, onde o número de diferentes classes pode ser bem limitado.
Uma solução para esse desafio é um método chamado Zero-shot Learning (ZSL). O ZSL permite que modelos façam previsões sobre novas classes com base em informações aprendidas anteriormente. Isso é feito utilizando informações semânticas, que são dados que descrevem as características das classes. Ao fazer isso, podemos classificar dados de classes não vistas sem precisar treinar o modelo nessas classes específicas.
Além disso, os modelos de base (FMs) são grandes modelos de deep learning treinados em conjuntos de dados diversos, que mostraram habilidades notáveis em várias tarefas. Esses modelos podem gerar informações úteis que podem ser aplicadas em diferentes campos, incluindo processamento de linguagem natural e reconhecimento de imagem. No entanto, sua aplicação no âmbito da detecção IoT com sinais específicos como mmWave, IMU e Wi-Fi não foi totalmente explorada.
Visão Geral do Problema
O desafio fundamental na detecção IoT é que modelos treinados sob configurações tradicionais muitas vezes têm dificuldade quando confrontados com dados de classes que nunca viram antes. Para melhorar o desempenho dos dispositivos IoT nessas situações, precisamos de um método que possa utilizar efetivamente os dados disponíveis e tirar conclusões significativas a partir deles. Abordagens tradicionais de machine learning geralmente exigem grandes quantidades de dados rotulados para funcionar corretamente e podem ter dificuldades com dados limitados, o que é comum em aplicações IoT.
Isso nos leva ao ZSL. O ZSL pode permitir que dispositivos IoT identifiquem e classifiquem dados dessas novas classes com a ajuda de informações semânticas. No entanto, abordagens passadas confiaram em métodos manuais que são trabalhosos e difíceis de escalar para conjuntos de dados mais complexos.
Zero-Shot Learning
O zero-shot learning visa classificar dados de classes novas usando o conhecimento adquirido a partir de classes conhecidas. Métodos tradicionais de ZSL normalmente se concentram em reconhecer apenas classes não vistas, o que pode ser limitador. Uma abordagem aprimorada, conhecida como generalized zero-shot learning (GZSL), busca identificar simultaneamente classes vistas e não vistas.
Os métodos GZSL podem ser divididos em duas categorias principais: métodos baseados em embedding e métodos baseados em geração. Os métodos baseados em embedding criam uma função que conecta características dos dados a espaços semânticos. O objetivo é conectar os embeddings de dados da mesma classe e aproximá-los de seus rótulos correspondentes no espaço semântico. Esse método geralmente é simples, mas pode ser tendencioso em relação às classes vistas devido à falta de dados para as classes não vistas durante o treinamento.
Por outro lado, abordagens baseadas em geração treinam modelos para criar características sintéticas de classes não vistas com base nas características de classes vistas. Embora esses métodos ajudem a aliviar o viés, fornecendo alguns dados de classes não vistas, eles costumam ser menos estáveis e podem enfrentar problemas durante o treinamento.
Modelos de Base
Modelos de base são sistemas de deep learning em grande escala treinados com enormes volumes de dados. Esses modelos mostraram sucessos significativos em várias tarefas. Por exemplo, eles podem ser usados para chatbots, reconhecimento de imagens, geração de código, tradução de idiomas e mais. A versatilidade desses modelos permite que eles lidem de forma eficaz com uma ampla gama de tipos de dados.
Recentemente, esses modelos de base têm sido usados para criar conexões entre vários tipos de dados, como áudio, texto e imagens. Ao aprender com conjuntos de dados diversos, esses modelos podem gerar embeddings que são úteis para diferentes aplicações, incluindo tarefas de detecção IoT.
Abordagem Proposta
Para enfrentar os desafios na detecção IoT de zero-shot, propomos um método que alinha os embeddings de dados IoT com embeddings semânticos derivados do encoder de texto de um modelo de base. Nossa abordagem consiste em várias etapas voltadas para aprimorar o desempenho da detecção IoT.
Primeiro, aplicamos engenharia de prompts para criar protótipos de classes eficazes. Usamos uma combinação de soft prompts, que são vetores que podem ser aprendidos e se adaptam aos dados, juntamente com hard prompts, que utilizam conhecimento específico da área. Essa combinação ajuda a criar embeddings semânticos robustos necessários para classificar dados não vistos.
Utilizamos técnicas de atenção cruzada para mesclar esses dois tipos de prompts. Esse método nos permite aproveitar as forças de ambos os prompts, gerando uma compreensão abrangente de cada classe.
Segundo, para abordar o viés nos embeddings IoT, implementamos Aumento de Dados para gerar dados sintéticos para classes não vistas. Isso ajuda a garantir que nossos modelos não dependam excessivamente das classes vistas e possam generalizar efetivamente para novos dados.
Terceiro, avaliamos nosso método proposto em vários conjuntos de dados IoT, usando diversas métricas de desempenho para avaliar quão bem ele realiza a detecção em conjunto aberto e o zero-shot learning.
Implementação do Método
Nosso método envolve vários módulos-chave para alcançar a detecção IoT efetiva de zero-shot:
Extração de Protótipos de Classe
Usamos o encoder de texto de um modelo de base para extrair protótipos de classe das descrições de texto fornecidas. Esses protótipos capturam características essenciais de cada classe, ajudando a determinar como classificar os dados que chegam.
Além disso, criamos prompts para as classes com base tanto em técnicas de soft quanto de hard prompts. O soft prompt é aprendível e se ajusta durante o treinamento do modelo, enquanto o hard prompt integra conhecimento da área nos protótipos de classe.
Extração de Embeddings IoT
Cada amostra de dado IoT que chega é processada usando um extrator de características. Isso pode envolver arquiteturas bem conhecidas, como redes neurais convolucionais (CNNs) ou transformers, dependendo do tipo de dado IoT que está sendo analisado. As características extraídas são então projetadas em espaços semânticos para criar embeddings IoT.
Treinamento do Modelo
Treinamos nosso modelo usando uma estratégia de aprendizado contrastivo supervisionado. Essa abordagem permite que o modelo aprenda a diferenciar entre amostras de dados semelhantes e diferentes. Funciona reunindo embeddings de pares positivos enquanto separa os embeddings de pares negativos.
Durante o treinamento do modelo, também sintetizamos dados de classes não vistas usando modelos generativos. Isso garante que nossos embeddings IoT sejam robustos e menos tendenciosos em relação às classes vistas.
Detecção em Conjunto Aberto
A detecção em conjunto aberto identifica se as amostras que chegam pertencem a classes conhecidas ou desconhecidas. Calculamos as distâncias entre os embeddings IoT das amostras e os clusters formados pelos embeddings das classes vistas. Com base nessas distâncias, podemos classificar as amostras como vistas ou não vistas.
Classificação Zero-Shot
Para amostras identificadas como não vistas, as enviamos para o modelo de base em nuvem para classificação. O modelo calcula pontuações de similaridade entre os embeddings IoT e os protótipos de classe para atribuir o rótulo mais apropriado aos dados não vistos.
Avaliação e Resultados
Avaliar nosso método em múltiplos conjuntos de dados, que incluíram dados de IMU, mmWave e Wi-Fi. Essa avaliação envolveu testar nossa abordagem contra várias referências para medir sua eficácia tanto na detecção em conjunto aberto quanto no zero-shot learning.
Em termos de detecção em conjunto aberto, nosso método superou abordagens anteriores. Os resultados mostraram que a combinação de aprendizado contrastivo supervisionado e aumento de dados ajudou a criar embeddings IoT melhor definidos, o que permitiu a identificação aprimorada de classes não vistas.
Para a classificação zero-shot, nosso método também mostrou desempenho superior. Ao usar modelos de base para melhorar os embeddings semânticos, conseguimos maior precisão no reconhecimento tanto de classes vistas quanto não vistas.
Discussão
Nossa exploração do uso de modelos de base para a detecção IoT zero-shot revelou inúmeras oportunidades de melhoria em como classificamos e analisamos dados de dispositivos IoT. A combinação de engenharia de prompts eficaz e aumento de dados nos permitiu criar um sistema que é tanto flexível quanto robusto contra os desafios de dados rotulados limitados.
Em trabalhos futuros, planejamos explorar o potencial de integrar modalidades adicionais e adaptar nossa abordagem a uma gama mais ampla de sensores e aplicações IoT. Também planejamos investigar a explicabilidade do nosso método, o que forneceria insights sobre como o modelo faz suas classificações. Entender esses processos pode ajudar a melhorar a confiança do usuário nos sistemas de machine learning, especialmente em aplicações críticas como saúde e segurança.
Conclusão
Em resumo, nosso trabalho se concentrou em melhorar a detecção IoT zero-shot por meio do uso inovador de modelos de base e técnicas de aprendizado avançadas. Ao aproveitar o conhecimento generalizado codificado em modelos de base, desenvolvemos um método que efetivamente faz a ponte entre os dados IoT e a compreensão semântica. Nossos resultados indicam que podemos alcançar melhorias significativas na detecção e classificação de classes não vistas, levando a soluções de detecção IoT mais eficazes e confiáveis.
Título: Leveraging Foundation Models for Zero-Shot IoT Sensing
Resumo: Deep learning models are increasingly deployed on edge Internet of Things (IoT) devices. However, these models typically operate under supervised conditions and fail to recognize unseen classes different from training. To address this, zero-shot learning (ZSL) aims to classify data of unseen classes with the help of semantic information. Foundation models (FMs) trained on web-scale data have shown impressive ZSL capability in natural language processing and visual understanding. However, leveraging FMs' generalized knowledge for zero-shot IoT sensing using signals such as mmWave, IMU, and Wi-Fi has not been fully investigated. In this work, we align the IoT data embeddings with the semantic embeddings generated by an FM's text encoder for zero-shot IoT sensing. To utilize the physics principles governing the generation of IoT sensor signals to derive more effective prompts for semantic embedding extraction, we propose to use cross-attention to combine a learnable soft prompt that is optimized automatically on training data and an auxiliary hard prompt that encodes domain knowledge of the IoT sensing task. To address the problem of IoT embeddings biasing to seen classes due to the lack of unseen class data during training, we propose using data augmentation to synthesize unseen class IoT data for fine-tuning the IoT feature extractor and embedding projector. We evaluate our approach on multiple IoT sensing tasks. Results show that our approach achieves superior open-set detection and generalized zero-shot learning performance compared with various baselines. Our code is available at https://github.com/schrodingho/FM\_ZSL\_IoT.
Autores: Dinghao Xue, Xiaoran Fan, Tao Chen, Guohao Lan, Qun Song
Última atualização: 2024-07-29 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.19893
Fonte PDF: https://arxiv.org/pdf/2407.19893
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.