Uma Nova Abordagem para Detectar Trojans de Hardware
Apresentando uma ferramenta versátil que usa aprendizado por reforço para melhorar a detecção de Trojan de hardware.
― 7 min ler
Índice
- O Problema com os Métodos de Detecção Atuais
- Os Fundamentos do Aprendizado por Reforço
- Como a Ferramenta de Detecção Funciona
- Comparação Justa dos Métodos de Detecção
- Testando Nossa Nova Ferramenta
- Principais Descobertas
- Importância das Ferramentas de Detecção Multicritério
- Conclusão
- Fonte original
- Ligações de referência
Hardware Trojans (HTs) são mudanças indesejadas no design ou fabricação de chips de computador. Essas mudanças podem prejudicar a segurança e o desempenho dos chips. HTs podem ser adicionados com base em diferentes critérios, como quão ativas são determinadas conexões, quão fáceis de observar e quão facilmente podem ser controladas. No entanto, a maioria dos métodos atuais para encontrar HTs foca apenas em um aspecto, geralmente a atividade das conexões.
Esse artigo propõe uma nova forma de detectar HTs usando um método chamado Aprendizado por Reforço (RL). Esse método nos permite considerar múltiplos critérios para detectar HTs. A nova ferramenta pode se adaptar a vários cenários de detecção com pouco esforço, tornando-a mais versátil. Além disso, introduzimos uma maneira justa de comparar diferentes Métodos de Detecção de HTs.
O Problema com os Métodos de Detecção Atuais
Muitas técnicas de detecção atuais têm problemas. Primeiro, elas focam principalmente em um aspect, como a atividade das conexões. Acreditamos que essa abordagem pode deixar passar situações do mundo real onde atacantes podem inserir HTs com base em vários fatores. Em segundo lugar, os benchmarks disponíveis para testar métodos de detecção de HTs carecem de variedade e tamanho. A maioria desses benchmarks são criados por pessoas, tornando-os tendenciosos.
Nosso objetivo é melhorar os métodos de detecção de HT criando uma ferramenta que considere várias estratégias, em vez de apenas depender da perspectiva de um único designer. Nossa ferramenta usa RL para se adaptar a diferentes métodos de inserção de HTs de forma eficaz.
Os Fundamentos do Aprendizado por Reforço
Na nossa abordagem, o agente de RL atua como um engenheiro de segurança, tentando verificar se um chip está limpo ou se tem um HT. O agente interage com o design mudando os valores de entrada para ver como as conexões internas reagem. As ações ou decisões do agente são baseadas no estado atual do chip, onde cada conexão pode estar em dois estados: ativa ou não.
O agente de RL também tentará descobrir quais conexões não são frequentemente usadas, conhecidas como rare nets. Ao focar nessas rare nets, o agente busca encontrar HTs que podem estar escondidos dentro do chip.
Como a Ferramenta de Detecção Funciona
Espaços de Estado e Ação
O estado do agente de RL é determinado pelo conjunto de rare nets coletados durante os testes. Cada rare net tem seu próprio identificador, permitindo que o agente acompanhe quais nets foram ativadas. O agente realiza ações mudando os valores de entrada, o que o ajuda a observar o estado do chip após cada mudança.
Funções de Recompensa
O principal objetivo do agente é ativar o maior número possível de gatilhos de HT. Para incentivar o agente, criamos uma função de recompensa que dá pontos por ativar rare nets. No entanto, também queremos evitar contagens excessivas quando várias rare nets dependem umas das outras. Fazemos isso recompensando apenas a ativação da rare net mais rara em uma sequência.
Propondo três funções de recompensa diferentes para guiar o aprendizado do agente:
- A primeira função incentiva o agente a gerar novos estados, recompensando-o por ativar nets que não foram ativadas anteriormente.
- A segunda função recompensa o agente com base na dificuldade de ativar uma rare net. Quanto mais difícil for ativar uma net, maior a recompensa.
- A terceira função foca na controlabilidade das rare nets, recompensando o agente conforme sua capacidade de mudar o estado dessas nets.
Comparação Justa dos Métodos de Detecção
Também introduzimos uma nova abordagem que permite comparações justas entre diferentes ferramentas de detecção de HT. Desenvolvemos uma Métrica de Confiança que leva em conta a precisão de cada método de detecção. Essa métrica permite que engenheiros de segurança entendam quão bem uma ferramenta se sai com base nos resultados de seus testes.
A métrica de confiança considera várias situações em que uma ferramenta pode classificar incorretamente um circuito. Por exemplo, se uma ferramenta identifica erroneamente um circuito limpo como infectado, isso é considerado um falso positivo, e se classifica um circuito infectado como limpo, é conhecido como falso negativo. O objetivo é minimizar esses erros e fornecer uma visão mais clara da eficácia de uma ferramenta.
Testando Nossa Nova Ferramenta
Criamos nossa ferramenta de detecção de HT usando uma linguagem de programação chamada Python. O agente de RL passou por treinamento usando um método conhecido como otimização de política proximal, onde o agente aprendeu com suas experiências ao longo de uma série de sessões de teste. Usamos seis circuitos de um conjunto de benchmarks estabelecidos para avaliar o desempenho da nossa ferramenta.
Para acelerar o treinamento, construímos estruturas de dados eficientes que permitiram ao agente aprender mais rápido. Essa redução no tempo de processamento tornou possível treinar o agente de maneira eficaz, mesmo ao trabalhar com circuitos maiores.
Nossos testes mostraram que nossa ferramenta de detecção de HT multiclasse teve um bom desempenho. Os resultados indicaram altas taxas de detecção para vários tipos de HTs. Descobrimos que nossas diferentes funções de recompensa levaram a uma eficácia variada na detecção de HTs, com uma função se destacando na maioria dos casos.
Principais Descobertas
Através dos nossos experimentos, descobrimos que nossa abordagem para detecção de HTs traz resultados promissores. Embora algumas funções de recompensa tenham se mostrado mais eficazes em cenários específicos, no geral, nossa ferramenta demonstrou sua capacidade de identificar HTs de forma eficaz.
Além disso, nossa métrica de confiança forneceu insights valiosos para os engenheiros de segurança. Analisando os resultados dos cenários de detecção, os engenheiros podiam ver quais métodos funcionavam melhor e determinar a confiabilidade das ferramentas utilizadas.
Importância das Ferramentas de Detecção Multicritério
Essa pesquisa destaca a necessidade de métodos de detecção que considerem múltiplos critérios ao identificar HTs. Ao utilizar uma abordagem mais abrangente, podemos criar ferramentas que não só são mais eficazes, mas também mais adequadas para lidar com os desafios do mundo real em segurança de chips.
À medida que mais microeletrônicos são produzidos por diferentes empresas em todo o mundo, os riscos de ataques de inserção de HTs continuam a crescer. Desenvolver ferramentas que possam se adaptar a vários cenários e fornecer resultados confiáveis é essencial para garantir a integridade da nossa tecnologia.
Conclusão
Resumindo, nosso trabalho introduz uma nova ferramenta baseada em RL para detectar hardware Trojans. Essa ferramenta usa várias funções de recompensa para capturar diferentes estratégias de detecção, oferecendo uma melhoria significativa em relação aos métodos atuais que geralmente focam em um único aspecto.
Também fornecemos um método justo para comparar diferentes ferramentas de detecção de HT, permitindo que engenheiros de segurança tomem decisões informadas sobre quais métodos usar em seu trabalho. Nossas descobertas sugerem que a ferramenta proposta tem grande potencial para melhorar as capacidades de detecção de HTs.
À medida que o cenário de segurança de chips evolui, nossa abordagem de detecção multicritério representa um passo valioso para proteger circuitos digitais contra ameaças ocultas.
Título: Multi-criteria Hardware Trojan Detection: A Reinforcement Learning Approach
Resumo: Hardware Trojans (HTs) are undesired design or manufacturing modifications that can severely alter the security and functionality of digital integrated circuits. HTs can be inserted according to various design criteria, e.g., nets switching activity, observability, controllability, etc. However, to our knowledge, most HT detection methods are only based on a single criterion, i.e., nets switching activity. This paper proposes a multi-criteria reinforcement learning (RL) HT detection tool that features a tunable reward function for different HT detection scenarios. The tool allows for exploring existing detection strategies and can adapt new detection scenarios with minimal effort. We also propose a generic methodology for comparing HT detection methods fairly. Our preliminary results show an average of 84.2% successful HT detection in ISCAS-85 benchmark
Autores: Amin Sarihi, Peter Jamieson, Ahmad Patooghy, Abdel-Hameed A. Badawy
Última atualização: 2023-04-25 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.13232
Fonte PDF: https://arxiv.org/pdf/2304.13232
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.