Simple Science

Ciência de ponta explicada de forma simples

# Informática# Criptografia e segurança

Detectando Sites de Phishing com ChatGPT

Um novo método usando o ChatGPT pra identificar sites de phishing.

― 11 min ler


ChatGPT para Detecção deChatGPT para Detecção dePhishingsites de phishing de forma eficaz.Um método usando IA pra identificar
Índice

Modelos de linguagem grandes (LLMs) como o GPT-3 e o GPT-4 mudaram a forma como lidamos com várias tarefas em processamento de linguagem natural e inteligência artificial. Esses modelos são populares por serem eficazes em realizar diversas tarefas. O ChatGPT, em particular, mostrou um desempenho incrível ao gerar respostas claras e relevantes em conversas.

No entanto, enquanto muita pesquisa foi feita sobre como os LLMs podem ajudar na criação de código e geração de conteúdo, pouco foi feito para usá-los na análise e detecção de sites prejudiciais, especialmente sites de phishing. Sites de phishing enganam os usuários fazendo-os acreditar que estão visitando sites legítimos para roubar informações sensíveis ou dinheiro.

Para enfrentar a crescente ameaça desses ataques de phishing, a detecção automática de conteúdo da web prejudicial é essencial. Isso significa encontrar maneiras de usar os LLMs para analisar e categorizar sites de phishing.

Nossa Abordagem

Neste estudo, apresentamos um novo método que usa o ChatGPT para identificar sites de phishing. Nosso método envolve usar um rastreador da web para coletar informações sobre sites e criar prompts baseados nesses dados. Esses prompts são enviados ao ChatGPT, que decide se um site é um site de phishing ou não.

Ao combinar o rastreamento da web com a compreensão de contexto do ChatGPT, conseguimos tomar decisões melhores sobre a legitimidade de um site. Com o ChatGPT, podemos (1) encontrar vários sites de phishing sem precisar treinar novos modelos de aprendizagem de máquina e (2) reconhecer táticas de Engenharia Social com base no contexto de sites e URLs inteiros.

Este é o primeiro estudo que investiga a capacidade dos LLMs de identificar sites de phishing.

Avaliação do Método

Para avaliar a eficácia do nosso método, testamos usando um conjunto de dados cuidadosamente selecionado para detecção de sites de phishing. Os resultados usando o GPT-4 mostraram resultados animadores, com uma precisão de 98,3% e uma taxa de recuperação de 98,4%.

Também comparamos o GPT-3.5 e o GPT-4 e descobrimos que o GPT-4 tinha uma vantagem significativa. Ele reduziu o número de identificações incorretas (falsos negativos) e avaliou melhor se os nomes de domínio pareciam suspeitos ou se técnicas de engenharia social eram usadas no conteúdo.

Esses resultados mostram como os LLMs podem detectar efetivamente sites de phishing e reconhecer táticas usadas para manipular psicologicamente os usuários, sugerindo melhorias para medidas automatizadas de cibersegurança.

Visão Geral dos Sites de Phishing

Sites de phishing são sites enganadores que visam roubar informações pessoais, dinheiro ou infectar dispositivos com malware, enganando os usuários. Eles usam e-mails, mensagens e anúncios para atrair os usuários a esses sites prejudiciais.

Duas características principais dos sites de phishing são:

  1. Imitar nomes de domínio e usar logotipos oficiais para convencer os usuários de que estão visitando serviços legítimos.
  2. Usar técnicas de engenharia social para manipular os usuários a entregar informações sensíveis.

Ao fingir ser serviços legítimos, os sites de phishing ganham a confiança dos usuários. Eles muitas vezes imitam sites reais como bancos, plataformas de comércio eletrônico e redes sociais. Podem criar um senso de urgência ou medo, mostrando avisos falsos de malware ou oferecendo recompensas falsas para atrair usuários a revelar informações pessoais.

Vários estudos exploraram as técnicas e características do phishing. Pesquisadores examinaram o design e o conteúdo desses sites, identificando padrões e estratégias comuns para detectá-los. Este trabalho melhora as práticas de segurança, educa os usuários sobre os riscos e desenvolve maneiras eficazes de combater a fraude online.

Apesar dos métodos existentes para reconhecer sites de phishing, permanecem dois desafios principais:

  1. A necessidade de aprender marcas específicas e ajustar algoritmos para cada novo site de phishing.
  2. A dificuldade de analisar as estratégias de engenharia social em detalhes.

Embora alguns estudos tenham se concentrado em usar palavras-chave ou aprendizado profundo para análise, não houve esforços para entender automaticamente as diferentes táticas psicológicas usadas em sites inteiros.

Propomos usar o ChatGPT para analisar o conteúdo dos sites e suas URLs, aproveitando ao máximo suas capacidades ricas em contexto. Este método visa resolver os dois desafios encontrados em estudos anteriores.

Como Nosso Método Funciona

Nosso método começa com um rastreador da web que acessa URLs dadas e recupera informações dos sites visitados. Essas informações incluem imagens, código HTML e conteúdo de texto. Em seguida, geramos prompts para entrada no ChatGPT, que determina se um site é de phishing ou não.

Rastreio da Web

Criamos um rastreador da web que automatiza o processo de visitar sites e coletar dados. Dada uma URL de entrada, esse rastreador recupera a página de destino final (após redirecionamentos), o HTML após a execução do JavaScript e tira uma captura de tela da página.

Coletar HTML após a execução do JavaScript é crucial porque alguns sites de phishing usam JavaScript complexo para esconder sua verdadeira estrutura. Sem essa etapa, pode ser difícil identificar sinais de phishing.

O rastreador da web imita dois ambientes diferentes: Windows com Chrome e iPhone com Safari. Esta configuração inclui ajustes no User-Agent e tamanho do navegador para cada ambiente.

Analisando URL e HTML

Para determinar se um site é um site de phishing, precisamos seguir tarefas específicas:

  1. Analisar o HTML e o texto quanto a táticas comuns de phishing. Identificar elementos suspeitos no HTML, URL ou texto.
  2. Identificar o nome da marca. Se o HTML parecer semelhante a uma página real, verificar se a URL corresponde à marca legítima.
  3. Compartilhar uma conclusão sobre se o site é phishing ou não, junto com a justificativa. Se não estiver claro, declarar "desconhecido".
  4. Retornar os achados em um formato específico que inclua uma pontuação de phishing, marca identificada e classificação.

Gerando Prompts para Detecção

Criamos prompts para fornecer ao ChatGPT informações sobre o site, permitindo que ele determine se o site é phishing. Nosso modelo de prompt é baseado em uma técnica que incentiva o modelo a explicar seu raciocínio, o que melhora seu desempenho para várias tarefas.

O processo de detecção é dividido em quatro partes:

  1. Identificar se o site usa táticas de engenharia social que enganam os usuários.
  2. Extrair o nome da marca. Sites de phishing costumam copiar conteúdo, dificultando a avaliação de sua autenticidade com base apenas no HTML.
  3. Concluir se o site é phishing ou não, dando uma justificativa detalhada para ajudar humanos a analisar as respostas.
  4. Retornar a saída em um formato específico. Se táticas de engenharia social forem identificadas, marcar a resposta como phishing. Se o nome da marca for conhecido, mas não corresponder ao nome do domínio, marcar como suspeito.

O prompt inclui informações do site como HTML, URLs e texto de capturas de tela. Alguns sites de phishing escondem informações de marca em imagens ou outros elementos, dificultando a extração usando análise HTML padrão.

Simplificando Dados para o GPT

Alguns sites podem exceder o limite de tokens do ChatGPT. Tokens são unidades de texto que o modelo processa. Por exemplo, o GPT-3.5 tem um limite de 4.096 tokens, enquanto o GPT-4 pode lidar com até 32.000 tokens.

Em nossa pesquisa, simplificamos os dados HTML e de texto para caber nos limites de tokens. Essa simplificação ajuda a manter as informações importantes necessárias para a detecção de phishing.

Coleta de Conjunto de Dados

Para nossos experimentos, precisávamos de um conjunto de dados balanceado contendo 1.000 sites de phishing e 1.000 sites não phishing. Coletamos esses sites rastreando fontes conhecidas de inteligência de phishing e fontes legítimas como sites populares.

Durante a coleta de dados, removemos sites com conteúdo adulto ou que se assemelhavam demais a sites legítimos. Esta etapa garante a integridade de nosso conjunto de dados. Também excluímos sites que não tinham renderização adequada.

Nosso conjunto de dados de phishing inclui vários sites direcionados a diferentes marcas. No total, identificamos 147 marcas alvo de páginas de phishing.

Para os sites não phishing, coletamos de maneira semelhante sites respeitáveis, garantindo uma mistura uniforme para permitir uma comparação precisa durante os testes.

Testando o Método

Para avaliar quão bem nosso método funciona, realizamos experimentos usando a API do Azure OpenAI com nosso conjunto de dados. Usamos os modelos GPT-4 e GPT-3.5.

Durante os testes, definimos uma resposta de phishing com base em valores que indicam domínios suspeitos ou de phishing. Apesar de algumas variações nos resultados, conseguimos classificar as respostas para análise posterior.

Os resultados mostraram que o GPT-4 foi notavelmente melhor em identificar sites de phishing reais em comparação ao GPT-3.5, com menos falsos negativos.

Resultados dos Experimentos

Visão Geral dos Resultados

Nossos experimentos resultaram em uma impressionante precisão de 98,3% e uma taxa de recuperação de 98,4% para detecção de phishing usando o GPT-4. A comparação com o GPT-3.5 revelou que, enquanto ambos os modelos apresentaram bom desempenho, o GPT-4 superou seu predecessor de forma significativa.

Por exemplo, o GPT-4 reduziu falsos negativos de forma eficaz enquanto mantinha uma taxa comparável de falsos positivos. Esse desempenho indica uma melhoria no reconhecimento de quando um site é phishing ou não, especialmente para sites que usam técnicas de engenharia social.

Evidências Usadas pelo GPT

Identificamos vários tipos de evidências que o GPT-4 usou para categorizar sites de phishing com sucesso. Estas incluíam:

  1. Legitimidade do Nome de Domínio: O modelo reconheceu com eficácia quando um site fingia ser legítimo, mas usava um nome de domínio falso.
  2. Alertas de Segurança Falsos: Conseguia apontar alertas falsos de malware projetados para assustar os usuários e fazê-los agir.
  3. Problemas de Conta: Sites que alegavam problemas com as contas dos usuários muitas vezes indicavam tentativas de phishing.
  4. Solicitações Urgentes de Pagamento: Muitos sites de phishing tentam criar um senso de urgência para que os usuários forneçam informações de pagamento rapidamente.
  5. Recompensas Falsas: Ofertas de recompensas inesperadas são uma tática comum para atrair usuários.
  6. Solicitações de Verificação via SMS: Algumas tentativas de phishing visam coletar códigos de SMS dos usuários sob o pretexto de verificação.
  7. Mensagens de Login Falsas: Mensagens enganosas sobre detalhes de login incorretos também podem ser indicadores de sites de phishing.

Desafios Enfrentados

Embora o GPT-4 tenha se saído bem, ainda houve desafios. Por exemplo, alguns sites legítimos foram classificados erroneamente como phishing devido ao uso de elementos semelhantes ou seus nomes de domínio serem menos reconhecíveis. Além disso, alguns sites de phishing não foram sinalizados corretamente, indicando que há espaço para melhorias.

Conclusão

Neste estudo, propusemos um novo método para detectar sites de phishing usando o ChatGPT, combinando técnicas de rastreamento da web com a compreensão contextual do modelo. Nossos achados mostraram uma precisão substancial na identificação de sites de phishing e nas táticas de engenharia social que eles empregam.

Os resultados dos experimentos mostraram que o GPT-4 melhorou significativamente em relação ao GPT-3.5, especialmente na minimização de falsos negativos e na identificação precisa de sites de phishing.

Esses achados são significativos para melhorar as medidas automatizadas que protegem os usuários contra fraudes online. A pesquisa sugere novos caminhos para a aplicação de LLMs em diferentes aspectos da cibersegurança, potencialmente melhorando a identificação e análise de conteúdo web prejudicial no futuro.

Ao focar tanto nos aspectos técnicos quanto nos truques psicológicos usados pelos sites de phishing, podemos nos equipar melhor para lidar com essas ameaças contínuas na internet.

Fonte original

Título: Detecting Phishing Sites Using ChatGPT

Resumo: The emergence of Large Language Models (LLMs), including ChatGPT, is having a significant impact on a wide range of fields. While LLMs have been extensively researched for tasks such as code generation and text synthesis, their application in detecting malicious web content, particularly phishing sites, has been largely unexplored. To combat the rising tide of cyber attacks due to the misuse of LLMs, it is important to automate detection by leveraging the advanced capabilities of LLMs. In this paper, we propose a novel system called ChatPhishDetector that utilizes LLMs to detect phishing sites. Our system involves leveraging a web crawler to gather information from websites, generating prompts for LLMs based on the crawled data, and then retrieving the detection results from the responses generated by the LLMs. The system enables us to detect multilingual phishing sites with high accuracy by identifying impersonated brands and social engineering techniques in the context of the entire website, without the need to train machine learning models. To evaluate the performance of our system, we conducted experiments on our own dataset and compared it with baseline systems and several LLMs. The experimental results using GPT-4V demonstrated outstanding performance, with a precision of 98.7% and a recall of 99.6%, outperforming the detection results of other LLMs and existing systems. These findings highlight the potential of LLMs for protecting users from online fraudulent activities and have important implications for enhancing cybersecurity measures.

Autores: Takashi Koide, Naoki Fukushi, Hiroki Nakano, Daiki Chiba

Última atualização: 2024-02-14 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.05816

Fonte PDF: https://arxiv.org/pdf/2306.05816

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes