CrowdCanary: Un Nuevo Enfoque para la Detección de Phishing
CrowdCanary recolecta informes de phishing en tiempo real de Twitter para mejorar los esfuerzos de ciberseguridad.
― 8 minilectura
Tabla de contenidos
- Entendiendo los ataques de phishing
- Enfoques anteriores para la detección de phishing
- Introduciendo CrowdCanary
- Recopilando datos de Twitter
- Clasificando informes
- Evaluando el rendimiento de CrowdCanary
- Comparando informes de expertos y no expertos
- Aplicaciones prácticas de la inteligencia de CrowdCanary
- Limitaciones y direcciones futuras
- Consideraciones éticas
- Conclusión
- Fuente original
- Enlaces de referencia
Los ataques de Phishing son una preocupación creciente. Engañan a los Usuarios haciéndoles creer que están interactuando con sitios web legítimos para robar información sensible como contraseñas y números de tarjetas de crédito. Estos ataques pueden llegar a través de correos electrónicos y mensajes de texto (SMS), y se han vuelto cada vez más comunes en todo el mundo.
Para combatir efectivamente el phishing, es esencial recopilar ejemplos de estos ataques que llegan a los usuarios. Identificar diferentes tipos de ataques de phishing ayuda a mejorar las defensas contra ellos. Un enfoque innovador es recolectar y analizar Informes de redes sociales, específicamente Twitter, donde los usuarios a menudo comparten sus experiencias con intentos de phishing.
Entendiendo los ataques de phishing
Un ataque de phishing es cuando un atacante engaña a alguien para que piense que está visitando un sitio legítimo. Esto a menudo implica correos electrónicos o mensajes que parecen reales pero que llevan a sitios web fraudulentos. Recientemente, el número de estos ataques ha aumentado a nivel global.
El phishing a través de SMS ha ganado popularidad entre los atacantes por sus ventajas únicas. Los mensajes de SMS pueden enviarse usando números de teléfono, que son más fáciles de manejar que las direcciones de correo electrónico. También pueden llegar a los usuarios directamente en sus teléfonos, lo que hace que sean difíciles de ignorar, especialmente porque muchas personas reciben mensajes de empresas conocidas.
Para combatir efectivamente el creciente número de ataques de phishing, necesitamos recopilar una variedad de informes de usuarios que enfrentan estos problemas. Comprender estos informes ayudará a crear mejores defensas contra el phishing.
Enfoques anteriores para la detección de phishing
Muchos estudios han analizado cómo identificar y analizar ataques de phishing. La investigación previa ha ayudado a mejorar los filtros de spam y los sistemas de detección utilizados por servicios de correo electrónico y navegadores web. Sin embargo, los métodos existentes a menudo no logran detener los mensajes de phishing antes de que lleguen a los usuarios.
Esto plantea una pregunta crucial: ¿cómo podemos recopilar información sobre el phishing que ya ha pasado a través de las defensas existentes? Un método prometedor es usar Twitter como fuente de informes en tiempo real de usuarios que encuentran ataques de phishing.
Algunos estudios anteriores han utilizado datos de Twitter para recopilar información sobre ciberataques. Sin embargo, estos a menudo se centraron en informes de expertos en seguridad, limitando la amplitud de la información recopilada. Nuestro objetivo es incluir informes de usuarios comunes también, ya que suelen compartir diferentes perspectivas.
Introduciendo CrowdCanary
Para abordar las limitaciones de la investigación pasada, desarrollamos un sistema llamado CrowdCanary. Este sistema tiene como objetivo recopilar y analizar informes de phishing del mundo real de usuarios de Twitter, incluyendo tanto a expertos como a no expertos.
CrowdCanary funciona escaneando Twitter en busca de publicaciones que mencionen palabras clave relacionadas con phishing. Organiza y extrae información clave, como URL y nombres de dominio, de estos tuits. Al centrarnos en usuarios comunes, podemos obtener una visión más completa de las amenazas de phishing.
Durante una prueba de tres meses, CrowdCanary identificó con éxito más de 35,000 URL únicas de phishing a partir de varios informes. Notablemente, un gran porcentaje de estas fueron detectadas más tarde por software antivirus, mostrando la efectividad de nuestro enfoque.
Recopilando datos de Twitter
Recopilando tuits
El sistema CrowdCanary recopila continuamente tuits usando palabras clave específicas relacionadas con phishing. Usamos dos tipos de palabras clave: palabras clave de seguridad, comúnmente usadas en conversaciones de ciberseguridad, y palabras clave de co-ocurrencia, que están asociadas con temas de tendencia en momentos específicos.
Al actualizar regularmente las palabras clave según las tendencias actuales, CrowdCanary puede capturar una amplia gama de tuits relacionados con phishing. Esta flexibilidad nos permite adaptarnos al paisaje de amenazas que está en constante evolución.
Extrayendo información de phishing
Una vez que CrowdCanary recopila tuits, se enfoca en extraer URLs y nombres de dominio relacionados con phishing. Estos pueden aparecer tanto en el texto de los tuits como en cualquier imagen compartida por los usuarios.
Usando técnicas avanzadas de reconocimiento de imágenes, CrowdCanary puede analizar capturas de pantalla, extrayendo texto e identificando posibles URLs de phishing. También utiliza expresiones regulares para encontrar URLs en los textos de los tuits, incluyendo cualquier formato alterado que los usuarios puedan emplear para evitar la detección.
Validando la información
Es crucial asegurarse de que las URLs y nombres de dominio extraídos están realmente relacionados con phishing. CrowdCanary comprueba el formato de las URLs según estándares establecidos y las compara con sitios legítimos conocidos. Las URLs que han estado registradas por mucho tiempo o pertenecen a dominios reputables son filtradas para enfocarse únicamente en amenazas potenciales.
Clasificando informes
Extracción de características
Para clasificar los tuits como informes de phishing o no, CrowdCanary emplea varias características. Estas incluyen el contenido del tuit, el número de caracteres y la presencia de imágenes. El sistema utiliza métodos de aprendizaje automático para entrenar un modelo basado en las características extraídas de los tuits.
Modelo de aprendizaje automático
CrowdCanary utiliza un algoritmo de Random Forest, que ha demostrado un excelente rendimiento en la clasificación de informes de phishing. Este modelo se entrena usando un conjunto de datos de tuits etiquetados, permitiéndole predecir si nuevos tuits están relacionados con phishing.
Evaluando el rendimiento de CrowdCanary
Conjunto de datos de verdad fundamental
Para evaluar qué tan bien funciona CrowdCanary, creamos un conjunto de datos a partir de tuits etiquetados como informes de phishing o no informes. Al muestrear varios tuits durante un período específico, establecimos un conjunto de datos de verdad fundamental para las pruebas.
Resultados
Los resultados mostraron que CrowdCanary logra una alta precisión en la identificación de informes de phishing, detectando con éxito una cantidad significativa de URLs marcadas por software antivirus. Esto indica la efectividad de CrowdCanary en identificar amenazas reales de phishing reportadas por los usuarios.
Comparando informes de expertos y no expertos
CrowdCanary también explora la distinción entre informes de phishing compartidos por expertos en seguridad y aquellos compartidos por usuarios comunes. Nuestro análisis revela que la mayoría de los informes de phishing son publicados por no expertos. Estos informes a menudo proporcionan perspectivas valiosas que pueden no ser compartidas por los expertos.
Comportamiento del usuario
La mayoría de los no expertos comparten informes de phishing solo una o dos veces, mientras que los expertos pueden compartir muchos más. Los informes de no expertos tienden a ser más espontáneos, ofreciendo una perspectiva única sobre los intentos de phishing que puede no ser capturada por los informes más estructurados de los expertos.
Tipos de información compartida
Descubrimos que los no expertos frecuentemente incluyen imágenes en sus informes, lo que dificulta recopilar esta información utilizando métodos tradicionales. CrowdCanary extrae con éxito información valiosa de estos informes visualmente compartidos, resaltando la importancia de analizar contenido generado por usuarios en múltiples formatos.
Aplicaciones prácticas de la inteligencia de CrowdCanary
La inteligencia generada por CrowdCanary puede fortalecer significativamente las defensas contra ataques de phishing. Aquí hay algunas maneras en que esta información puede ser utilizada:
Mejora de listas de bloqueo
La información de phishing recopilada puede contribuir a listas de bloqueo utilizadas por filtros de correo electrónico y navegadores web. Dado que los ataques de phishing a menudo vienen en oleadas, la inclusión oportuna de inteligencia sobre amenazas puede evitar que futuros ataques lleguen a los usuarios.
Análisis de características de ataque
Se pueden analizar las características de los ataques de phishing para revelar tendencias y patrones. Por ejemplo, los atacantes pueden usar nombres de dominio específicos con frecuencia o emplear tácticas particulares. Esta información puede ser crítica para desarrollar mejores defensas en el futuro.
Limitaciones y direcciones futuras
Aunque CrowdCanary ha demostrado ser efectivo, tiene limitaciones. Por ejemplo, puede no capturar informes que no incluyan enlaces explícitos o aparezcan en ciertos formatos indirectos. Además, a medida que las tácticas de phishing evolucionan, la precisión de las características utilizadas en el modelo puede disminuir, requiriendo actualizaciones y reentrenamiento constantes.
Consideraciones éticas
CrowdCanary recopila información pública de Twitter, asegurando que no se comprometa ningún dato personal. Al adherirnos a las mejores prácticas y directrices, minimizamos las preocupaciones éticas potenciales asociadas con la recopilación de datos de redes sociales.
Conclusión
CrowdCanary representa un avance valioso en la lucha contra los ataques de phishing. Al aprovechar el poder de las redes sociales, podemos reunir información directamente de los usuarios que enfrentan amenazas de phishing. Este sistema no solo mejora nuestra comprensión de los ataques de phishing, sino que también proporciona información oportuna que puede proteger a los usuarios de caer víctimas de estos esquemas engañosos. A medida que continuamos refinando y mejorando CrowdCanary, pretendemos compartir nuestros hallazgos con la comunidad de ciberseguridad en general para fortalecer las defensas contra los ataques de phishing.
Título: Canary in Twitter Mine: Collecting Phishing Reports from Experts and Non-experts
Resumen: The rise in phishing attacks via e-mail and short message service (SMS) has not slowed down at all. The first thing we need to do to combat the ever-increasing number of phishing attacks is to collect and characterize more phishing cases that reach end users. Without understanding these characteristics, anti-phishing countermeasures cannot evolve. In this study, we propose an approach using Twitter as a new observation point to immediately collect and characterize phishing cases via e-mail and SMS that evade countermeasures and reach users. Specifically, we propose CrowdCanary, a system capable of structurally and accurately extracting phishing information (e.g., URLs and domains) from tweets about phishing by users who have actually discovered or encountered it. In our three months of live operation, CrowdCanary identified 35,432 phishing URLs out of 38,935 phishing reports, 31,960 (90.2%) of these phishing URLs were later detected by the anti-virus engine. We analyzed users who shared phishing threats by categorizing them into two groups: experts and non-experts. As a results, we discovered that CrowdCanary extracts non-expert report-specific information, like company brand name in tweets, phishing attack details from tweet images, and pre-redirect landing page information.
Autores: Hiroki Nakano, Daiki Chiba, Takashi Koide, Naoki Fukushi, Takeshi Yagi, Takeo Hariu, Katsunari Yoshioka, Tsutomu Matsumoto
Última actualización: 2023-06-06 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2303.15847
Fuente PDF: https://arxiv.org/pdf/2303.15847
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.