Usando Aprendizaje Automático para Clasificar Cifrados de la WWII
La investigación muestra cómo el aprendizaje automático puede identificar los tipos de cifrados de la Segunda Guerra Mundial.
― 7 minilectura
Tabla de contenidos
Durante la Segunda Guerra Mundial, la comunicación segura era vital para las operaciones militares, lo que llevó al desarrollo de varias máquinas de cifrado. Estas máquinas cifraban mensajes para mantenerlos a salvo de los enemigos. Este artículo analiza cómo el aprendizaje automático puede ayudar a identificar estos cifrados basándose solo en el texto cifrado. Las máquinas en las que nos enfocamos son la Enigma, M-209, Sigaba, Purple y Typex.
Resumen de Cifrados
Enigma
La máquina de cifrado Enigma fue utilizada por el ejército alemán. Consiste en varios discos rotativos que cambian las letras a medida que se escriben. Incluso si alguien conoce la configuración de la máquina, sigue siendo complicado descifrar el mensaje original.
M-209
El M-209, creado por un ingeniero sueco, fue utilizado por el ejército de los Estados Unidos. Esta máquina también usa rotores pero tiene un mecanismo único con pines que determina cómo se cifran las letras. Tiene su propia forma de intercambiar letras similar a la Enigma pero funciona de manera diferente.
Sigaba
Sigaba fue desarrollado por criptógrafos estadounidenses y utilizó una tecnología de rotor similar. Sin embargo, tenía un diseño más complejo, lo que lo hacía más difícil de romper para los enemigos. Proporcionaba un alto nivel de seguridad y no fue descifrado durante su uso.
Purple
Purple fue utilizado por Japón durante la guerra para comunicaciones diplomáticas. Es diferente de los cifrados de rotor, ya que utiliza un sistema de interruptores en su lugar. A pesar de no tener una máquina completa, los criptanalistas estadounidenses lograron romper sus códigos regularmente.
Typex
Typex era una adaptación británica de la Enigma pero con mejoras para mayor seguridad. Se convirtió en un recurso vital para las fuerzas británicas y estaba diseñado para ser más confiable que su predecesor.
Objetivo de la Investigación
El aprendizaje automático es una rama de la inteligencia artificial que permite a las computadoras aprender de los datos y hacer predicciones. Esta investigación tiene como objetivo averiguar si las técnicas de aprendizaje automático pueden clasificar efectivamente estos cifrados de la Segunda Guerra Mundial basándose únicamente en la salida cifrada.
Métodos Utilizados
Modelos de Aprendizaje Automático
Experimentamos con diferentes modelos de aprendizaje automático para ver cuál podía identificar mejor los cifrados. Los modelos incluyeron:
Máquinas de Vectores de Soporte (SVM): Este modelo encuentra un límite que separa diferentes clases de datos. Funciona bien en espacios de alta dimensión.
k-Vecinos Más Cercanos (k-NN): Este clasifica los datos según cuán cerca están los puntos de datos entre sí. No requiere entrenamiento, sino que se basa en cálculos de distancia.
Bosque Aleatorio (RF): Un método de conjunto que utiliza un grupo de árboles de decisión para hacer predicciones. Reduce las posibilidades de errores mediante promedios.
Perceptrones Multicapa (MLP): Un tipo de red neuronal que consiste en capas de nodos interconectados. Es bueno para reconocer patrones.
Memoria a Largo y Corto Plazo (LSTM): Esta es una red neuronal especial que es buena para manejar secuencias y recordar información pasada.
Máquinas de Aprendizaje Extremo (ELM): Estas usan una sola capa oculta para un entrenamiento rápido, pero requieren más neuronas que las redes típicas.
Redes Neuronales Convolucionales (CNN): Principalmente utilizadas para el reconocimiento de imágenes, las CNN también se pueden adaptar para trabajar con otros tipos de datos.
Preparación de Datos
Para entrenar y probar estos modelos, se generó un conjunto de datos equilibrado de textos cifrados. Cada tipo de cifrado tenía un total de 1000 mensajes, cada uno con 1000 caracteres. Esto dio un total de 5,000,000 de caracteres para trabajar, permitiendo que los modelos aprendieran y clasificaran de manera efectiva.
Características para Clasificación
Se recopilaron tres tipos principales de características de los textos cifrados:
Histogramas: Cántidades de cuán a menudo aparece cada letra en el texto. Esto da una idea de la distribución de letras utilizadas por cada cifrado.
Digramos: Estos son pares de letras. Analizar la frecuencia de estos pares ayuda a entender mejor la estructura del texto.
Secuencias de Letras Crudas: Usar el orden exacto de letras en el texto cifrado permite que los modelos reconozcan patrones directamente.
Diseño Experimental
Probamos los modelos en cuatro escenarios diferentes para ver cómo se desempeñaron:
Texto Plano Fijo y Claves Fijas: El mismo texto se cifró con la misma clave para todas las muestras.
Texto Plano Aleatorio y Claves Fijas: Se utilizaron diferentes textos planos pero con la misma clave para cada cifrado.
Texto Plano Fijo y Claves Aleatorias: El mismo texto se cifró con diferentes claves cada vez.
Texto Plano Aleatorio y Claves Aleatorias: Cada mensaje se creó con un texto aleatorio y una clave aleatoria, lo que refleja un uso realista.
Hallazgos Clave
Precisión de los Modelos
En el escenario más realista (texto plano aleatorio y claves aleatorias), los modelos pudieron clasificar los tipos de cifrado con alta precisión:
- El modelo SVM alcanzó más del 97% de precisión.
- Los modelos MLP y k-NN también funcionaron muy bien.
Algunos modelos tuvieron dificultades, en particular LSTM y CNN, que no entregaron los resultados esperados.
Similitudes y Diferencias Entre Cifrados
El estudio encontró que diferenciar entre ciertos cifrados era más fácil que entre otros. Por ejemplo, M-209 fue uno de los más fáciles de identificar, mientras que Typex y Enigma eran bastante similares, lo que los hacía más difíciles de distinguir.
Importancia de las Características
Los tipos de características jugaron un papel crucial en la clasificación:
- Las secuencias de letras crudas proporcionaron la mayor precisión.
- Los histogramas y digramos crearon resultados sólidos pero no fueron tan efectivos como las secuencias crudas.
Impacto de la Longitud del Cifrado
También examinamos cómo cambiar la longitud del texto cifrado (usando menos de 1000 caracteres) afectaba la precisión de clasificación. Los hallazgos mostraron que incluso con menos datos, el modelo SVM seguía siendo efectivo, mientras que otros modelos tuvieron dificultades.
Conclusión
Las técnicas de aprendizaje automático pueden clasificar efectivamente los cifrados de la Segunda Guerra Mundial basándose en los mensajes cifrados. Los resultados indican que con las características y modelos adecuados, es posible lograr una alta precisión. La investigación destaca las diferencias significativas entre las diversas máquinas de cifrado y sus patrones, sugiriendo que el trabajo futuro podría involucrar una exploración más profunda de diferentes cifrados y métodos de aprendizaje.
Direcciones Futuras
Esta investigación abre caminos para estudios adicionales, incluyendo:
- Probar cifrados adicionales y técnicas de aprendizaje.
- Experimentar con enfoques de conjunto más complejos.
- Explorar un ajuste más profundo de hiperparámetros.
- Considerar otras características que podrían proporcionar más información para la clasificación.
Con la IA y el aprendizaje automático avanzando continuamente, el potencial para entender y clasificar cifrados históricos presenta oportunidades emocionantes por delante.
Título: Classifying World War II Era Ciphers with Machine Learning
Resumen: We determine the accuracy with which machine learning and deep learning techniques can classify selected World War II era ciphers when only ciphertext is available. The specific ciphers considered are Enigma, M-209, Sigaba, Purple, and Typex. We experiment with three classic machine learning models, namely, Support Vector Machines (SVM), $k$-Nearest Neighbors ($k$-NN), and Random Forest (RF). We also experiment with four deep learning neural network-based models: Multi-Layer Perceptrons (MLP), Long Short-Term Memory (LSTM), Extreme Learning Machines (ELM), and Convolutional Neural Networks (CNN). Each model is trained on features consisting of histograms, digrams, and raw ciphertext letter sequences. Furthermore, the classification problem is considered under four distinct scenarios: Fixed plaintext with fixed keys, random plaintext with fixed keys, fixed plaintext with random keys, and random plaintext with random keys. Under the most realistic scenario, given 1000 characters per ciphertext, we are able to distinguish the ciphers with greater than 97% accuracy. In addition, we consider the accuracy of a subset of the learning techniques as a function of the length of the ciphertext messages. Somewhat surprisingly, our classic machine learning models perform at least as well as our deep learning models. We also find that ciphers that are more similar in design are somewhat more challenging to distinguish, but not as difficult as might be expected.
Autores: Brooke Dalton, Mark Stamp
Última actualización: 2023-08-30 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2307.00501
Fuente PDF: https://arxiv.org/pdf/2307.00501
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.