Mejorando el muestreo de auditoría con aprendizaje automático
Cómo el aprendizaje automático mejora los métodos de muestreo de auditoría en entornos ricos en datos.
― 6 minilectura
Tabla de contenidos
Los auditores en Taiwán han estado lidiando con grandes cantidades de datos al realizar auditorías. Esto incluye reunir evidencia para respaldar sus hallazgos. El enorme volumen de datos ha hecho que sea un desafío para los auditores, especialmente en las firmas contables pequeñas y medianas. A menudo se sienten abrumados y necesitan ayuda de tecnologías recientes, como el Aprendizaje automático, para ayudar con el Muestreo.
La Necesidad de Mejores Técnicas de Muestreo
Los auditores suelen usar métodos de muestreo para examinar menos del 100% de los datos. Sin embargo, esto puede llevar a un riesgo de muestreo, lo que significa que las conclusiones sacadas de las muestras pueden diferir de lo que se concluiría si se examinara todo el conjunto de datos. Investigaciones anteriores mostraron que el uso de algoritmos de clasificación podría ayudar a reducir este riesgo al seleccionar evidencia de auditoría. Una opción efectiva es el Clasificador Naive Bayes. Esta herramienta ayuda a los auditores a categorizar datos y, por lo tanto, generar evidencia de cada categoría.
Al tratar con cuentas financieras que tienen transacciones frecuentes, hay un mayor riesgo de problemas como el lavado de dinero. Los auditores necesitan concentrarse en estas cuentas de alto riesgo al muestrear evidencia. Se elige el clasificador Naive Bayes por esta razón, ya que puede ayudar a identificar relaciones dentro de las categorías de datos.
Cómo Funciona el Clasificador Naive Bayes
El clasificador Naive Bayes utiliza un enfoque matemático simple para clasificar datos. Aplica el teorema de Bayes, que ayuda a calcular las probabilidades de que los datos pertenezcan a diferentes categorías. Al asumir que los atributos en el conjunto de datos son independientes, este modelo puede clasificar los datos de manera efectiva y ayudar a los auditores a elegir muestras relevantes para su análisis.
Enfoques para el Muestreo
Este estudio presenta tres enfoques principales para muestrear evidencia de auditoría utilizando un clasificador Naive Bayes:
Enfoque Basado en el Usuario: En este método, las muestras se eligen alrededor de la mediana de una clase, enfocándose en la simetría. Este enfoque proporciona un equilibrio entre el muestreo monetario y el variable. Los auditores pueden establecer percentiles específicos para definir qué datos incluir como evidencia.
Enfoque Basado en el Ítem: Este método adopta un enfoque más asimétrico. Se centra en probabilidades posteriores para enfatizar muestras más riesgosas. Los auditores pueden tomar muestras que resalten problemas potenciales en los datos, capturando aquellas muestras que podrían indicar un mayor riesgo.
Enfoque Híbrido: Este combina los dos métodos anteriores, permitiendo a los auditores equilibrar entre elegir muestras representativas e identificar las riesgosas. Al usar enfoques tanto basados en el usuario como en el ítem, los auditores pueden tomar decisiones más informadas.
Experimentación con Técnicas de Muestreo
El estudio incluye experimentos para probar la efectividad de estos métodos de muestreo con la integración del aprendizaje automático. El primer experimento demuestra que usar aprendizaje automático puede ayudar a evitar errores y mantener la aleatoriedad y la variabilidad necesarias en el muestreo. El segundo experimento analiza la capacidad de muestrear datos no estructurados, como mensajes de spam. El último experimento muestra que el enfoque híbrido puede gestionar de manera efectiva tanto la representatividad como el riesgo al muestrear.
Resultados y Observaciones
Los hallazgos indican que incorporar aprendizaje automático en el proceso de muestreo ayuda a producir muestras imparciales mientras maneja eficientemente patrones de datos complejos. Por ejemplo, en un experimento usando datos de clics en anuncios de clientes, se utilizó el clasificador Naive Bayes para asegurar que el muestreo se realizara con precisión. Los resultados del muestreo mostraron que eran representativos de los datos originales, reduciendo el riesgo de errores comunes en los métodos de muestreo tradicionales.
En otro experimento centrado en mensajes de spam, el proceso de vectorización de mensajes permitió una clasificación y muestreo efectivos. El proceso de aprendizaje automático pudo retener las características importantes de los mensajes de spam mientras aseguraba que las muestras extraídas fueran representativas del conjunto de datos en general.
En el tercer experimento, utilizando información de los Papeles de Panamá, el estudio mostró que el muestreo con aprendizaje automático podría identificar cuentas financieras de alto riesgo. El enfoque estuvo en el grado de centralidad y el coeficiente de agrupamiento, lo que proporcionó información sobre el flujo de dinero en relación con cuentas sospechosas. Los resultados confirmaron que la integración del aprendizaje automático podría equilibrar eficazmente los Riesgos mientras se mantiene la representatividad necesaria en las muestras.
Desafíos en la Integración del Aprendizaje Automático
Aunque los hallazgos han mostrado muchos aspectos positivos de usar aprendizaje automático para el muestreo, el estudio también destaca algunos desafíos. Una preocupación importante es la precisión de los resultados de clasificación del clasificador Naive Bayes. Si el clasificador categoriza incorrectamente los datos, podría llevar a muestras sesgadas. Antes de confiar en este método, es crucial asegurarse de que el rendimiento del clasificador sea satisfactorio.
Además, el enfoque requiere establecer umbrales que podrían llevar a complicaciones adicionales. La variabilidad en las probabilidades previas podría afectar los valores de umbral que determinan qué muestras se seleccionan.
Conclusión
El muestreo es una parte vital del proceso de auditoría, ofreciendo una forma para que los auditores reúnan evidencia sin necesidad de revisar cada detalle. La integración del aprendizaje automático, particularmente a través de métodos como el clasificador Naive Bayes, ofrece soluciones innovadoras a desafíos comunes enfrentados en la auditoría. Estos incluyen riesgos de muestreo, manejo de grandes conjuntos de datos y gestión de datos no estructurados.
El estudio encontró que utilizar estas técnicas avanzadas de muestreo podría mejorar significativamente la calidad de la evidencia de auditoría recopilada. Si bien hay limitaciones, los beneficios de usar aprendizaje automático en el muestreo superan con creces los desafíos, lo que lo convierte en un enfoque prometedor en el campo de la contabilidad. A medida que la tecnología continúa evolucionando, el potencial del aprendizaje automático para mejorar las prácticas de auditoría probablemente crecerá, ofreciendo herramientas más efectivas para los auditores en el futuro.
Título: Sampling Audit Evidence Using a Naive Bayes Classifier
Resumen: Taiwan's auditors have suffered from processing excessive audit data, including drawing audit evidence. This study advances sampling techniques by integrating machine learning with sampling. This machine learning integration helps avoid sampling bias, keep randomness and variability, and target risker samples. We first classify data using a Naive Bayes classifier into some classes. Next, a user-based, item-based, or hybrid approach is employed to draw audit evidence. The representativeness index is the primary metric for measuring its representativeness. The user-based approach samples data symmetric around the median of a class as audit evidence. It may be equivalent to a combination of monetary and variable samplings. The item-based approach represents asymmetric sampling based on posterior probabilities for obtaining risky samples as audit evidence. It may be identical to a combination of non-statistical and monetary samplings. Auditors can hybridize those user-based and item-based approaches to balance representativeness and riskiness in selecting audit evidence. Three experiments show that sampling using machine learning integration has the benefits of drawing unbiased samples, handling complex patterns, correlations, and unstructured data, and improving efficiency in sampling big data. However, the limitations are the classification accuracy output by machine learning algorithms and the range of prior probabilities.
Autores: Guang-Yih Sheu, Nai-Ru Liu
Última actualización: 2024-03-20 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2403.14069
Fuente PDF: https://arxiv.org/pdf/2403.14069
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.