Revisión Comparativa de Modelos de Aprendizaje Profundo para la Detección de Deepfakes de Voz en Escenarios de Fraude Bancario

Abstract

El artículo presenta una revisión sistemática guiada por los lineamientos PRISMA 2020, centrada en el análisis del estado del arte de la detección de voces generadas por modelos de aprendizaje profundo aplicadas al fraude bancario. De igual manera, se analiza la evolución de las técnicas de inteligencia artificial generativa, herramienta que se usa para la creación de deepfakes de voz, que a su vez representan un riesgo significativo para la seguridad digital financiera, ya que facilita la falsificación de identidades y compromete procesos sensibles que involucren verificación por voz. En las arquitecturas estudiadas, se destacan las redes convolucionales y las Transformers por su capacidad para identificar patrones y adaptarse a diversos contextos. Sin embargo, su aplicación práctica se produce en su gran mayoría una disminución en su rendimiento, que se asocia a factores como el ruido acústico, la variabilidad del entorno y la posible desconexión entre los datos de entrenamiento y las características específicas del contexto bancario. El artículo propone un modelo conceptual basado en atención priorizada y análisis segmentado de audio, con el objetivo de optimizar los recursos computacionales usados en el proceso. De esta manera, se busca mejorar la precisión, eficiencia y confiabilidad de los sistemas de verificación en tiempo real para contribuir al fortalecimiento de la ciberseguridad y de igual manera, la prevención del fraude mediante inteligencia artificial en el sector bancario. The article presents a systematic review guided by the PRISMA 2020 guidelines, focused on the analysis of the state of the art of voice detection generated by deep learning models applied to bank fraud. Similarly, the evolution of generative artificial intelligence techniques is analyzed, a tool used for the creation of voice deepfakes, which in turn represent a significant risk to financial digital security, since it facilitates the falsification of identities and compromises sensitive processes that involve voice verification. In the architectures studied, convolutional networks and Transformers stand out for their ability to identify patterns and adapt to various contexts. However, its practical application mostly results in a decrease in its performance, which is associated with factors such as acoustic noise, environmental variability and the possible disconnect between training data and the specific characteristics of the banking context. The article proposes a conceptual model based on prioritized attention and segmented audio analysis, with the aim of optimizing the computational resources used in the process. In this way, it seeks to improve the accuracy, efficiency and reliability of real-time verification systems to contribute to the strengthening of cybersecurity and in the same way, the prevention of fraud through artificial intelligence in the banking sector.

Description

Keywords

Aprendizaje Profundo, Deep Learning, Fraude Bancario, Bank Fraud, Redes convolucionales -, Convolutional Networks, Redes Transformers, Transformers Networks, Seguridad Financiera, Financial Security

Citation