Análisis de la Robustez e Interpretabilidad de los Modelos de Naïve Bayes Multinomial y Tiny Text CNN para la Detección de Spam en SMS Bajo Ataques Adversariales
Autores: Rassam, Murad A.; Shaddad, Redhwan
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Análisis de la Robustez e Interpretabilidad de los Modelos de Naïve Bayes Multinomial y Tiny Text CNN para la Detección de Spam en SMS Bajo Ataques Adversariales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Creciente complejidad
Spam de SMS
Modelos de aprendizaje automático
Tiny Text CNN
Ataques adversariales
Análisis de interpretabilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La creciente complejidad de los mensajes no deseados, especialmente el spam por SMS, presenta un desafío serio para la seguridad de la comunicación digital y la experiencia del usuario. Si bien los modelos convencionales de detección de spam son útiles en conjuntos de datos limpios, son vulnerables a ataques dirigidos que buscan evadir la detección. Este estudio está motivado por la urgente necesidad de evaluar la resiliencia de los modelos de aprendizaje automático frente a amenazas en evolución en aplicaciones del mundo real. Investigamos específicamente la robustez y la interpretabilidad de un modelo de Naive Bayes Multinomial (MNB), representativo del aprendizaje automático tradicional, y una red neuronal convolucional de Texto Pequeño (Tiny Text CNN), representativa de los modelos de aprendizaje profundo, para la detección de spam por SMS. Utilizando el conjunto de datos de UCI bajo ataques de texto adversariales simulados, ambos modelos fueron probados contra la inserción de palabras de relleno y ataques de perturbación a nivel de caracteres. Los resultados muestran que, aunque la Tiny Text CNN mantuvo una mayor robustez general (precisión: 0.9821 limpio vs. 0.9758 bajo ataques de caracteres), ambos modelos experimentaron una notable degradación en la recuperación, siendo el MNB más susceptible a los ataques de palabras de relleno. Los análisis de interpretabilidad utilizando LIME y mapas de saliencia basados en gradientes indicaron que las perturbaciones adversariales alteran la importancia de las características, disminuyendo la influencia de los tokens indicativos de spam. Los hallazgos subrayan las compensaciones entre la complejidad del modelo y la resiliencia adversarial, ofreciendo información para desarrollar sistemas de detección de spam más seguros e interpretables.
Descripción
La creciente complejidad de los mensajes no deseados, especialmente el spam por SMS, presenta un desafío serio para la seguridad de la comunicación digital y la experiencia del usuario. Si bien los modelos convencionales de detección de spam son útiles en conjuntos de datos limpios, son vulnerables a ataques dirigidos que buscan evadir la detección. Este estudio está motivado por la urgente necesidad de evaluar la resiliencia de los modelos de aprendizaje automático frente a amenazas en evolución en aplicaciones del mundo real. Investigamos específicamente la robustez y la interpretabilidad de un modelo de Naive Bayes Multinomial (MNB), representativo del aprendizaje automático tradicional, y una red neuronal convolucional de Texto Pequeño (Tiny Text CNN), representativa de los modelos de aprendizaje profundo, para la detección de spam por SMS. Utilizando el conjunto de datos de UCI bajo ataques de texto adversariales simulados, ambos modelos fueron probados contra la inserción de palabras de relleno y ataques de perturbación a nivel de caracteres. Los resultados muestran que, aunque la Tiny Text CNN mantuvo una mayor robustez general (precisión: 0.9821 limpio vs. 0.9758 bajo ataques de caracteres), ambos modelos experimentaron una notable degradación en la recuperación, siendo el MNB más susceptible a los ataques de palabras de relleno. Los análisis de interpretabilidad utilizando LIME y mapas de saliencia basados en gradientes indicaron que las perturbaciones adversariales alteran la importancia de las características, disminuyendo la influencia de los tokens indicativos de spam. Los hallazgos subrayan las compensaciones entre la complejidad del modelo y la resiliencia adversarial, ofreciendo información para desarrollar sistemas de detección de spam más seguros e interpretables.