Evaluando la Resiliencia del Modelo a Ataques de Envenenamiento de Datos: Un Estudio Comparativo
Autores: Udoidiok, Ifiok; Li, Fuhao; Zhang, Jielun
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Evaluando la Resiliencia del Modelo a Ataques de Envenenamiento de Datos: Un Estudio Comparativo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje automático
Ataques de envenenamiento de datos
Vulnerabilidades del modelo
Interpretabilidad
Marco de evaluación
Estrategias de ataque
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El aprendizaje automático (ML) se ha convertido en un pilar de aplicaciones críticas, pero su vulnerabilidad a ataques de envenenamiento de datos amenaza la fiabilidad y la confianza del sistema. Estudios previos han comenzado a investigar el impacto del envenenamiento de datos y han propuesto varios métodos de defensa o evaluación; sin embargo, la mayoría de los esfuerzos se limitan a cuantificar la degradación del rendimiento, con poca comparación sistemática de los comportamientos internos a través de arquitecturas de modelos bajo ataque y una atención insuficiente a la interpretabilidad para revelar las vulnerabilidades del modelo. Para abordar este problema, construimos una tubería de evaluación reproducible y enfatizamos la importancia de integrar la robustez con la interpretabilidad en el diseño de sistemas de ML seguros y confiables. Específicamente, proponemos un marco de evaluación de envenenamiento unificado que compara sistemáticamente modelos de ML tradicionales, redes neuronales profundas y modelos de lenguaje grandes bajo tres estrategias de ataque representativas, incluyendo inversión de etiquetas, corrupción aleatoria e inserción adversarial, en niveles de severidad crecientes del 30%, 50% y 75%, e integramos explicaciones basadas en LIME para rastrear la evolución del razonamiento del modelo. Los resultados experimentales demuestran que los modelos tradicionales colapsan rápidamente bajo ruido de etiquetas, mientras que los híbridos de LSTM bayesianos y los modelos de lenguaje grandes mantienen una mayor resiliencia. Un análisis adicional de interpretabilidad revela patrones de fallo de atribución, como la sobredependencia de tokens neutrales o la mala interpretación de señales adversariales, proporcionando información más allá de las métricas de precisión.
Descripción
El aprendizaje automático (ML) se ha convertido en un pilar de aplicaciones críticas, pero su vulnerabilidad a ataques de envenenamiento de datos amenaza la fiabilidad y la confianza del sistema. Estudios previos han comenzado a investigar el impacto del envenenamiento de datos y han propuesto varios métodos de defensa o evaluación; sin embargo, la mayoría de los esfuerzos se limitan a cuantificar la degradación del rendimiento, con poca comparación sistemática de los comportamientos internos a través de arquitecturas de modelos bajo ataque y una atención insuficiente a la interpretabilidad para revelar las vulnerabilidades del modelo. Para abordar este problema, construimos una tubería de evaluación reproducible y enfatizamos la importancia de integrar la robustez con la interpretabilidad en el diseño de sistemas de ML seguros y confiables. Específicamente, proponemos un marco de evaluación de envenenamiento unificado que compara sistemáticamente modelos de ML tradicionales, redes neuronales profundas y modelos de lenguaje grandes bajo tres estrategias de ataque representativas, incluyendo inversión de etiquetas, corrupción aleatoria e inserción adversarial, en niveles de severidad crecientes del 30%, 50% y 75%, e integramos explicaciones basadas en LIME para rastrear la evolución del razonamiento del modelo. Los resultados experimentales demuestran que los modelos tradicionales colapsan rápidamente bajo ruido de etiquetas, mientras que los híbridos de LSTM bayesianos y los modelos de lenguaje grandes mantienen una mayor resiliencia. Un análisis adicional de interpretabilidad revela patrones de fallo de atribución, como la sobredependencia de tokens neutrales o la mala interpretación de señales adversariales, proporcionando información más allá de las métricas de precisión.