logo móvil
Contáctanos

Evaluando la Resiliencia del Modelo a Ataques de Envenenamiento de Datos: Un Estudio Comparativo

Autores: Udoidiok, Ifiok; Li, Fuhao; Zhang, Jielun

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Evaluando la Resiliencia del Modelo a Ataques de Envenenamiento de Datos: Un Estudio Comparativo


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aprendizaje automático
Ataques de envenenamiento de datos
Vulnerabilidades del modelo
Interpretabilidad
Marco de evaluación
Estrategias de ataque

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El aprendizaje automático (ML) se ha convertido en un pilar de aplicaciones críticas, pero su vulnerabilidad a ataques de envenenamiento de datos amenaza la fiabilidad y la confianza del sistema. Estudios previos han comenzado a investigar el impacto del envenenamiento de datos y han propuesto varios métodos de defensa o evaluación; sin embargo, la mayoría de los esfuerzos se limitan a cuantificar la degradación del rendimiento, con poca comparación sistemática de los comportamientos internos a través de arquitecturas de modelos bajo ataque y una atención insuficiente a la interpretabilidad para revelar las vulnerabilidades del modelo. Para abordar este problema, construimos una tubería de evaluación reproducible y enfatizamos la importancia de integrar la robustez con la interpretabilidad en el diseño de sistemas de ML seguros y confiables. Específicamente, proponemos un marco de evaluación de envenenamiento unificado que compara sistemáticamente modelos de ML tradicionales, redes neuronales profundas y modelos de lenguaje grandes bajo tres estrategias de ataque representativas, incluyendo inversión de etiquetas, corrupción aleatoria e inserción adversarial, en niveles de severidad crecientes del 30%, 50% y 75%, e integramos explicaciones basadas en LIME para rastrear la evolución del razonamiento del modelo. Los resultados experimentales demuestran que los modelos tradicionales colapsan rápidamente bajo ruido de etiquetas, mientras que los híbridos de LSTM bayesianos y los modelos de lenguaje grandes mantienen una mayor resiliencia. Un análisis adicional de interpretabilidad revela patrones de fallo de atribución, como la sobredependencia de tokens neutrales o la mala interpretación de señales adversariales, proporcionando información más allá de las métricas de precisión.

Otros recursos que podrían interesarte

Temas Virtualpro