Evaluando la Resiliencia del Modelo a Ataques de Envenenamiento de Datos: Un Estudio Comparativo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evaluando la Resiliencia del Modelo a Ataques de Envenenamiento de Datos: Un Estudio Comparativo

Autores: Udoidiok, Ifiok; Li, Fuhao; Zhang, Jielun

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Evaluando la Resiliencia del Modelo a Ataques de Envenenamiento de Datos: Un Estudio Comparativo

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aprendizaje automático

Ataques de envenenamiento de datos

Vulnerabilidades del modelo

Interpretabilidad

Marco de evaluación

Estrategias de ataque

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El aprendizaje automático (ML) se ha convertido en un pilar de aplicaciones críticas, pero su vulnerabilidad a ataques de envenenamiento de datos amenaza la fiabilidad y la confianza del sistema. Estudios previos han comenzado a investigar el impacto del envenenamiento de datos y han propuesto varios métodos de defensa o evaluación; sin embargo, la mayoría de los esfuerzos se limitan a cuantificar la degradación del rendimiento, con poca comparación sistemática de los comportamientos internos a través de arquitecturas de modelos bajo ataque y una atención insuficiente a la interpretabilidad para revelar las vulnerabilidades del modelo. Para abordar este problema, construimos una tubería de evaluación reproducible y enfatizamos la importancia de integrar la robustez con la interpretabilidad en el diseño de sistemas de ML seguros y confiables. Específicamente, proponemos un marco de evaluación de envenenamiento unificado que compara sistemáticamente modelos de ML tradicionales, redes neuronales profundas y modelos de lenguaje grandes bajo tres estrategias de ataque representativas, incluyendo inversión de etiquetas, corrupción aleatoria e inserción adversarial, en niveles de severidad crecientes del 30%, 50% y 75%, e integramos explicaciones basadas en LIME para rastrear la evolución del razonamiento del modelo. Los resultados experimentales demuestran que los modelos tradicionales colapsan rápidamente bajo ruido de etiquetas, mientras que los híbridos de LSTM bayesianos y los modelos de lenguaje grandes mantienen una mayor resiliencia. Un análisis adicional de interpretabilidad revela patrones de fallo de atribución, como la sobredependencia de tokens neutrales o la mala interpretación de señales adversariales, proporcionando información más allá de las métricas de precisión.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro