Ataque y defensa adversaria de los sistemas de reconocimiento de locutores: una encuesta
Autores: Tan, Hao; Wang, Le; Zhang, Huan; Zhang, Junjian; Shafiq, Muhammad; Gu, Zhaoquan
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Ataque y defensa adversaria de los sistemas de reconocimiento de locutores: una encuesta
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de hablantes
Aprendizaje profundo
Ataques adversarios
Estrategias de defensa
SRSs
Temas de investigación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
El reconocimiento de locutor es una tarea que identifica al locutor de múltiples audios. Recientemente, los avances en aprendizaje profundo han impulsado considerablemente el desarrollo de técnicas de procesamiento de señales de voz. El reconocimiento de locutor o de voz se ha adoptado ampliamente en aplicaciones como cerraduras inteligentes, sistemas montados en vehículos inteligentes y servicios financieros. Sin embargo, los sistemas de reconocimiento de locutor basados en redes neuronales profundas (SRSs) son susceptibles a ataques adversariales, que engañan al sistema para tomar decisiones incorrectas mediante pequeñas perturbaciones, y esto ha llamado la atención de los investigadores sobre la seguridad de los SRSs. Desafortunadamente, no existe un trabajo de revisión sistemática en este dominio. En este trabajo, realizamos una encuesta exhaustiva para llenar este vacío, que incluye el desarrollo de SRSs, ataques adversariales y defensas contra SRSs. Específicamente, primero presentamos los marcos principales de SRSs y algunos conjuntos de datos comúnmente utilizados. Luego, desde las perspectivas de generación y evaluación de ejemplos adversariales, presentamos diferentes tareas de ataque, el conocimiento previo de los ataques, objetos de perturbación, restricciones de perturbación e indicadores de evaluación del efecto del ataque. A continuación, nos centramos en algunas estrategias de defensa efectivas, incluido el entrenamiento adversarial, la detección de ataques y la reformulación de entradas contra ataques existentes, y analizamos sus fortalezas y debilidades en términos de fidelidad y robustez. Finalmente, discutimos los desafíos planteados por ejemplos adversariales de audio en SRSs y algunos temas de investigación valiosos en el futuro.
Descripción
El reconocimiento de locutor es una tarea que identifica al locutor de múltiples audios. Recientemente, los avances en aprendizaje profundo han impulsado considerablemente el desarrollo de técnicas de procesamiento de señales de voz. El reconocimiento de locutor o de voz se ha adoptado ampliamente en aplicaciones como cerraduras inteligentes, sistemas montados en vehículos inteligentes y servicios financieros. Sin embargo, los sistemas de reconocimiento de locutor basados en redes neuronales profundas (SRSs) son susceptibles a ataques adversariales, que engañan al sistema para tomar decisiones incorrectas mediante pequeñas perturbaciones, y esto ha llamado la atención de los investigadores sobre la seguridad de los SRSs. Desafortunadamente, no existe un trabajo de revisión sistemática en este dominio. En este trabajo, realizamos una encuesta exhaustiva para llenar este vacío, que incluye el desarrollo de SRSs, ataques adversariales y defensas contra SRSs. Específicamente, primero presentamos los marcos principales de SRSs y algunos conjuntos de datos comúnmente utilizados. Luego, desde las perspectivas de generación y evaluación de ejemplos adversariales, presentamos diferentes tareas de ataque, el conocimiento previo de los ataques, objetos de perturbación, restricciones de perturbación e indicadores de evaluación del efecto del ataque. A continuación, nos centramos en algunas estrategias de defensa efectivas, incluido el entrenamiento adversarial, la detección de ataques y la reformulación de entradas contra ataques existentes, y analizamos sus fortalezas y debilidades en términos de fidelidad y robustez. Finalmente, discutimos los desafíos planteados por ejemplos adversariales de audio en SRSs y algunos temas de investigación valiosos en el futuro.