Un método de detección de discursos falsificados que combina características de múltiples escalas e información entre capas
Autores: Yuan, Hongyan; Zhang, Linjuan; Niu, Baoning; Zheng, Xianrong
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un método de detección de discursos falsificados que combina características de múltiples escalas e información entre capas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de voz preentrenados
Auto-supervisados
Detección de suplantación
Características a múltiples escalas
Información entre capas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los modelos de voz auto-supervisados preentrenados pueden extraer características acústicas generales, proporcionando entradas de características para diversas tareas de voz. La detección de voz falsificada, que es un problema urgente en la era de la IA generativa, requiere tanto información global como características locales de la voz. La estructura de transformador de múltiples capas en los modelos de voz preentrenados puede capturar efectivamente la información temporal y el contexto global en la voz, pero aún hay margen de mejora en el manejo de características locales. Para abordar este problema, se propone un método de detección de voz falsificada que integra características de múltiples escalas e información entre capas. El método introduce un adaptador de características de múltiples escalas (MSFA), que mejora la capacidad del modelo para percibir características locales a través de bloques convolucionales residuales y mecanismos de compresión y excitación (SE). Además, se utilizan pesos adaptables entre capas (CAWs) para guiar al modelo en el enfoque de información superficial relevante para la tarea, lo que permite la fusión efectiva de características de diferentes capas del modelo preentrenado. Los resultados experimentales muestran que el método propuesto logró una tasa de error igual (EER) del 0.36% y 4.29% en los conjuntos de datos de acceso lógico (LA) de ASVspoof2019 y ASVspoof2021, respectivamente, demostrando un excelente rendimiento en la detección y capacidad de generalización.
Descripción
Los modelos de voz auto-supervisados preentrenados pueden extraer características acústicas generales, proporcionando entradas de características para diversas tareas de voz. La detección de voz falsificada, que es un problema urgente en la era de la IA generativa, requiere tanto información global como características locales de la voz. La estructura de transformador de múltiples capas en los modelos de voz preentrenados puede capturar efectivamente la información temporal y el contexto global en la voz, pero aún hay margen de mejora en el manejo de características locales. Para abordar este problema, se propone un método de detección de voz falsificada que integra características de múltiples escalas e información entre capas. El método introduce un adaptador de características de múltiples escalas (MSFA), que mejora la capacidad del modelo para percibir características locales a través de bloques convolucionales residuales y mecanismos de compresión y excitación (SE). Además, se utilizan pesos adaptables entre capas (CAWs) para guiar al modelo en el enfoque de información superficial relevante para la tarea, lo que permite la fusión efectiva de características de diferentes capas del modelo preentrenado. Los resultados experimentales muestran que el método propuesto logró una tasa de error igual (EER) del 0.36% y 4.29% en los conjuntos de datos de acceso lógico (LA) de ASVspoof2019 y ASVspoof2021, respectivamente, demostrando un excelente rendimiento en la detección y capacidad de generalización.