Un método de detección de discursos falsificados que combina características de múltiples escalas e información entre capas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un método de detección de discursos falsificados que combina características de múltiples escalas e información entre capas

Autores: Yuan, Hongyan; Zhang, Linjuan; Niu, Baoning; Zheng, Xianrong

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Un método de detección de discursos falsificados que combina características de múltiples escalas e información entre capas

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de voz preentrenados

Auto-supervisados

Detección de suplantación

Características a múltiples escalas

Información entre capas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los modelos de voz auto-supervisados preentrenados pueden extraer características acústicas generales, proporcionando entradas de características para diversas tareas de voz. La detección de voz falsificada, que es un problema urgente en la era de la IA generativa, requiere tanto información global como características locales de la voz. La estructura de transformador de múltiples capas en los modelos de voz preentrenados puede capturar efectivamente la información temporal y el contexto global en la voz, pero aún hay margen de mejora en el manejo de características locales. Para abordar este problema, se propone un método de detección de voz falsificada que integra características de múltiples escalas e información entre capas. El método introduce un adaptador de características de múltiples escalas (MSFA), que mejora la capacidad del modelo para percibir características locales a través de bloques convolucionales residuales y mecanismos de compresión y excitación (SE). Además, se utilizan pesos adaptables entre capas (CAWs) para guiar al modelo en el enfoque de información superficial relevante para la tarea, lo que permite la fusión efectiva de características de diferentes capas del modelo preentrenado. Los resultados experimentales muestran que el método propuesto logró una tasa de error igual (EER) del 0.36% y 4.29% en los conjuntos de datos de acceso lógico (LA) de ASVspoof2019 y ASVspoof2021, respectivamente, demostrando un excelente rendimiento en la detección y capacidad de generalización.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro