Detección de Manipulación de Audio Digital Basada en Características Espacio-Temporales Profundas de la Frecuencia de Red Eléctrica
Autores: Zeng, Chunyan; Kong, Shuai; Wang, Zhifeng; Li, Kun; Zhao, Yuhao
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Detección de Manipulación de Audio Digital Basada en Características Espacio-Temporales Profundas de la Frecuencia de Red Eléctrica
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Audio digital
Detección de manipulación
Características ENF
Característica temporal-espacial
Características ENF superficiales
Detección de manipulación de audio
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los últimos años, los métodos de detección de manipulación de audio digital mediante la extracción de características de frecuencia de red eléctrica (ENF) se han aplicado ampliamente. Sin embargo, la mayoría de los métodos de detección de manipulación de audio digital basados en ENF tienen problemas al centrarse únicamente en características espaciales, sin una representación efectiva de las características temporales, y no explotan completamente la información efectiva en las características ENF superficiales, lo que conduce a una baja precisión en la detección de manipulaciones de audio. Por lo tanto, este artículo propone un nuevo método para la detección de manipulación de audio digital basado en la característica temporal-espacial profunda de ENF. Para extraer las características temporales y espaciales de la ENF, en primer lugar, se extrae una secuencia de fase ENF altamente precisa utilizando la Transformada Discreta de Fourier (DFT) de primer orden, y en segundo lugar, se utilizan diferentes métodos de procesamiento de tramas para extraer las características temporales y espaciales superficiales de la ENF para la información temporal y espacial contenida en la fase ENF. Para explotar completamente la información efectiva en las características ENF superficiales, construimos un modelo de red RDTCN-CNN paralelo para extraer la información temporal y espacial profunda utilizando la capacidad de procesamiento de la Red Convolucional Temporal Densa Residual (RDTCN) y la Red Neuronal Convolucional (CNN) para la información temporal y espacial, y utilizamos el mecanismo de atención de rama para asignar pesos de manera adaptativa a las características temporales y espaciales profundas para obtener la característica temporal-espacial con mayor capacidad representativa, y finalmente, adjudicamos si el audio ha sido manipulado mediante la red MLP. Los resultados experimentales muestran que el método en este artículo supera a los cuatro métodos de referencia en términos de precisión y puntuación F1.
Descripción
En los últimos años, los métodos de detección de manipulación de audio digital mediante la extracción de características de frecuencia de red eléctrica (ENF) se han aplicado ampliamente. Sin embargo, la mayoría de los métodos de detección de manipulación de audio digital basados en ENF tienen problemas al centrarse únicamente en características espaciales, sin una representación efectiva de las características temporales, y no explotan completamente la información efectiva en las características ENF superficiales, lo que conduce a una baja precisión en la detección de manipulaciones de audio. Por lo tanto, este artículo propone un nuevo método para la detección de manipulación de audio digital basado en la característica temporal-espacial profunda de ENF. Para extraer las características temporales y espaciales de la ENF, en primer lugar, se extrae una secuencia de fase ENF altamente precisa utilizando la Transformada Discreta de Fourier (DFT) de primer orden, y en segundo lugar, se utilizan diferentes métodos de procesamiento de tramas para extraer las características temporales y espaciales superficiales de la ENF para la información temporal y espacial contenida en la fase ENF. Para explotar completamente la información efectiva en las características ENF superficiales, construimos un modelo de red RDTCN-CNN paralelo para extraer la información temporal y espacial profunda utilizando la capacidad de procesamiento de la Red Convolucional Temporal Densa Residual (RDTCN) y la Red Neuronal Convolucional (CNN) para la información temporal y espacial, y utilizamos el mecanismo de atención de rama para asignar pesos de manera adaptativa a las características temporales y espaciales profundas para obtener la característica temporal-espacial con mayor capacidad representativa, y finalmente, adjudicamos si el audio ha sido manipulado mediante la red MLP. Los resultados experimentales muestran que el método en este artículo supera a los cuatro métodos de referencia en términos de precisión y puntuación F1.