Modelo de verificación de hablante forense automatizado basado en metaheurísticas con extracción de características de dos niveles
Autores: Gaurav, ; Bhardwaj, Saurabh; Agarwal, Ravinder
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Modelo de verificación de hablante forense automatizado basado en metaheurísticas con extracción de características de dos niveles
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Verificación del hablante
Extracción de características
Verificación forense del hablante
Modelos de redes neuronales
Habla humana
Reconocimiento automático del hablante
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Si bien la verificación del hablante representa una aplicación críticamente importante del reconocimiento del hablante, también es la aplicación más desafiante y menos comprendida. La extracción robusta de características desempeña un papel integral en mejorar la eficiencia de la verificación del hablante forense. Aunque la señal de voz es una serie temporal continua unidimensional, la mayoría de los modelos recientes dependen de redes neuronales recurrentes (RNN) o modelos de redes neuronales convolucionales (CNN), que no pueden representar exhaustivamente el habla humana, abriéndose así a la falsificación del habla. Como resultado, para simular con precisión el habla humana y garantizar aún más la autenticidad del hablante, debemos establecer una técnica confiable. Este artículo de investigación presenta un modelo de Extracción de Características de Dos Niveles con Verificación Automatizada del Hablante Forense Basada en Metaheurísticas (TTFEM-AFSV), que tiene como objetivo superar las limitaciones de los modelos anteriores. El modelo TTFEM-AFSV se centra en verificar hablantes en aplicaciones forenses mediante la explotación de la técnica de filtrado de la mediana promedio (AMF) para desechar el ruido en las señales de voz. Posteriormente, se consideran los MFCC y los espectrogramas como las entradas al modelo Inception v3 basado en una red neuronal convolucional profunda, y se utiliza el algoritmo Optimizador de Hormigas León (ALO) para ajustar los hiperparámetros relacionados con el modelo Inception v3. Finalmente, se emplea un mecanismo de memoria a largo plazo con una red neuronal recurrente (LSTM-RNN) como clasificador para el reconocimiento automatizado del hablante. La validación del rendimiento del modelo TTFEM-AFSV se probó en una serie de experimentos. Un estudio comparativo reveló el rendimiento significativamente mejorado del modelo TTFEM-AFSV sobre enfoques recientes.
Descripción
Si bien la verificación del hablante representa una aplicación críticamente importante del reconocimiento del hablante, también es la aplicación más desafiante y menos comprendida. La extracción robusta de características desempeña un papel integral en mejorar la eficiencia de la verificación del hablante forense. Aunque la señal de voz es una serie temporal continua unidimensional, la mayoría de los modelos recientes dependen de redes neuronales recurrentes (RNN) o modelos de redes neuronales convolucionales (CNN), que no pueden representar exhaustivamente el habla humana, abriéndose así a la falsificación del habla. Como resultado, para simular con precisión el habla humana y garantizar aún más la autenticidad del hablante, debemos establecer una técnica confiable. Este artículo de investigación presenta un modelo de Extracción de Características de Dos Niveles con Verificación Automatizada del Hablante Forense Basada en Metaheurísticas (TTFEM-AFSV), que tiene como objetivo superar las limitaciones de los modelos anteriores. El modelo TTFEM-AFSV se centra en verificar hablantes en aplicaciones forenses mediante la explotación de la técnica de filtrado de la mediana promedio (AMF) para desechar el ruido en las señales de voz. Posteriormente, se consideran los MFCC y los espectrogramas como las entradas al modelo Inception v3 basado en una red neuronal convolucional profunda, y se utiliza el algoritmo Optimizador de Hormigas León (ALO) para ajustar los hiperparámetros relacionados con el modelo Inception v3. Finalmente, se emplea un mecanismo de memoria a largo plazo con una red neuronal recurrente (LSTM-RNN) como clasificador para el reconocimiento automatizado del hablante. La validación del rendimiento del modelo TTFEM-AFSV se probó en una serie de experimentos. Un estudio comparativo reveló el rendimiento significativamente mejorado del modelo TTFEM-AFSV sobre enfoques recientes.