logo móvil
Contáctanos

Mejorando los Modelos de Reconocimiento de Habla con Estrategias de Optimización de Características Resilientes al Ruido

Autores: Chauhan, Neha; Isshiki, Tsuyoshi; Li, Dongju

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Mejorando los Modelos de Reconocimiento de Habla con Estrategias de Optimización de Características Resilientes al Ruido


Categoría

Artes

Subcategoría

Música

Palabras clave

Metodologías de reconocimiento de hablantes
Fusión a nivel de características
Reducción de dimensiones
Análisis de componentes principales
Análisis de componentes independientes
Optimización de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones


Descripción
Este documento profundiza en una exploración exhaustiva de las metodologías de reconocimiento de hablantes, con un enfoque principal en tres enfoques fundamentales: fusión a nivel de características, reducción de dimensión utilizando análisis de componentes principales (PCA) y análisis de componentes independientes (ICA), y optimización de características a través de un algoritmo genético (GA) y el algoritmo de depredador marino (MPA). Este estudio realiza experimentos exhaustivos en diversos conjuntos de datos de voz caracterizados por diferentes niveles de ruido y cantidades de hablantes. Impresionantemente, la investigación produce resultados excepcionales en diferentes conjuntos de datos y clasificadores. Por ejemplo, en el conjunto de datos de ruido de charla TIMIT (120 hablantes), la fusión de características logra una notable precisión de identificación de hablantes del 92.7%, mientras que varias técnicas de optimización de características combinadas con clasificadores de vecinos más cercanos (KNN) y discriminante lineal (LD) resultan en una tasa de error igual (SV EER) de 0.7%. Notablemente, este estudio logra una precisión de identificación de hablantes del 93.5% y un SV EER de 0.13% en el conjunto de datos de ruido de charla TIMIT (630 hablantes) utilizando un clasificador KNN con optimización de características. En el conjunto de datos de ruido blanco TIMIT (120 y 630 hablantes), se alcanzaron precisiones de identificación de hablantes del 93.3% y 83.5%, junto con valores de SV EER de 0.58% y 0.13%, respectivamente, utilizando técnicas de reducción de dimensión PCA y optimización de características (PCA-MPA) con clasificadores KNN. Además, en el conjunto de datos voxceleb1, la optimización de características PCA-MPA con clasificadores KNN logra una precisión de identificación de hablantes del 95.2% y un SV EER de 1.8%. Estos hallazgos subrayan la mejora significativa en la velocidad computacional y el rendimiento del reconocimiento de hablantes facilitada por las estrategias de optimización de características.

Otros recursos que podrían interesarte

Temas Virtualpro