Comparación empírica entre clasificadores profundos y clásicos para la verificación de hablantes en entornos de conversación emocional
Autores: Nassif, Ali Bou; Shahin, Ismail; Lataifeh, Mohammed; Elnagar, Ashraf; Nemmour, Nawel
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Comparación empírica entre clasificadores profundos y clásicos para la verificación de hablantes en entornos de conversación emocional
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Señales de voz
Emociones
Clasificadores
Aprendizaje profundo
Verificación de hablantes
Bases de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las señales de voz llevan varios bits de información relevantes para el hablante, como la edad, el género, el acento, el idioma, la salud y las emociones. Las emociones se transmiten a través de modulaciones de expresiones faciales y vocales. Este documento realiza una comparación empírica de los rendimientos entre los clasificadores clásicos: Modelo de Mezcla Gaussiana (GMM), Máquina de Vectores de Soporte (SVM), K-Vecinos Más Cercanos (KNN), Redes Neuronales Artificiales (ANN); y los clasificadores de aprendizaje profundo, es decir, Memoria a Largo y Corto Plazo (LSTM), Red Neuronal Convolucional (CNN) y Unidad Recurrente Con Puerta (GRU), además del enfoque ivector para una tarea de verificación de hablantes independiente del texto en entornos de habla neutral y emocional. Los modelos profundos pasan por un ajuste de hiperparámetros utilizando el algoritmo de optimización Grid Search. Los modelos se entrenan y prueban utilizando una base de datos privada de habla árabe emiratí, la base de datos de audio y video de habla emocional y canción de Ryerson (RAVDESS) y una base de datos pública de actores multimodales emocionales de Crowd-Sourced (CREMA). Los resultados experimentales ilustran que las arquitecturas profundas no necesariamente superan a los clasificadores clásicos. De hecho, la evaluación se llevó a cabo a través de la Tasa de Error Igual (EER) junto con las puntuaciones del Área Bajo la Curva (AUC). Los hallazgos revelan que el modelo GMM produce los valores de EER más bajos y las mejores puntuaciones de AUC en todos los conjuntos de datos, entre los clasificadores clásicos. Además, el modelo ivector supera a todos los modelos profundos ajustados (CNN, LSTM y GRU) en función de ambas métricas de evaluación en el habla neutral, así como en la emocional. Además, el GMM supera al ivector utilizando las bases de datos emiratí y RAVDESS.
Descripción
Las señales de voz llevan varios bits de información relevantes para el hablante, como la edad, el género, el acento, el idioma, la salud y las emociones. Las emociones se transmiten a través de modulaciones de expresiones faciales y vocales. Este documento realiza una comparación empírica de los rendimientos entre los clasificadores clásicos: Modelo de Mezcla Gaussiana (GMM), Máquina de Vectores de Soporte (SVM), K-Vecinos Más Cercanos (KNN), Redes Neuronales Artificiales (ANN); y los clasificadores de aprendizaje profundo, es decir, Memoria a Largo y Corto Plazo (LSTM), Red Neuronal Convolucional (CNN) y Unidad Recurrente Con Puerta (GRU), además del enfoque ivector para una tarea de verificación de hablantes independiente del texto en entornos de habla neutral y emocional. Los modelos profundos pasan por un ajuste de hiperparámetros utilizando el algoritmo de optimización Grid Search. Los modelos se entrenan y prueban utilizando una base de datos privada de habla árabe emiratí, la base de datos de audio y video de habla emocional y canción de Ryerson (RAVDESS) y una base de datos pública de actores multimodales emocionales de Crowd-Sourced (CREMA). Los resultados experimentales ilustran que las arquitecturas profundas no necesariamente superan a los clasificadores clásicos. De hecho, la evaluación se llevó a cabo a través de la Tasa de Error Igual (EER) junto con las puntuaciones del Área Bajo la Curva (AUC). Los hallazgos revelan que el modelo GMM produce los valores de EER más bajos y las mejores puntuaciones de AUC en todos los conjuntos de datos, entre los clasificadores clásicos. Además, el modelo ivector supera a todos los modelos profundos ajustados (CNN, LSTM y GRU) en función de ambas métricas de evaluación en el habla neutral, así como en la emocional. Además, el GMM supera al ivector utilizando las bases de datos emiratí y RAVDESS.