Comparación empírica entre clasificadores profundos y clásicos para la verificación de hablantes en entornos de conversación emocional

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Comparación empírica entre clasificadores profundos y clásicos para la verificación de hablantes en entornos de conversación emocional

Autores: Nassif, Ali Bou; Shahin, Ismail; Lataifeh, Mohammed; Elnagar, Ashraf; Nemmour, Nawel

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Comparación empírica entre clasificadores profundos y clásicos para la verificación de hablantes en entornos de conversación emocional

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Señales de voz

Emociones

Clasificadores

Aprendizaje profundo

Verificación de hablantes

Bases de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Las señales de voz llevan varios bits de información relevantes para el hablante, como la edad, el género, el acento, el idioma, la salud y las emociones. Las emociones se transmiten a través de modulaciones de expresiones faciales y vocales. Este documento realiza una comparación empírica de los rendimientos entre los clasificadores clásicos: Modelo de Mezcla Gaussiana (GMM), Máquina de Vectores de Soporte (SVM), K-Vecinos Más Cercanos (KNN), Redes Neuronales Artificiales (ANN); y los clasificadores de aprendizaje profundo, es decir, Memoria a Largo y Corto Plazo (LSTM), Red Neuronal Convolucional (CNN) y Unidad Recurrente Con Puerta (GRU), además del enfoque ivector para una tarea de verificación de hablantes independiente del texto en entornos de habla neutral y emocional. Los modelos profundos pasan por un ajuste de hiperparámetros utilizando el algoritmo de optimización Grid Search. Los modelos se entrenan y prueban utilizando una base de datos privada de habla árabe emiratí, la base de datos de audio y video de habla emocional y canción de Ryerson (RAVDESS) y una base de datos pública de actores multimodales emocionales de Crowd-Sourced (CREMA). Los resultados experimentales ilustran que las arquitecturas profundas no necesariamente superan a los clasificadores clásicos. De hecho, la evaluación se llevó a cabo a través de la Tasa de Error Igual (EER) junto con las puntuaciones del Área Bajo la Curva (AUC). Los hallazgos revelan que el modelo GMM produce los valores de EER más bajos y las mejores puntuaciones de AUC en todos los conjuntos de datos, entre los clasificadores clásicos. Además, el modelo ivector supera a todos los modelos profundos ajustados (CNN, LSTM y GRU) en función de ambas métricas de evaluación en el habla neutral, así como en la emocional. Además, el GMM supera al ivector utilizando las bases de datos emiratí y RAVDESS.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro