Sobre los objetivos de entrenamiento y las funciones de activación para el aprendizaje de representaciones profundas en la verificación de hablantes dependiente del texto
Autores: Sarkar, Achintya Kumar; Tan, Zheng-Hua
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Sobre los objetivos de entrenamiento y las funciones de activación para el aprendizaje de representaciones profundas en la verificación de hablantes dependiente del texto
Categoría
Artes
Subcategoría
Música
Palabras clave
Aprendizaje profundo de representaciones
Verificación de hablantes dependiente del texto
Redes neuronales profundas
Características de cuellos de botella
Objetivos de entrenamiento
Funciones de activación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 14
Citaciones: Sin citaciones
El aprendizaje profundo de representaciones ha ganado un impulso significativo en el avance de los sistemas de verificación de hablantes dependientes del texto (TD-SV). Al diseñar redes neuronales profundas (DNN) para extraer características de cuellos de botella (BN), las consideraciones clave incluyen los objetivos de entrenamiento, las funciones de activación y las funciones de pérdida. En este artículo, estudiamos sistemáticamente el impacto de estas elecciones en el rendimiento de TD-SV. Para los objetivos de entrenamiento, consideramos la identidad del hablante, el aprendizaje contrastivo temporal (TCL) y la codificación de predicción autorregresiva, siendo el primero supervisado y los últimos dos auto-supervisados. Además, estudiamos una variedad de funciones de pérdida cuando se utiliza la identidad del hablante como objetivo de entrenamiento. Con respecto a las funciones de activación, estudiamos la función sigmoide ampliamente utilizada, la unidad lineal rectificada (ReLU) y la unidad lineal de error gaussiano (GELU). Mostramos experimentalmente que GELU puede reducir significativamente las tasas de error de TD-SV en comparación con la sigmoide, independientemente del objetivo de entrenamiento. Entre los tres objetivos de entrenamiento, TCL tiene el mejor rendimiento. Entre las diversas funciones de pérdida, las funciones de pérdida de entropía cruzada, joint-softmax y focal superan a las demás. Finalmente, la fusión a nivel de puntuación de diferentes sistemas también puede reducir las tasas de error. Para evaluar los métodos de aprendizaje de representaciones, se realizan experimentos en la base de datos del desafío RedDots 2016, que consiste en cortas expresiones para sistemas TD-SV basados en el modelo clásico de mezcla gaussiana-modelo de fondo universal (GMM-UBM) y métodos de i-vector.
Descripción
El aprendizaje profundo de representaciones ha ganado un impulso significativo en el avance de los sistemas de verificación de hablantes dependientes del texto (TD-SV). Al diseñar redes neuronales profundas (DNN) para extraer características de cuellos de botella (BN), las consideraciones clave incluyen los objetivos de entrenamiento, las funciones de activación y las funciones de pérdida. En este artículo, estudiamos sistemáticamente el impacto de estas elecciones en el rendimiento de TD-SV. Para los objetivos de entrenamiento, consideramos la identidad del hablante, el aprendizaje contrastivo temporal (TCL) y la codificación de predicción autorregresiva, siendo el primero supervisado y los últimos dos auto-supervisados. Además, estudiamos una variedad de funciones de pérdida cuando se utiliza la identidad del hablante como objetivo de entrenamiento. Con respecto a las funciones de activación, estudiamos la función sigmoide ampliamente utilizada, la unidad lineal rectificada (ReLU) y la unidad lineal de error gaussiano (GELU). Mostramos experimentalmente que GELU puede reducir significativamente las tasas de error de TD-SV en comparación con la sigmoide, independientemente del objetivo de entrenamiento. Entre los tres objetivos de entrenamiento, TCL tiene el mejor rendimiento. Entre las diversas funciones de pérdida, las funciones de pérdida de entropía cruzada, joint-softmax y focal superan a las demás. Finalmente, la fusión a nivel de puntuación de diferentes sistemas también puede reducir las tasas de error. Para evaluar los métodos de aprendizaje de representaciones, se realizan experimentos en la base de datos del desafío RedDots 2016, que consiste en cortas expresiones para sistemas TD-SV basados en el modelo clásico de mezcla gaussiana-modelo de fondo universal (GMM-UBM) y métodos de i-vector.