Clase-GE2E: verificación de locutor utilizando autoatención y aprendizaje por transferencia con combinación de pérdidas
Autores: Bae, Ara; Kim, Wooil
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Clase-GE2E: verificación de locutor utilizando autoatención y aprendizaje por transferencia con combinación de pérdidas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Estudios
Verificación de altavoz
Mecanismo de atención
Atención multi-cabeza
Aprendizaje por transferencia
Funciones de pérdida
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Estudios recientes demuestran que el rendimiento de verificación de hablantes mejora al emplear un mecanismo de atención en comparación con el uso de técnicas de agrupación temporal y estadística. Este documento propone un método avanzado de atención de múltiples cabezas, que utiliza un vector ordenado de las características a nivel de fotograma para considerar una correlación más alta. En este estudio, también proponemos un esquema de aprendizaje por transferencia para maximizar la efectividad de las dos funciones de pérdida, que son la función de pérdida de entropía cruzada basada en clasificadores y la función de pérdida GE2E basada en métricas, para aprender la distancia entre las incrustaciones. El método de atención de múltiples cabezas ordenado (SMHA) supera a los métodos de atención convencionales mostrando un 4.55% en la tasa de error igual (EER). El esquema de aprendizaje por transferencia propuesto con la función de pérdida Class-GE2E mejoró significativamente nuestros sistemas basados en atención. En particular, la EER del SMHA disminuyó a 4.39% al emplear el aprendizaje por transferencia con la pérdida Class-GE2E. Los resultados experimentales demuestran que nuestro esfuerzo por incluir una mayor correlación entre las características a nivel de fotograma para el procesamiento de atención de múltiples cabezas, y la combinación de dos funciones de pérdida diferentes a través del aprendizaje por transferencia, es altamente efectivo para mejorar el rendimiento de verificación de hablantes.
Descripción
Estudios recientes demuestran que el rendimiento de verificación de hablantes mejora al emplear un mecanismo de atención en comparación con el uso de técnicas de agrupación temporal y estadística. Este documento propone un método avanzado de atención de múltiples cabezas, que utiliza un vector ordenado de las características a nivel de fotograma para considerar una correlación más alta. En este estudio, también proponemos un esquema de aprendizaje por transferencia para maximizar la efectividad de las dos funciones de pérdida, que son la función de pérdida de entropía cruzada basada en clasificadores y la función de pérdida GE2E basada en métricas, para aprender la distancia entre las incrustaciones. El método de atención de múltiples cabezas ordenado (SMHA) supera a los métodos de atención convencionales mostrando un 4.55% en la tasa de error igual (EER). El esquema de aprendizaje por transferencia propuesto con la función de pérdida Class-GE2E mejoró significativamente nuestros sistemas basados en atención. En particular, la EER del SMHA disminuyó a 4.39% al emplear el aprendizaje por transferencia con la pérdida Class-GE2E. Los resultados experimentales demuestran que nuestro esfuerzo por incluir una mayor correlación entre las características a nivel de fotograma para el procesamiento de atención de múltiples cabezas, y la combinación de dos funciones de pérdida diferentes a través del aprendizaje por transferencia, es altamente efectivo para mejorar el rendimiento de verificación de hablantes.