Verificación del hablante empleando combinaciones de mecanismos de autoatención
Autores: Bae, Ara; Kim, Wooil
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Verificación del hablante empleando combinaciones de mecanismos de autoatención
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Métodos recientes de reconocimiento de locutores
Mecanismo de atención
Atención multi-cabeza
Incrustación
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
Uno de los métodos de reconocimiento de hablantes más recientes que demuestra un rendimiento sobresaliente en entornos ruidosos implica extraer el incrustado del hablante utilizando un mecanismo de atención en lugar de un promedio o agrupación estadística. En el método de atención, el rendimiento del reconocimiento del hablante se mejora al emplear múltiples cabezas en lugar de una sola cabeza. En este documento, proponemos métodos avanzados para extraer un nuevo incrustado compensando las desventajas de los métodos de atención de una sola cabeza y de varias cabezas. El método de combinación que comprende atenciones de una sola cabeza y de varias cabezas basadas en divisiones muestra una Tasa de Error Igual (EER) del 5.39%. Cuando se combinan los métodos de atención de una sola cabeza y de varias cabezas basadas en proyecciones, el rendimiento del reconocimiento del hablante mejora en un 4.45%, que es el mejor rendimiento en este trabajo. Nuestros resultados experimentales demuestran que el mecanismo de atención refleja las propiedades del hablante de manera más efectiva que el promedio o la agrupación estadística, y que el sistema de verificación del hablante podría mejorarse aún más al emplear combinaciones de diferentes técnicas de atención.
Descripción
Uno de los métodos de reconocimiento de hablantes más recientes que demuestra un rendimiento sobresaliente en entornos ruidosos implica extraer el incrustado del hablante utilizando un mecanismo de atención en lugar de un promedio o agrupación estadística. En el método de atención, el rendimiento del reconocimiento del hablante se mejora al emplear múltiples cabezas en lugar de una sola cabeza. En este documento, proponemos métodos avanzados para extraer un nuevo incrustado compensando las desventajas de los métodos de atención de una sola cabeza y de varias cabezas. El método de combinación que comprende atenciones de una sola cabeza y de varias cabezas basadas en divisiones muestra una Tasa de Error Igual (EER) del 5.39%. Cuando se combinan los métodos de atención de una sola cabeza y de varias cabezas basadas en proyecciones, el rendimiento del reconocimiento del hablante mejora en un 4.45%, que es el mejor rendimiento en este trabajo. Nuestros resultados experimentales demuestran que el mecanismo de atención refleja las propiedades del hablante de manera más efectiva que el promedio o la agrupación estadística, y que el sistema de verificación del hablante podría mejorarse aún más al emplear combinaciones de diferentes técnicas de atención.