Sistema de verificación de hablantes independiente de texto con agregación de múltiples capas auto-atentas con recalibración de características y normalización de longitud profunda
Autores: Seo, Soonshin; Kim, Ji-Hwan
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Sistema de verificación de hablantes independiente de texto con agregación de múltiples capas auto-atentas con recalibración de características y normalización de longitud profunda
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Generación de incrustaciones del altavoz
Agregación de múltiples capas
Autoatentiva
Recalibración de características
Normalización profunda de longitud
Parámetros del modelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Una de las partes más importantes de un sistema de verificación de locutor independiente de texto es la generación de incrustaciones de locutor. Estudios anteriores demostraron que la agregación de múltiples capas basada en conexiones directas mejora el poder representativo de un sistema de incrustación de locutor. Sin embargo, los parámetros del modelo son relativamente numerosos y las variaciones no especificadas aumentan en la agregación de múltiples capas. Por lo tanto, en este estudio, proponemos una agregación de múltiples capas auto-atentiva con recalibración de características y normalización profunda de la longitud para un sistema de verificación de locutor independiente de texto. Para reducir el número de parámetros del modelo, establecemos el ResNet con el ancho de canal escalado y la profundidad de capa como línea de base. Para controlar la variabilidad en el entrenamiento, aplicamos un mecanismo de autoatención para realizar una agregación de múltiples capas con regularizaciones de abandono y normalizaciones por lotes. Posteriormente, aplicamos una capa de recalibración de características a la característica agregada utilizando capas completamente conectadas y funciones de activación no lineales. Además, se utiliza normalización profunda de la longitud en una característica recalibrada en el proceso de entrenamiento. Los resultados experimentales utilizando el conjunto de datos de evaluación VoxCeleb1 mostraron que el rendimiento de los métodos propuestos fue comparable al de los modelos de última generación (tasa de error igual al 4,95% y 2,86%, utilizando los conjuntos de datos de entrenamiento VoxCeleb1 y VoxCeleb2, respectivamente).
Descripción
Una de las partes más importantes de un sistema de verificación de locutor independiente de texto es la generación de incrustaciones de locutor. Estudios anteriores demostraron que la agregación de múltiples capas basada en conexiones directas mejora el poder representativo de un sistema de incrustación de locutor. Sin embargo, los parámetros del modelo son relativamente numerosos y las variaciones no especificadas aumentan en la agregación de múltiples capas. Por lo tanto, en este estudio, proponemos una agregación de múltiples capas auto-atentiva con recalibración de características y normalización profunda de la longitud para un sistema de verificación de locutor independiente de texto. Para reducir el número de parámetros del modelo, establecemos el ResNet con el ancho de canal escalado y la profundidad de capa como línea de base. Para controlar la variabilidad en el entrenamiento, aplicamos un mecanismo de autoatención para realizar una agregación de múltiples capas con regularizaciones de abandono y normalizaciones por lotes. Posteriormente, aplicamos una capa de recalibración de características a la característica agregada utilizando capas completamente conectadas y funciones de activación no lineales. Además, se utiliza normalización profunda de la longitud en una característica recalibrada en el proceso de entrenamiento. Los resultados experimentales utilizando el conjunto de datos de evaluación VoxCeleb1 mostraron que el rendimiento de los métodos propuestos fue comparable al de los modelos de última generación (tasa de error igual al 4,95% y 2,86%, utilizando los conjuntos de datos de entrenamiento VoxCeleb1 y VoxCeleb2, respectivamente).