logo móvil
Contáctanos

Sistema de verificación de hablantes independiente de texto con agregación de múltiples capas auto-atentas con recalibración de características y normalización de longitud profunda

Autores: Seo, Soonshin; Kim, Ji-Hwan

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Sistema de verificación de hablantes independiente de texto con agregación de múltiples capas auto-atentas con recalibración de características y normalización de longitud profunda


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Generación de incrustaciones del altavoz
Agregación de múltiples capas
Autoatentiva
Recalibración de características
Normalización profunda de longitud
Parámetros del modelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Una de las partes más importantes de un sistema de verificación de locutor independiente de texto es la generación de incrustaciones de locutor. Estudios anteriores demostraron que la agregación de múltiples capas basada en conexiones directas mejora el poder representativo de un sistema de incrustación de locutor. Sin embargo, los parámetros del modelo son relativamente numerosos y las variaciones no especificadas aumentan en la agregación de múltiples capas. Por lo tanto, en este estudio, proponemos una agregación de múltiples capas auto-atentiva con recalibración de características y normalización profunda de la longitud para un sistema de verificación de locutor independiente de texto. Para reducir el número de parámetros del modelo, establecemos el ResNet con el ancho de canal escalado y la profundidad de capa como línea de base. Para controlar la variabilidad en el entrenamiento, aplicamos un mecanismo de autoatención para realizar una agregación de múltiples capas con regularizaciones de abandono y normalizaciones por lotes. Posteriormente, aplicamos una capa de recalibración de características a la característica agregada utilizando capas completamente conectadas y funciones de activación no lineales. Además, se utiliza normalización profunda de la longitud en una característica recalibrada en el proceso de entrenamiento. Los resultados experimentales utilizando el conjunto de datos de evaluación VoxCeleb1 mostraron que el rendimiento de los métodos propuestos fue comparable al de los modelos de última generación (tasa de error igual al 4,95% y 2,86%, utilizando los conjuntos de datos de entrenamiento VoxCeleb1 y VoxCeleb2, respectivamente).

Otros recursos que podrían interesarte

Temas Virtualpro