Sistema de verificación de hablantes independiente de texto con agregación de múltiples capas auto-atentas con recalibración de características y normalización de longitud profunda

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Sistema de verificación de hablantes independiente de texto con agregación de múltiples capas auto-atentas con recalibración de características y normalización de longitud profunda

Autores: Seo, Soonshin; Kim, Ji-Hwan

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

Sistema de verificación de hablantes independiente de texto con agregación de múltiples capas auto-atentas con recalibración de características y normalización de longitud profunda

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Generación de incrustaciones del altavoz

Agregación de múltiples capas

Autoatentiva

Recalibración de características

Normalización profunda de longitud

Parámetros del modelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones

Una de las partes más importantes de un sistema de verificación de locutor independiente de texto es la generación de incrustaciones de locutor. Estudios anteriores demostraron que la agregación de múltiples capas basada en conexiones directas mejora el poder representativo de un sistema de incrustación de locutor. Sin embargo, los parámetros del modelo son relativamente numerosos y las variaciones no especificadas aumentan en la agregación de múltiples capas. Por lo tanto, en este estudio, proponemos una agregación de múltiples capas auto-atentiva con recalibración de características y normalización profunda de la longitud para un sistema de verificación de locutor independiente de texto. Para reducir el número de parámetros del modelo, establecemos el ResNet con el ancho de canal escalado y la profundidad de capa como línea de base. Para controlar la variabilidad en el entrenamiento, aplicamos un mecanismo de autoatención para realizar una agregación de múltiples capas con regularizaciones de abandono y normalizaciones por lotes. Posteriormente, aplicamos una capa de recalibración de características a la característica agregada utilizando capas completamente conectadas y funciones de activación no lineales. Además, se utiliza normalización profunda de la longitud en una característica recalibrada en el proceso de entrenamiento. Los resultados experimentales utilizando el conjunto de datos de evaluación VoxCeleb1 mostraron que el rendimiento de los métodos propuestos fue comparable al de los modelos de última generación (tasa de error igual al 4,95% y 2,86%, utilizando los conjuntos de datos de entrenamiento VoxCeleb1 y VoxCeleb2, respectivamente).

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro