Reconocimiento de hablantes basado en la fusión de un supervector supervectorial gaussiano profundo y superficial

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Reconocimiento de hablantes basado en la fusión de un supervector supervectorial gaussiano profundo y superficial

Autores: Sun, Linhui; Bu, Yunyi; Zou, Bo; Fu, Sheng; Li, Pingan

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

Reconocimiento de hablantes basado en la fusión de un supervector supervectorial gaussiano profundo y superficial

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de locutor

Extracción de características

Característica de fusión

Super vector gaussiano

Red Neuronal Profunda

Coeficiente Cepstral de Mel-Frecuencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

La extracción de parámetros de características personalizadas del hablante es vital para el reconocimiento de voz. Solo un tipo de característica no puede reflejar completamente la información de personalidad del hablante. Con el fin de representar la identidad del hablante de manera más completa y mejorar la tasa de reconocimiento del hablante, proponemos un método de reconocimiento de voz basado en la fusión de características de un supervector gaussiano de recombinación profunda y superficial. En este método, las características del cuello de botella profundo se extraen primero mediante la Red Neuronal Profunda (DNN), que se utilizan como entrada del Modelo de Mezcla Gaussiana (GMM) para obtener el supervector gaussiano profundo. Por otro lado, introducimos los Coeficientes Cepstrales de Mel-Frecuencia (MFCC) directamente al GMM para extraer el supervector gaussiano tradicional. Finalmente, las dos categorías de características se combinan en forma de aumento de dimensión horizontal. Además, cuando el número de hablantes a reconocer aumenta, para evitar que la tasa de reconocimiento del sistema caiga bruscamente, introducimos el algoritmo de optimización para encontrar el peso óptimo antes de la fusión de características. Los resultados del experimento indican que la tasa de reconocimiento del hablante basada en la característica que se fusiona directamente puede alcanzar el 98.75%, que es un 5% y un 0.62% más alto que la característica tradicional y la característica del cuello de botella profundo, respectivamente. Cuando el número de hablantes aumenta, la característica de fusión basada en coeficientes de peso optimizados puede mejorar la tasa de reconocimiento en un 0.81%. Se valida que nuestro método de fusión propuesto puede considerar efectivamente la complementariedad de los diferentes tipos de características y mejorar la tasa de reconocimiento del hablante.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro