logo móvil
Contáctanos

Reconocimiento de hablantes basado en la fusión de un supervector supervectorial gaussiano profundo y superficial

Autores: Sun, Linhui; Bu, Yunyi; Zou, Bo; Fu, Sheng; Li, Pingan

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Reconocimiento de hablantes basado en la fusión de un supervector supervectorial gaussiano profundo y superficial


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de locutor
Extracción de características
Característica de fusión
Super vector gaussiano
Red Neuronal Profunda
Coeficiente Cepstral de Mel-Frecuencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
La extracción de parámetros de características personalizadas del hablante es vital para el reconocimiento de voz. Solo un tipo de característica no puede reflejar completamente la información de personalidad del hablante. Con el fin de representar la identidad del hablante de manera más completa y mejorar la tasa de reconocimiento del hablante, proponemos un método de reconocimiento de voz basado en la fusión de características de un supervector gaussiano de recombinación profunda y superficial. En este método, las características del cuello de botella profundo se extraen primero mediante la Red Neuronal Profunda (DNN), que se utilizan como entrada del Modelo de Mezcla Gaussiana (GMM) para obtener el supervector gaussiano profundo. Por otro lado, introducimos los Coeficientes Cepstrales de Mel-Frecuencia (MFCC) directamente al GMM para extraer el supervector gaussiano tradicional. Finalmente, las dos categorías de características se combinan en forma de aumento de dimensión horizontal. Además, cuando el número de hablantes a reconocer aumenta, para evitar que la tasa de reconocimiento del sistema caiga bruscamente, introducimos el algoritmo de optimización para encontrar el peso óptimo antes de la fusión de características. Los resultados del experimento indican que la tasa de reconocimiento del hablante basada en la característica que se fusiona directamente puede alcanzar el 98.75%, que es un 5% y un 0.62% más alto que la característica tradicional y la característica del cuello de botella profundo, respectivamente. Cuando el número de hablantes aumenta, la característica de fusión basada en coeficientes de peso optimizados puede mejorar la tasa de reconocimiento en un 0.81%. Se valida que nuestro método de fusión propuesto puede considerar efectivamente la complementariedad de los diferentes tipos de características y mejorar la tasa de reconocimiento del hablante.

Otros recursos que podrían interesarte

Temas Virtualpro