logo móvil
Contáctanos

Extracción de orador objetivo utilizando una red convolucional temporal mejorada con atención

Autores: Wang, Jian-Hong; Lai, Yen-Ting; Tai, Tzu-Chiang; Le, Phuong Thi; Pham, Tuan; Wang, Ze-Yu; Li, Yung-Hui; Wang, Jia-Ching; Chang, Pao-Chi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Extracción de orador objetivo utilizando una red convolucional temporal mejorada con atención


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Conversaciones
Reconocimiento automático del habla
Mecanismos de preprocesamiento
Separación de voz
Aprendizaje profundo
Red convolucional temporal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Al grabar conversaciones, puede haber varias personas hablando al mismo tiempo. Mientras que nuestros oídos humanos pueden filtrar los sonidos no deseados, esto puede ser un desafío para los sistemas de reconocimiento automático del habla (ASR), lo que lleva a una precisión reducida. Para abordar este problema, son necesarios mecanismos de preprocesamiento como la separación del habla y la extracción dirigida de hablantes para separar el discurso de cada persona. Con el desarrollo del aprendizaje profundo, la calidad del discurso separado ha mejorado significativamente. Nuestro objetivo es centrarnos en la extracción de hablantes, lo que implica implementar un sistema principal para la extracción del habla y un subsistema secundario para proporcionar información objetivo. Para lograr esto, hemos elegido una arquitectura de red convolucional temporal (TCN) como base de nuestro modelo de extracción del habla. Un TCN permite que las redes neuronales convolucionales (CNN) gestionen la modelización de series temporales, y puede construirse en diversas longitudes de modelos. Además, hemos integrado un mecanismo de atención mejorada en el subsistema secundario para proporcionar al modelo de extracción del habla información objetivo completa y efectiva, lo que ayuda a mejorar la capacidad del modelo para estimar máscaras. Como resultado, la calidad de la extracción del hablante objetivo se mejorará considerablemente con una máscara más precisa.

Otros recursos que podrían interesarte

Temas Virtualpro