Extracción de orador objetivo utilizando una red convolucional temporal mejorada con atención
Autores: Wang, Jian-Hong; Lai, Yen-Ting; Tai, Tzu-Chiang; Le, Phuong Thi; Pham, Tuan; Wang, Ze-Yu; Li, Yung-Hui; Wang, Jia-Ching; Chang, Pao-Chi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Extracción de orador objetivo utilizando una red convolucional temporal mejorada con atención
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Conversaciones
Reconocimiento automático del habla
Mecanismos de preprocesamiento
Separación de voz
Aprendizaje profundo
Red convolucional temporal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Al grabar conversaciones, puede haber varias personas hablando al mismo tiempo. Mientras que nuestros oídos humanos pueden filtrar los sonidos no deseados, esto puede ser un desafío para los sistemas de reconocimiento automático del habla (ASR), lo que lleva a una precisión reducida. Para abordar este problema, son necesarios mecanismos de preprocesamiento como la separación del habla y la extracción dirigida de hablantes para separar el discurso de cada persona. Con el desarrollo del aprendizaje profundo, la calidad del discurso separado ha mejorado significativamente. Nuestro objetivo es centrarnos en la extracción de hablantes, lo que implica implementar un sistema principal para la extracción del habla y un subsistema secundario para proporcionar información objetivo. Para lograr esto, hemos elegido una arquitectura de red convolucional temporal (TCN) como base de nuestro modelo de extracción del habla. Un TCN permite que las redes neuronales convolucionales (CNN) gestionen la modelización de series temporales, y puede construirse en diversas longitudes de modelos. Además, hemos integrado un mecanismo de atención mejorada en el subsistema secundario para proporcionar al modelo de extracción del habla información objetivo completa y efectiva, lo que ayuda a mejorar la capacidad del modelo para estimar máscaras. Como resultado, la calidad de la extracción del hablante objetivo se mejorará considerablemente con una máscara más precisa.
Descripción
Al grabar conversaciones, puede haber varias personas hablando al mismo tiempo. Mientras que nuestros oídos humanos pueden filtrar los sonidos no deseados, esto puede ser un desafío para los sistemas de reconocimiento automático del habla (ASR), lo que lleva a una precisión reducida. Para abordar este problema, son necesarios mecanismos de preprocesamiento como la separación del habla y la extracción dirigida de hablantes para separar el discurso de cada persona. Con el desarrollo del aprendizaje profundo, la calidad del discurso separado ha mejorado significativamente. Nuestro objetivo es centrarnos en la extracción de hablantes, lo que implica implementar un sistema principal para la extracción del habla y un subsistema secundario para proporcionar información objetivo. Para lograr esto, hemos elegido una arquitectura de red convolucional temporal (TCN) como base de nuestro modelo de extracción del habla. Un TCN permite que las redes neuronales convolucionales (CNN) gestionen la modelización de series temporales, y puede construirse en diversas longitudes de modelos. Además, hemos integrado un mecanismo de atención mejorada en el subsistema secundario para proporcionar al modelo de extracción del habla información objetivo completa y efectiva, lo que ayuda a mejorar la capacidad del modelo para estimar máscaras. Como resultado, la calidad de la extracción del hablante objetivo se mejorará considerablemente con una máscara más precisa.