Extracción de orador objetivo utilizando una red convolucional temporal mejorada con atención

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Extracción de orador objetivo utilizando una red convolucional temporal mejorada con atención

Autores: Wang, Jian-Hong; Lai, Yen-Ting; Tai, Tzu-Chiang; Le, Phuong Thi; Pham, Tuan; Wang, Ze-Yu; Li, Yung-Hui; Wang, Jia-Ching; Chang, Pao-Chi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Extracción de orador objetivo utilizando una red convolucional temporal mejorada con atención

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Conversaciones

Reconocimiento automático del habla

Mecanismos de preprocesamiento

Separación de voz

Aprendizaje profundo

Red convolucional temporal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones

Al grabar conversaciones, puede haber varias personas hablando al mismo tiempo. Mientras que nuestros oídos humanos pueden filtrar los sonidos no deseados, esto puede ser un desafío para los sistemas de reconocimiento automático del habla (ASR), lo que lleva a una precisión reducida. Para abordar este problema, son necesarios mecanismos de preprocesamiento como la separación del habla y la extracción dirigida de hablantes para separar el discurso de cada persona. Con el desarrollo del aprendizaje profundo, la calidad del discurso separado ha mejorado significativamente. Nuestro objetivo es centrarnos en la extracción de hablantes, lo que implica implementar un sistema principal para la extracción del habla y un subsistema secundario para proporcionar información objetivo. Para lograr esto, hemos elegido una arquitectura de red convolucional temporal (TCN) como base de nuestro modelo de extracción del habla. Un TCN permite que las redes neuronales convolucionales (CNN) gestionen la modelización de series temporales, y puede construirse en diversas longitudes de modelos. Además, hemos integrado un mecanismo de atención mejorada en el subsistema secundario para proporcionar al modelo de extracción del habla información objetivo completa y efectiva, lo que ayuda a mejorar la capacidad del modelo para estimar máscaras. Como resultado, la calidad de la extracción del hablante objetivo se mejorará considerablemente con una máscara más precisa.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro