Sistema de Conjuntos de Redes Neuronales Profundas para la Separación de Audio de Canal Único
Autores: Al-Kaltakchi, Musab T. S.; Mohammad, Ahmad Saeed; Woo, Wai Lok
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Sistema de Conjuntos de Redes Neuronales Profundas para la Separación de Audio de Canal Único
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Separación de habla
Máscara binaria ideal
Clasificación supervisada
Extracción de características
Red neuronal profunda
Máquina de aprendizaje extremo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La separación de voz es un problema bien conocido, especialmente cuando solo hay una mezcla de sonido disponible. Estimar la Máscara Binaria Ideal (IBM) es una solución a este problema. Investigaciones recientes se han centrado en el enfoque de clasificación supervisada. El desafío de extraer características de las fuentes es crítico para este método. La separación de voz se ha logrado utilizando una variedad de modelos de extracción de características. Sin embargo, la mayoría de ellos se concentran en una sola característica. La naturaleza complementaria de varias características no ha sido investigada a fondo. En este artículo, proponemos una arquitectura de conjunto de redes neuronales profundas (DNN) para explorar completamente la naturaleza complementaria de las diversas características obtenidas de características acústicas en bruto. Examinamos las representaciones discriminativas penúltimas en lugar de emplear las características adquiridas de la capa de salida. Las representaciones aprendidas también se fusionaron para producir un nuevo vector de características, que luego fue clasificado utilizando la Máquina de Aprendizaje Extremo (ELM). Además, se creó un algoritmo genético (GA) para optimizar los parámetros de manera global. Los resultados de los experimentos mostraron que nuestro sistema propuesto consideró completamente varias características y produjo una IBM de alta calidad en diferentes condiciones.
Descripción
La separación de voz es un problema bien conocido, especialmente cuando solo hay una mezcla de sonido disponible. Estimar la Máscara Binaria Ideal (IBM) es una solución a este problema. Investigaciones recientes se han centrado en el enfoque de clasificación supervisada. El desafío de extraer características de las fuentes es crítico para este método. La separación de voz se ha logrado utilizando una variedad de modelos de extracción de características. Sin embargo, la mayoría de ellos se concentran en una sola característica. La naturaleza complementaria de varias características no ha sido investigada a fondo. En este artículo, proponemos una arquitectura de conjunto de redes neuronales profundas (DNN) para explorar completamente la naturaleza complementaria de las diversas características obtenidas de características acústicas en bruto. Examinamos las representaciones discriminativas penúltimas en lugar de emplear las características adquiridas de la capa de salida. Las representaciones aprendidas también se fusionaron para producir un nuevo vector de características, que luego fue clasificado utilizando la Máquina de Aprendizaje Extremo (ELM). Además, se creó un algoritmo genético (GA) para optimizar los parámetros de manera global. Los resultados de los experimentos mostraron que nuestro sistema propuesto consideró completamente varias características y produjo una IBM de alta calidad en diferentes condiciones.