Evaluación basada en la identificación del lenguaje de la separación de discursos superpuestos en un solo canal
Autores: Aysa, Zuhragvl; Ablimit, Mijit; Yilahun, Hankiz; Hamdulla, Askar
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Evaluación basada en la identificación del lenguaje de la separación de discursos superpuestos en un solo canal
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Discurso
Separación
Idioma
Identificación
Tareas posteriores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 2
Citaciones: Sin citaciones
En entornos multilingües y de múltiples hablantes (por ejemplo, en escenarios de conferencias internacionales), el habla, el lenguaje y los sonidos de fondo pueden superponerse. En escenarios del mundo real, se necesitan técnicas de separación de fuentes para separar los sonidos objetivo. Las tareas posteriores, como el reconocimiento automático de voz (ASR), el reconocimiento de hablantes, el reconocimiento del habla, la detección de actividad de voz (VAD), etc., se pueden combinar con tareas de separación de habla para obtener una mejor comprensión. Dado que la mayoría de los métodos de evaluación para la separación monofónica son ya sea únicos o subjetivos, este artículo utilizó la tarea de reconocimiento posterior como un criterio de evaluación general. Así, el rendimiento podría evaluarse directamente mediante las métricas de la tarea posterior. En este artículo, investigamos un esquema de entrenamiento en dos etapas que combinaba tareas de separación de habla e identificación de idiomas. Para analizar y optimizar el rendimiento de separación del habla superpuesta de un solo canal, el habla separada se alimentó a un motor de identificación de idiomas para evaluar su precisión. El modelo de separación de habla era una red de separación de habla de un solo canal entrenada con WSJ0-2mix. Para el sistema de identificación de idiomas, utilizamos un conjunto de datos de idiomas orientales y un conjunto de datos sintetizado mediante la mezcla directa de diferentes proporciones de grupos de habla. El efecto combinado de estos dos modelos se evaluó para varios escenarios de habla superpuesta. Cuando el modelo de red de identificación de idiomas se basó en características del espectro de frecuencia de habla de una sola persona, el chino, el japonés, el coreano, el indonesio y el vietnamita mostraron resultados de reconocimiento significativamente mejorados en comparación con el espectro de audio mezclado.
Descripción
En entornos multilingües y de múltiples hablantes (por ejemplo, en escenarios de conferencias internacionales), el habla, el lenguaje y los sonidos de fondo pueden superponerse. En escenarios del mundo real, se necesitan técnicas de separación de fuentes para separar los sonidos objetivo. Las tareas posteriores, como el reconocimiento automático de voz (ASR), el reconocimiento de hablantes, el reconocimiento del habla, la detección de actividad de voz (VAD), etc., se pueden combinar con tareas de separación de habla para obtener una mejor comprensión. Dado que la mayoría de los métodos de evaluación para la separación monofónica son ya sea únicos o subjetivos, este artículo utilizó la tarea de reconocimiento posterior como un criterio de evaluación general. Así, el rendimiento podría evaluarse directamente mediante las métricas de la tarea posterior. En este artículo, investigamos un esquema de entrenamiento en dos etapas que combinaba tareas de separación de habla e identificación de idiomas. Para analizar y optimizar el rendimiento de separación del habla superpuesta de un solo canal, el habla separada se alimentó a un motor de identificación de idiomas para evaluar su precisión. El modelo de separación de habla era una red de separación de habla de un solo canal entrenada con WSJ0-2mix. Para el sistema de identificación de idiomas, utilizamos un conjunto de datos de idiomas orientales y un conjunto de datos sintetizado mediante la mezcla directa de diferentes proporciones de grupos de habla. El efecto combinado de estos dos modelos se evaluó para varios escenarios de habla superpuesta. Cuando el modelo de red de identificación de idiomas se basó en características del espectro de frecuencia de habla de una sola persona, el chino, el japonés, el coreano, el indonesio y el vietnamita mostraron resultados de reconocimiento significativamente mejorados en comparación con el espectro de audio mezclado.