logo móvil
Contáctanos

Evaluación basada en la identificación del lenguaje de la separación de discursos superpuestos en un solo canal

Autores: Aysa, Zuhragvl; Ablimit, Mijit; Yilahun, Hankiz; Hamdulla, Askar

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Evaluación basada en la identificación del lenguaje de la separación de discursos superpuestos en un solo canal


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Discurso
Separación
Idioma
Identificación
Tareas posteriores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 2

Citaciones: Sin citaciones


Descripción
En entornos multilingües y de múltiples hablantes (por ejemplo, en escenarios de conferencias internacionales), el habla, el lenguaje y los sonidos de fondo pueden superponerse. En escenarios del mundo real, se necesitan técnicas de separación de fuentes para separar los sonidos objetivo. Las tareas posteriores, como el reconocimiento automático de voz (ASR), el reconocimiento de hablantes, el reconocimiento del habla, la detección de actividad de voz (VAD), etc., se pueden combinar con tareas de separación de habla para obtener una mejor comprensión. Dado que la mayoría de los métodos de evaluación para la separación monofónica son ya sea únicos o subjetivos, este artículo utilizó la tarea de reconocimiento posterior como un criterio de evaluación general. Así, el rendimiento podría evaluarse directamente mediante las métricas de la tarea posterior. En este artículo, investigamos un esquema de entrenamiento en dos etapas que combinaba tareas de separación de habla e identificación de idiomas. Para analizar y optimizar el rendimiento de separación del habla superpuesta de un solo canal, el habla separada se alimentó a un motor de identificación de idiomas para evaluar su precisión. El modelo de separación de habla era una red de separación de habla de un solo canal entrenada con WSJ0-2mix. Para el sistema de identificación de idiomas, utilizamos un conjunto de datos de idiomas orientales y un conjunto de datos sintetizado mediante la mezcla directa de diferentes proporciones de grupos de habla. El efecto combinado de estos dos modelos se evaluó para varios escenarios de habla superpuesta. Cuando el modelo de red de identificación de idiomas se basó en características del espectro de frecuencia de habla de una sola persona, el chino, el japonés, el coreano, el indonesio y el vietnamita mostraron resultados de reconocimiento significativamente mejorados en comparación con el espectro de audio mezclado.

Otros recursos que podrían interesarte

Temas Virtualpro