Whisper40: Un conjunto de datos de reconocimiento de hablantes de susurros chinos de múltiples personas que contiene habla neutral de mismo texto
Autores: Yang, Jingwen; Zhou, Ruohua
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Whisper40: Un conjunto de datos de reconocimiento de hablantes de susurros chinos de múltiples personas que contiene habla neutral de mismo texto
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Susurro
Reconocimiento de hablantes
Conjunto de datos
Aprendizaje por transferencia
Chino
Red neuronal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El reconocimiento de hablantes en susurros (WSR) ha recibido una atención extensa por parte de los investigadores en los últimos años y juega un papel importante en campos médicos, judiciales y otros. Entre ellos, el establecimiento de un conjunto de datos de susurros es muy importante para el estudio del WSR. Sin embargo, el conjunto de datos de susurros existente sufre de problemas como un número reducido de hablantes, una duración corta del habla y la falta de habla neutral con el mismo texto que el habla susurrada en el mismo conjunto de datos. Para abordar este problema, presentamos Whisper40, un conjunto de datos de WSR en chino con múltiples hablantes que contiene habla neutral de mismo texto que abarca alrededor de 655.90 minutos, obtenida de voluntarios. Además, utilizamos el modelo de reconocimiento de hablantes de última generación para construir un sistema base de WSR y combinamos la idea del aprendizaje por transferencia para preentrenar el modelo de reconocimiento de hablantes utilizando conjuntos de datos de habla neutral y transferir el conocimiento empírico de capas específicas de la red al sistema WSR. Luego, se utilizan los conjuntos de datos Whisper40 y CHAINs para ajustar finamente el modelo con capas específicas transferidas. Los resultados experimentales muestran que el conjunto de datos Whisper40 es práctico y que el modelo de red neuronal de tiempo de retraso (TDNN) funciona bien en ambos experimentos de mismo/cruzado escenario. La tasa de error igual (EER) del WSR en chino después del aprendizaje por transferencia se reduce en un 27.62% en comparación.
Descripción
El reconocimiento de hablantes en susurros (WSR) ha recibido una atención extensa por parte de los investigadores en los últimos años y juega un papel importante en campos médicos, judiciales y otros. Entre ellos, el establecimiento de un conjunto de datos de susurros es muy importante para el estudio del WSR. Sin embargo, el conjunto de datos de susurros existente sufre de problemas como un número reducido de hablantes, una duración corta del habla y la falta de habla neutral con el mismo texto que el habla susurrada en el mismo conjunto de datos. Para abordar este problema, presentamos Whisper40, un conjunto de datos de WSR en chino con múltiples hablantes que contiene habla neutral de mismo texto que abarca alrededor de 655.90 minutos, obtenida de voluntarios. Además, utilizamos el modelo de reconocimiento de hablantes de última generación para construir un sistema base de WSR y combinamos la idea del aprendizaje por transferencia para preentrenar el modelo de reconocimiento de hablantes utilizando conjuntos de datos de habla neutral y transferir el conocimiento empírico de capas específicas de la red al sistema WSR. Luego, se utilizan los conjuntos de datos Whisper40 y CHAINs para ajustar finamente el modelo con capas específicas transferidas. Los resultados experimentales muestran que el conjunto de datos Whisper40 es práctico y que el modelo de red neuronal de tiempo de retraso (TDNN) funciona bien en ambos experimentos de mismo/cruzado escenario. La tasa de error igual (EER) del WSR en chino después del aprendizaje por transferencia se reduce en un 27.62% en comparación.