Whisper40: Un conjunto de datos de reconocimiento de hablantes de susurros chinos de múltiples personas que contiene habla neutral de mismo texto

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Whisper40: Un conjunto de datos de reconocimiento de hablantes de susurros chinos de múltiples personas que contiene habla neutral de mismo texto

Autores: Yang, Jingwen; Zhou, Ruohua

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Whisper40: Un conjunto de datos de reconocimiento de hablantes de susurros chinos de múltiples personas que contiene habla neutral de mismo texto

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Susurro

Reconocimiento de hablantes

Conjunto de datos

Aprendizaje por transferencia

Chino

Red neuronal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El reconocimiento de hablantes en susurros (WSR) ha recibido una atención extensa por parte de los investigadores en los últimos años y juega un papel importante en campos médicos, judiciales y otros. Entre ellos, el establecimiento de un conjunto de datos de susurros es muy importante para el estudio del WSR. Sin embargo, el conjunto de datos de susurros existente sufre de problemas como un número reducido de hablantes, una duración corta del habla y la falta de habla neutral con el mismo texto que el habla susurrada en el mismo conjunto de datos. Para abordar este problema, presentamos Whisper40, un conjunto de datos de WSR en chino con múltiples hablantes que contiene habla neutral de mismo texto que abarca alrededor de 655.90 minutos, obtenida de voluntarios. Además, utilizamos el modelo de reconocimiento de hablantes de última generación para construir un sistema base de WSR y combinamos la idea del aprendizaje por transferencia para preentrenar el modelo de reconocimiento de hablantes utilizando conjuntos de datos de habla neutral y transferir el conocimiento empírico de capas específicas de la red al sistema WSR. Luego, se utilizan los conjuntos de datos Whisper40 y CHAINs para ajustar finamente el modelo con capas específicas transferidas. Los resultados experimentales muestran que el conjunto de datos Whisper40 es práctico y que el modelo de red neuronal de tiempo de retraso (TDNN) funciona bien en ambos experimentos de mismo/cruzado escenario. La tasa de error igual (EER) del WSR en chino después del aprendizaje por transferencia se reduce en un 27.62% en comparación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro