Método automático de evaluación de fluidez para el habla espontánea sin texto de referencia
Autores: Liu, Jiajun; Wumaier, Aishan; Fan, Cong; Guo, Shen
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Método automático de evaluación de fluidez para el habla espontánea sin texto de referencia
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Evaluación automática de fluidez
Discurso espontáneo
Reconocimiento automático de voz
Método de evaluación
Multimodal
Salida del ASR
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
La evaluación automática de fluidez del habla espontánea sin texto de referencia es una tarea desafiante que depende en gran medida de la precisión del reconocimiento automático del habla (ASR). Considerando este escenario, es necesario explorar un método de evaluación que combine ASR. Esto se debe principalmente al hecho de que, además de que las características acústicas son esenciales para la evaluación, las características de texto producidas por ASR también pueden contener información potencialmente relevante sobre la fluidez. Sin embargo, la mayoría de los estudios existentes sobre la evaluación automática de fluidez del habla espontánea se basan únicamente en características de audio, sin utilizar información textual, lo que puede llevar a una comprensión limitada de las características de fluidez. Para abordar esto, proponemos un método de evaluación automática de fluidez del habla multimodal que combina la salida de ASR. Específicamente, primero exploramos la relevancia de la tarea de evaluación de fluidez para la tarea de ASR y ajustamos el modelo Wav2Vec2.0 utilizando aprendizaje multitarea para optimizar conjuntamente la tarea de ASR y la tarea de evaluación de fluidez, lo que resulta en tanto los resultados de evaluación de fluidez como la salida de ASR. Luego, las características de texto y de audio obtenidas del modelo ajustado se alimentan al modelo de evaluación de fluidez multimodal, utilizando mecanismos de atención para obtener resultados de evaluación más confiables. Finalmente, experimentos en los conjuntos de datos PSCPSF y Speechocean762 sugieren que nuestro método propuesto funciona bien en diferentes escenarios de evaluación.
Descripción
La evaluación automática de fluidez del habla espontánea sin texto de referencia es una tarea desafiante que depende en gran medida de la precisión del reconocimiento automático del habla (ASR). Considerando este escenario, es necesario explorar un método de evaluación que combine ASR. Esto se debe principalmente al hecho de que, además de que las características acústicas son esenciales para la evaluación, las características de texto producidas por ASR también pueden contener información potencialmente relevante sobre la fluidez. Sin embargo, la mayoría de los estudios existentes sobre la evaluación automática de fluidez del habla espontánea se basan únicamente en características de audio, sin utilizar información textual, lo que puede llevar a una comprensión limitada de las características de fluidez. Para abordar esto, proponemos un método de evaluación automática de fluidez del habla multimodal que combina la salida de ASR. Específicamente, primero exploramos la relevancia de la tarea de evaluación de fluidez para la tarea de ASR y ajustamos el modelo Wav2Vec2.0 utilizando aprendizaje multitarea para optimizar conjuntamente la tarea de ASR y la tarea de evaluación de fluidez, lo que resulta en tanto los resultados de evaluación de fluidez como la salida de ASR. Luego, las características de texto y de audio obtenidas del modelo ajustado se alimentan al modelo de evaluación de fluidez multimodal, utilizando mecanismos de atención para obtener resultados de evaluación más confiables. Finalmente, experimentos en los conjuntos de datos PSCPSF y Speechocean762 sugieren que nuestro método propuesto funciona bien en diferentes escenarios de evaluación.