logo móvil
Contáctanos

Método automático de evaluación de fluidez para el habla espontánea sin texto de referencia

Autores: Liu, Jiajun; Wumaier, Aishan; Fan, Cong; Guo, Shen

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Método automático de evaluación de fluidez para el habla espontánea sin texto de referencia


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Evaluación automática de fluidez
Discurso espontáneo
Reconocimiento automático de voz
Método de evaluación
Multimodal
Salida del ASR

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones


Descripción
La evaluación automática de fluidez del habla espontánea sin texto de referencia es una tarea desafiante que depende en gran medida de la precisión del reconocimiento automático del habla (ASR). Considerando este escenario, es necesario explorar un método de evaluación que combine ASR. Esto se debe principalmente al hecho de que, además de que las características acústicas son esenciales para la evaluación, las características de texto producidas por ASR también pueden contener información potencialmente relevante sobre la fluidez. Sin embargo, la mayoría de los estudios existentes sobre la evaluación automática de fluidez del habla espontánea se basan únicamente en características de audio, sin utilizar información textual, lo que puede llevar a una comprensión limitada de las características de fluidez. Para abordar esto, proponemos un método de evaluación automática de fluidez del habla multimodal que combina la salida de ASR. Específicamente, primero exploramos la relevancia de la tarea de evaluación de fluidez para la tarea de ASR y ajustamos el modelo Wav2Vec2.0 utilizando aprendizaje multitarea para optimizar conjuntamente la tarea de ASR y la tarea de evaluación de fluidez, lo que resulta en tanto los resultados de evaluación de fluidez como la salida de ASR. Luego, las características de texto y de audio obtenidas del modelo ajustado se alimentan al modelo de evaluación de fluidez multimodal, utilizando mecanismos de atención para obtener resultados de evaluación más confiables. Finalmente, experimentos en los conjuntos de datos PSCPSF y Speechocean762 sugieren que nuestro método propuesto funciona bien en diferentes escenarios de evaluación.

Otros recursos que podrían interesarte

Temas Virtualpro