Método automático de evaluación de fluidez para el habla espontánea sin texto de referencia

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Método automático de evaluación de fluidez para el habla espontánea sin texto de referencia

Autores: Liu, Jiajun; Wumaier, Aishan; Fan, Cong; Guo, Shen

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Método automático de evaluación de fluidez para el habla espontánea sin texto de referencia

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Evaluación automática de fluidez

Discurso espontáneo

Reconocimiento automático de voz

Método de evaluación

Multimodal

Salida del ASR

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones

La evaluación automática de fluidez del habla espontánea sin texto de referencia es una tarea desafiante que depende en gran medida de la precisión del reconocimiento automático del habla (ASR). Considerando este escenario, es necesario explorar un método de evaluación que combine ASR. Esto se debe principalmente al hecho de que, además de que las características acústicas son esenciales para la evaluación, las características de texto producidas por ASR también pueden contener información potencialmente relevante sobre la fluidez. Sin embargo, la mayoría de los estudios existentes sobre la evaluación automática de fluidez del habla espontánea se basan únicamente en características de audio, sin utilizar información textual, lo que puede llevar a una comprensión limitada de las características de fluidez. Para abordar esto, proponemos un método de evaluación automática de fluidez del habla multimodal que combina la salida de ASR. Específicamente, primero exploramos la relevancia de la tarea de evaluación de fluidez para la tarea de ASR y ajustamos el modelo Wav2Vec2.0 utilizando aprendizaje multitarea para optimizar conjuntamente la tarea de ASR y la tarea de evaluación de fluidez, lo que resulta en tanto los resultados de evaluación de fluidez como la salida de ASR. Luego, las características de texto y de audio obtenidas del modelo ajustado se alimentan al modelo de evaluación de fluidez multimodal, utilizando mecanismos de atención para obtener resultados de evaluación más confiables. Finalmente, experimentos en los conjuntos de datos PSCPSF y Speechocean762 sugieren que nuestro método propuesto funciona bien en diferentes escenarios de evaluación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro