Evaluación automatizada de la gravedad y la aspereza del habla desordenada utilizando un modelo de fundación de habla
Autores: Ashkanichenarlogh, Vahid; Hassanpour, Arman; Parsa, Vijay
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Evaluación automatizada de la gravedad y la aspereza del habla desordenada utilizando un modelo de fundación de habla
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelo propuesto
Estimación de la calidad del habla
Gravedad de la disfonía
Respiración
Mapeo de características profundas
Sistemas de evaluación automatizados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En este estudio, proponemos un nuevo modelo automatizado para la estimación de la calidad del habla que evalúa objetivamente la gravedad de la disfonía perceptual y la aspereza en muestras de audio, demostrando una fuerte correlación con las calificaciones de expertos. El modelo propuesto integra incrustaciones del codificador Whisper con espectrogramas de Mel aumentados por características delta de segundo orden combinadas con un camino de mapeo de características de una red de fusión de atención secuencial. Este enfoque híbrido mejora la sensibilidad del modelo a la representación de características fonéticas y de alto nivel, así como a las variaciones espectrales, lo que permite predicciones más precisas de la calidad del habla perceptual. Un módulo de mapeo de características de red de fusión de atención secuencial captura dependencias a largo plazo a través de la red de atención de múltiples cabezas, mientras que las capas LSTM refinan las representaciones aprendidas modelando dinámicas temporales. El análisis comparativo con métodos de vanguardia para la evaluación de disfonía demuestra una mejor correlación de nuestro modelo con los juicios de los clínicos en las muestras de prueba. Nuestros hallazgos subrayan la efectividad de las incrustaciones derivadas de ASR junto con la estructura de mapeo de características profundas en la evaluación de la calidad del habla desordenada, ofreciendo un camino prometedor para avanzar en los sistemas de evaluación automatizada.
Descripción
En este estudio, proponemos un nuevo modelo automatizado para la estimación de la calidad del habla que evalúa objetivamente la gravedad de la disfonía perceptual y la aspereza en muestras de audio, demostrando una fuerte correlación con las calificaciones de expertos. El modelo propuesto integra incrustaciones del codificador Whisper con espectrogramas de Mel aumentados por características delta de segundo orden combinadas con un camino de mapeo de características de una red de fusión de atención secuencial. Este enfoque híbrido mejora la sensibilidad del modelo a la representación de características fonéticas y de alto nivel, así como a las variaciones espectrales, lo que permite predicciones más precisas de la calidad del habla perceptual. Un módulo de mapeo de características de red de fusión de atención secuencial captura dependencias a largo plazo a través de la red de atención de múltiples cabezas, mientras que las capas LSTM refinan las representaciones aprendidas modelando dinámicas temporales. El análisis comparativo con métodos de vanguardia para la evaluación de disfonía demuestra una mejor correlación de nuestro modelo con los juicios de los clínicos en las muestras de prueba. Nuestros hallazgos subrayan la efectividad de las incrustaciones derivadas de ASR junto con la estructura de mapeo de características profundas en la evaluación de la calidad del habla desordenada, ofreciendo un camino prometedor para avanzar en los sistemas de evaluación automatizada.