logo móvil
Contáctanos

Evaluación automatizada de la gravedad y la aspereza del habla desordenada utilizando un modelo de fundación de habla

Autores: Ashkanichenarlogh, Vahid; Hassanpour, Arman; Parsa, Vijay

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Evaluación automatizada de la gravedad y la aspereza del habla desordenada utilizando un modelo de fundación de habla


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelo propuesto
Estimación de la calidad del habla
Gravedad de la disfonía
Respiración
Mapeo de características profundas
Sistemas de evaluación automatizados

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En este estudio, proponemos un nuevo modelo automatizado para la estimación de la calidad del habla que evalúa objetivamente la gravedad de la disfonía perceptual y la aspereza en muestras de audio, demostrando una fuerte correlación con las calificaciones de expertos. El modelo propuesto integra incrustaciones del codificador Whisper con espectrogramas de Mel aumentados por características delta de segundo orden combinadas con un camino de mapeo de características de una red de fusión de atención secuencial. Este enfoque híbrido mejora la sensibilidad del modelo a la representación de características fonéticas y de alto nivel, así como a las variaciones espectrales, lo que permite predicciones más precisas de la calidad del habla perceptual. Un módulo de mapeo de características de red de fusión de atención secuencial captura dependencias a largo plazo a través de la red de atención de múltiples cabezas, mientras que las capas LSTM refinan las representaciones aprendidas modelando dinámicas temporales. El análisis comparativo con métodos de vanguardia para la evaluación de disfonía demuestra una mejor correlación de nuestro modelo con los juicios de los clínicos en las muestras de prueba. Nuestros hallazgos subrayan la efectividad de las incrustaciones derivadas de ASR junto con la estructura de mapeo de características profundas en la evaluación de la calidad del habla desordenada, ofreciendo un camino prometedor para avanzar en los sistemas de evaluación automatizada.

Otros recursos que podrían interesarte

Temas Virtualpro