Evaluación automatizada de la gravedad y la aspereza del habla desordenada utilizando un modelo de fundación de habla

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evaluación automatizada de la gravedad y la aspereza del habla desordenada utilizando un modelo de fundación de habla

Autores: Ashkanichenarlogh, Vahid; Hassanpour, Arman; Parsa, Vijay

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Evaluación automatizada de la gravedad y la aspereza del habla desordenada utilizando un modelo de fundación de habla

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelo propuesto

Estimación de la calidad del habla

Gravedad de la disfonía

Respiración

Mapeo de características profundas

Sistemas de evaluación automatizados

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En este estudio, proponemos un nuevo modelo automatizado para la estimación de la calidad del habla que evalúa objetivamente la gravedad de la disfonía perceptual y la aspereza en muestras de audio, demostrando una fuerte correlación con las calificaciones de expertos. El modelo propuesto integra incrustaciones del codificador Whisper con espectrogramas de Mel aumentados por características delta de segundo orden combinadas con un camino de mapeo de características de una red de fusión de atención secuencial. Este enfoque híbrido mejora la sensibilidad del modelo a la representación de características fonéticas y de alto nivel, así como a las variaciones espectrales, lo que permite predicciones más precisas de la calidad del habla perceptual. Un módulo de mapeo de características de red de fusión de atención secuencial captura dependencias a largo plazo a través de la red de atención de múltiples cabezas, mientras que las capas LSTM refinan las representaciones aprendidas modelando dinámicas temporales. El análisis comparativo con métodos de vanguardia para la evaluación de disfonía demuestra una mejor correlación de nuestro modelo con los juicios de los clínicos en las muestras de prueba. Nuestros hallazgos subrayan la efectividad de las incrustaciones derivadas de ASR junto con la estructura de mapeo de características profundas en la evaluación de la calidad del habla desordenada, ofreciendo un camino prometedor para avanzar en los sistemas de evaluación automatizada.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro