logo móvil
Contáctanos

Un estudio sobre el reconocimiento automático del habla para el habla disártrica

Autores: Qian, Zhaopeng; Xiao, Kejing

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un estudio sobre el reconocimiento automático del habla para el habla disártrica


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de voz
Habla disártrica
Aprendizaje profundo
Características acústicas
Modelos acústicos
Reconocimiento automático del habla

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
El habla disártrica tiene varias características patológicas, como la pronunciación discontinua, el volumen incontrolado, la lentitud del habla, la pronunciación explosiva, las pausas incorrectas, los sonidos nasales excesivos y el ruido del flujo de aire durante la pronunciación, que difieren del habla saludable. La reconocimiento automático del habla (ASR) puede ser muy útil para los hablantes con disartria. Nuestra investigación tiene como objetivo proporcionar una revisión exploratoria de ASR para el habla disártrica, abarcando documentos en este campo desde 1990 hasta 2022. Nuestra encuesta encontró que el desarrollo de estudios de investigación sobre las características acústicas y los modelos acústicos del habla disártrica es casi sincrónico. Durante la década de 2010, las tecnologías de aprendizaje profundo se aplicaron ampliamente para mejorar el rendimiento de los sistemas ASR. En la era del aprendizaje profundo, muchos métodos avanzados (como las redes neuronales convolucionales, las redes neuronales profundas y las redes neuronales recurrentes) se están aplicando para diseñar modelos acústicos y modelos léxicos y de lenguaje para tareas de reconocimiento de habla disártrica. Los métodos de aprendizaje profundo también se utilizan para extraer características acústicas del habla disártrica. Además, esta revisión exploratoria encontró que los problemas dependientes del hablante limitan seriamente la aplicabilidad de generalización del modelo acústico. Los datos de habla escasos disponibles no pueden satisfacer la cantidad requerida para entrenar modelos utilizando big data.

Otros recursos que podrían interesarte

Temas Virtualpro