Un estudio sobre el reconocimiento automático del habla para el habla disártrica
Autores: Qian, Zhaopeng; Xiao, Kejing
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un estudio sobre el reconocimiento automático del habla para el habla disártrica
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de voz
Habla disártrica
Aprendizaje profundo
Características acústicas
Modelos acústicos
Reconocimiento automático del habla
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
El habla disártrica tiene varias características patológicas, como la pronunciación discontinua, el volumen incontrolado, la lentitud del habla, la pronunciación explosiva, las pausas incorrectas, los sonidos nasales excesivos y el ruido del flujo de aire durante la pronunciación, que difieren del habla saludable. La reconocimiento automático del habla (ASR) puede ser muy útil para los hablantes con disartria. Nuestra investigación tiene como objetivo proporcionar una revisión exploratoria de ASR para el habla disártrica, abarcando documentos en este campo desde 1990 hasta 2022. Nuestra encuesta encontró que el desarrollo de estudios de investigación sobre las características acústicas y los modelos acústicos del habla disártrica es casi sincrónico. Durante la década de 2010, las tecnologías de aprendizaje profundo se aplicaron ampliamente para mejorar el rendimiento de los sistemas ASR. En la era del aprendizaje profundo, muchos métodos avanzados (como las redes neuronales convolucionales, las redes neuronales profundas y las redes neuronales recurrentes) se están aplicando para diseñar modelos acústicos y modelos léxicos y de lenguaje para tareas de reconocimiento de habla disártrica. Los métodos de aprendizaje profundo también se utilizan para extraer características acústicas del habla disártrica. Además, esta revisión exploratoria encontró que los problemas dependientes del hablante limitan seriamente la aplicabilidad de generalización del modelo acústico. Los datos de habla escasos disponibles no pueden satisfacer la cantidad requerida para entrenar modelos utilizando big data.
Descripción
El habla disártrica tiene varias características patológicas, como la pronunciación discontinua, el volumen incontrolado, la lentitud del habla, la pronunciación explosiva, las pausas incorrectas, los sonidos nasales excesivos y el ruido del flujo de aire durante la pronunciación, que difieren del habla saludable. La reconocimiento automático del habla (ASR) puede ser muy útil para los hablantes con disartria. Nuestra investigación tiene como objetivo proporcionar una revisión exploratoria de ASR para el habla disártrica, abarcando documentos en este campo desde 1990 hasta 2022. Nuestra encuesta encontró que el desarrollo de estudios de investigación sobre las características acústicas y los modelos acústicos del habla disártrica es casi sincrónico. Durante la década de 2010, las tecnologías de aprendizaje profundo se aplicaron ampliamente para mejorar el rendimiento de los sistemas ASR. En la era del aprendizaje profundo, muchos métodos avanzados (como las redes neuronales convolucionales, las redes neuronales profundas y las redes neuronales recurrentes) se están aplicando para diseñar modelos acústicos y modelos léxicos y de lenguaje para tareas de reconocimiento de habla disártrica. Los métodos de aprendizaje profundo también se utilizan para extraer características acústicas del habla disártrica. Además, esta revisión exploratoria encontró que los problemas dependientes del hablante limitan seriamente la aplicabilidad de generalización del modelo acústico. Los datos de habla escasos disponibles no pueden satisfacer la cantidad requerida para entrenar modelos utilizando big data.