Un método efectivo de aprendizaje para el reconocimiento automático del habla en el habla de pacientes de IC coreanos
Autores: Jeong, Jiho; Mondol, S. I. M. M. Raton; Kim, Yeon Wook; Lee, Sangmin
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un método efectivo de aprendizaje para el reconocimiento automático del habla en el habla de pacientes de IC coreanos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento automático del habla
Modelo ASR
Datos de entrenamiento
Pacientes con implante coclear
Ajuste fino
Tasa de error de caracteres
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 45
Citaciones: Sin citaciones
El modelo de reconocimiento automático del habla (ASR) generalmente requiere una gran cantidad de datos de entrenamiento para proporcionar mejores resultados en comparación con los modelos ASR entrenados con una pequeña cantidad de datos de entrenamiento. Es difícil aplicar el modelo ASR al habla no estándar como la de pacientes con implantes cocleares (CI), debido a preocupaciones de privacidad o dificultad de acceso. En este documento se propone un modelo ASR efectivo de ajuste fino y aumento. Los experimentos comparan la tasa de error de caracteres (CER) después de entrenar el modelo ASR con el método básico y el propuesto. El método propuesto logró un CER del 36.03% en el conjunto de datos de prueba del habla de pacientes con CI utilizando solo 2 horas y 30 minutos de datos de entrenamiento, lo que representa una mejora del 62% sobre el método básico.
Descripción
El modelo de reconocimiento automático del habla (ASR) generalmente requiere una gran cantidad de datos de entrenamiento para proporcionar mejores resultados en comparación con los modelos ASR entrenados con una pequeña cantidad de datos de entrenamiento. Es difícil aplicar el modelo ASR al habla no estándar como la de pacientes con implantes cocleares (CI), debido a preocupaciones de privacidad o dificultad de acceso. En este documento se propone un modelo ASR efectivo de ajuste fino y aumento. Los experimentos comparan la tasa de error de caracteres (CER) después de entrenar el modelo ASR con el método básico y el propuesto. El método propuesto logró un CER del 36.03% en el conjunto de datos de prueba del habla de pacientes con CI utilizando solo 2 horas y 30 minutos de datos de entrenamiento, lo que representa una mejora del 62% sobre el método básico.