Mejorando el sistema de reconocimiento de voz en amhárico utilizando clasificación temporal conexionista con modelo de atención y codificaciones de pares de bytes basadas en fonemas
Autores: Emiru, Eshete Derb; Xiong, Shengwu; Li, Yaxing; Fesseha, Awet; Diallo, Moussa
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Mejorando el sistema de reconocimiento de voz en amhárico utilizando clasificación temporal conexionista con modelo de atención y codificaciones de pares de bytes basadas en fonemas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Fuera de vocabulario
Lenguas morfológicamente ricas
Arquitectura de extremo a extremo
Subpalabras basadas en fonemas
Algoritmo de silabificación
Aumento de datos SpecAugment
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las palabras fuera de vocabulario (OOV) son el problema más desafiante en el reconocimiento automático del habla (ASR), especialmente para lenguas morfológicamente ricas. La mayoría de los sistemas de reconocimiento de voz de extremo a extremo se realizan a niveles de palabra y carácter de un idioma. El amhárico es un idioma con pocos recursos pero morfológicamente rico. Este documento propone una clasificación temporal conexionista híbrida con atención en una arquitectura de extremo a extremo y un algoritmo de silabificación para el sistema de reconocimiento automático del habla en amhárico (AASR) utilizando sus unidades subpalabra basadas en fonemas. Este algoritmo ayuda a insertar la vocal epitética [], que no está incluida en nuestro algoritmo de conversión de grafema a fonema (G2P) desarrollado utilizando representaciones de consonante-vocal (CV) de los grafemas amháricos. El modelo propuesto de extremo a extremo fue entrenado en varias subpalabras amháricas, a saber, caracteres, fonemas, subpalabras basadas en caracteres y subpalabras basadas en fonemas generadas por el algoritmo de segmentación de codificación de pares de bytes (BPE). Los resultados experimentales mostraron que las subpalabras basadas en fonemas dependientes del contexto tienden a resultar en sistemas de reconocimiento de voz más precisos que sus contrapartes basadas en caracteres, basadas en fonemas y basadas en subpalabras de caracteres. También se obtuvo una mejora adicional en las subpalabras basadas en fonemas propuestas con el algoritmo de silabificación y la técnica de aumento de datos SpecAugment. La reducción de la tasa de error de palabras (WER) fue del 18.38% en comparación con la modelización acústica basada en caracteres con el modelo de lenguaje de red neuronal recurrente basado en palabras (RNNLM) como referencia. Estos modelos de subpalabras basadas en fonemas también son útiles para mejorar las tareas de traducción automática y de habla.
Descripción
Las palabras fuera de vocabulario (OOV) son el problema más desafiante en el reconocimiento automático del habla (ASR), especialmente para lenguas morfológicamente ricas. La mayoría de los sistemas de reconocimiento de voz de extremo a extremo se realizan a niveles de palabra y carácter de un idioma. El amhárico es un idioma con pocos recursos pero morfológicamente rico. Este documento propone una clasificación temporal conexionista híbrida con atención en una arquitectura de extremo a extremo y un algoritmo de silabificación para el sistema de reconocimiento automático del habla en amhárico (AASR) utilizando sus unidades subpalabra basadas en fonemas. Este algoritmo ayuda a insertar la vocal epitética [], que no está incluida en nuestro algoritmo de conversión de grafema a fonema (G2P) desarrollado utilizando representaciones de consonante-vocal (CV) de los grafemas amháricos. El modelo propuesto de extremo a extremo fue entrenado en varias subpalabras amháricas, a saber, caracteres, fonemas, subpalabras basadas en caracteres y subpalabras basadas en fonemas generadas por el algoritmo de segmentación de codificación de pares de bytes (BPE). Los resultados experimentales mostraron que las subpalabras basadas en fonemas dependientes del contexto tienden a resultar en sistemas de reconocimiento de voz más precisos que sus contrapartes basadas en caracteres, basadas en fonemas y basadas en subpalabras de caracteres. También se obtuvo una mejora adicional en las subpalabras basadas en fonemas propuestas con el algoritmo de silabificación y la técnica de aumento de datos SpecAugment. La reducción de la tasa de error de palabras (WER) fue del 18.38% en comparación con la modelización acústica basada en caracteres con el modelo de lenguaje de red neuronal recurrente basado en palabras (RNNLM) como referencia. Estos modelos de subpalabras basadas en fonemas también son útiles para mejorar las tareas de traducción automática y de habla.