logo móvil
Contáctanos

Mejorando el sistema de reconocimiento de voz en amhárico utilizando clasificación temporal conexionista con modelo de atención y codificaciones de pares de bytes basadas en fonemas

Autores: Emiru, Eshete Derb; Xiong, Shengwu; Li, Yaxing; Fesseha, Awet; Diallo, Moussa

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Mejorando el sistema de reconocimiento de voz en amhárico utilizando clasificación temporal conexionista con modelo de atención y codificaciones de pares de bytes basadas en fonemas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Fuera de vocabulario
Lenguas morfológicamente ricas
Arquitectura de extremo a extremo
Subpalabras basadas en fonemas
Algoritmo de silabificación
Aumento de datos SpecAugment

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las palabras fuera de vocabulario (OOV) son el problema más desafiante en el reconocimiento automático del habla (ASR), especialmente para lenguas morfológicamente ricas. La mayoría de los sistemas de reconocimiento de voz de extremo a extremo se realizan a niveles de palabra y carácter de un idioma. El amhárico es un idioma con pocos recursos pero morfológicamente rico. Este documento propone una clasificación temporal conexionista híbrida con atención en una arquitectura de extremo a extremo y un algoritmo de silabificación para el sistema de reconocimiento automático del habla en amhárico (AASR) utilizando sus unidades subpalabra basadas en fonemas. Este algoritmo ayuda a insertar la vocal epitética [], que no está incluida en nuestro algoritmo de conversión de grafema a fonema (G2P) desarrollado utilizando representaciones de consonante-vocal (CV) de los grafemas amháricos. El modelo propuesto de extremo a extremo fue entrenado en varias subpalabras amháricas, a saber, caracteres, fonemas, subpalabras basadas en caracteres y subpalabras basadas en fonemas generadas por el algoritmo de segmentación de codificación de pares de bytes (BPE). Los resultados experimentales mostraron que las subpalabras basadas en fonemas dependientes del contexto tienden a resultar en sistemas de reconocimiento de voz más precisos que sus contrapartes basadas en caracteres, basadas en fonemas y basadas en subpalabras de caracteres. También se obtuvo una mejora adicional en las subpalabras basadas en fonemas propuestas con el algoritmo de silabificación y la técnica de aumento de datos SpecAugment. La reducción de la tasa de error de palabras (WER) fue del 18.38% en comparación con la modelización acústica basada en caracteres con el modelo de lenguaje de red neuronal recurrente basado en palabras (RNNLM) como referencia. Estos modelos de subpalabras basadas en fonemas también son útiles para mejorar las tareas de traducción automática y de habla.

Otros recursos que podrían interesarte

Temas Virtualpro