Mejorando el sistema de reconocimiento de voz en amhárico utilizando clasificación temporal conexionista con modelo de atención y codificaciones de pares de bytes basadas en fonemas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando el sistema de reconocimiento de voz en amhárico utilizando clasificación temporal conexionista con modelo de atención y codificaciones de pares de bytes basadas en fonemas

Autores: Emiru, Eshete Derb; Xiong, Shengwu; Li, Yaxing; Fesseha, Awet; Diallo, Moussa

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Mejorando el sistema de reconocimiento de voz en amhárico utilizando clasificación temporal conexionista con modelo de atención y codificaciones de pares de bytes basadas en fonemas

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Fuera de vocabulario

Lenguas morfológicamente ricas

Arquitectura de extremo a extremo

Subpalabras basadas en fonemas

Algoritmo de silabificación

Aumento de datos SpecAugment

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Las palabras fuera de vocabulario (OOV) son el problema más desafiante en el reconocimiento automático del habla (ASR), especialmente para lenguas morfológicamente ricas. La mayoría de los sistemas de reconocimiento de voz de extremo a extremo se realizan a niveles de palabra y carácter de un idioma. El amhárico es un idioma con pocos recursos pero morfológicamente rico. Este documento propone una clasificación temporal conexionista híbrida con atención en una arquitectura de extremo a extremo y un algoritmo de silabificación para el sistema de reconocimiento automático del habla en amhárico (AASR) utilizando sus unidades subpalabra basadas en fonemas. Este algoritmo ayuda a insertar la vocal epitética [], que no está incluida en nuestro algoritmo de conversión de grafema a fonema (G2P) desarrollado utilizando representaciones de consonante-vocal (CV) de los grafemas amháricos. El modelo propuesto de extremo a extremo fue entrenado en varias subpalabras amháricas, a saber, caracteres, fonemas, subpalabras basadas en caracteres y subpalabras basadas en fonemas generadas por el algoritmo de segmentación de codificación de pares de bytes (BPE). Los resultados experimentales mostraron que las subpalabras basadas en fonemas dependientes del contexto tienden a resultar en sistemas de reconocimiento de voz más precisos que sus contrapartes basadas en caracteres, basadas en fonemas y basadas en subpalabras de caracteres. También se obtuvo una mejora adicional en las subpalabras basadas en fonemas propuestas con el algoritmo de silabificación y la técnica de aumento de datos SpecAugment. La reducción de la tasa de error de palabras (WER) fue del 18.38% en comparación con la modelización acústica basada en caracteres con el modelo de lenguaje de red neuronal recurrente basado en palabras (RNNLM) como referencia. Estos modelos de subpalabras basadas en fonemas también son útiles para mejorar las tareas de traducción automática y de habla.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro