Reconocimiento automático del habla en vietnamita para un nuevo corpus a gran escala
Autores: Tran, Linh Thi Thuc; Kim, Han-Gyu; La, Hoang Minh; Van Pham, Su
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Reconocimiento automático del habla en vietnamita para un nuevo corpus a gran escala
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Corpus de habla vietnamita a gran escala
Diversidad de géneros
Temas
Dialectos regionales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
El vietnamita es un idioma con recursos limitados. La demanda de un corpus de voz vietnamita a gran escala y de alta calidad aumenta. Presentamos un nuevo corpus de voz vietnamita a gran escala con 100.5 h recopiladas de diversas fuentes de audio en Internet. El audio recopilado se procesó para obtener voz limpia. La transcripción de la voz limpia se realizó manualmente. El nuevo corpus se analizó en términos de género, tema y dialecto regional. Los resultados muestran que el nuevo corpus tiene una buena diversidad de géneros, temas y dialectos regionales. También evaluamos el nuevo corpus utilizando modelos de reconocimiento automático de voz de última generación como LAS y Speech-Transformer para múltiples escenarios. Es la primera vez que estos modelos se aplican al reconocimiento de voz en vietnamita y se obtienen resultados razonables. Los resultados de la simulación mostraron que el nuevo corpus sería un buen conjunto de datos para las tareas de ASR en vietnamita porque reflejaba correctamente las dificultades en el reconocimiento del habla de diferentes dialectos y dominios temáticos.
Descripción
El vietnamita es un idioma con recursos limitados. La demanda de un corpus de voz vietnamita a gran escala y de alta calidad aumenta. Presentamos un nuevo corpus de voz vietnamita a gran escala con 100.5 h recopiladas de diversas fuentes de audio en Internet. El audio recopilado se procesó para obtener voz limpia. La transcripción de la voz limpia se realizó manualmente. El nuevo corpus se analizó en términos de género, tema y dialecto regional. Los resultados muestran que el nuevo corpus tiene una buena diversidad de géneros, temas y dialectos regionales. También evaluamos el nuevo corpus utilizando modelos de reconocimiento automático de voz de última generación como LAS y Speech-Transformer para múltiples escenarios. Es la primera vez que estos modelos se aplican al reconocimiento de voz en vietnamita y se obtienen resultados razonables. Los resultados de la simulación mostraron que el nuevo corpus sería un buen conjunto de datos para las tareas de ASR en vietnamita porque reflejaba correctamente las dificultades en el reconocimiento del habla de diferentes dialectos y dominios temáticos.