sobre algoritmos de identificación de lenguaje de texto jerárquico
Autores: Hasimu, Maimaitiyiming; Silamu, Wushour
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
sobre algoritmos de identificación de lenguaje de texto jerárquico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Idiomas
Identificación
Rendimiento
Algoritmo
Guion
Grupo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 47
Citaciones: Sin citaciones
El texto en Internet está escrito en diferentes idiomas y scripts que se pueden dividir en diferentes grupos de idiomas. La mayoría de los errores en la identificación del idioma ocurren con idiomas similares. Para mejorar el rendimiento de la identificación del idioma de textos cortos, proponemos cuatro niveles diferentes de métodos jerárquicos de identificación del idioma y realizamos pruebas comparativas en este documento. La eficiencia de los algoritmos se evaluó en oraciones de 97 idiomas, y su puntuación F1 promedio macroalcanzada en la identificación del idioma de cuatro etapas fue de 0.9799. Los resultados experimentales verificaron que, después de la identificación del script, la identificación del grupo de idioma y la identificación del grupo de idioma similar, el rendimiento del algoritmo de identificación del idioma mejoró en cada etapa. Especialmente, la precisión de la identificación del idioma entre idiomas similares mejoró sustancialmente. También investigamos cómo el contenido extranjero en un idioma afecta la identificación del idioma.
Descripción
El texto en Internet está escrito en diferentes idiomas y scripts que se pueden dividir en diferentes grupos de idiomas. La mayoría de los errores en la identificación del idioma ocurren con idiomas similares. Para mejorar el rendimiento de la identificación del idioma de textos cortos, proponemos cuatro niveles diferentes de métodos jerárquicos de identificación del idioma y realizamos pruebas comparativas en este documento. La eficiencia de los algoritmos se evaluó en oraciones de 97 idiomas, y su puntuación F1 promedio macroalcanzada en la identificación del idioma de cuatro etapas fue de 0.9799. Los resultados experimentales verificaron que, después de la identificación del script, la identificación del grupo de idioma y la identificación del grupo de idioma similar, el rendimiento del algoritmo de identificación del idioma mejoró en cada etapa. Especialmente, la precisión de la identificación del idioma entre idiomas similares mejoró sustancialmente. También investigamos cómo el contenido extranjero en un idioma afecta la identificación del idioma.