Analizando las similitudes de las lenguas indoeuropeas utilizando vectores de documentos
Autores: Schrader, Samuel R.; Gultepe, Eren
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Analizando las similitudes de las lenguas indoeuropeas utilizando vectores de documentos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Evaluación
Similitudes
Lenguajes naturales
árboles filogenéticos
Agrupamiento
Vectores de documentos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La evaluación de similitudes entre lenguas naturales a menudo se basa en el conocimiento previo de los idiomas que se están estudiando. Describimos tres métodos para construir árboles filogenéticos y agrupar lenguas sin el uso de información específica de cada idioma. La entrada a nuestros métodos es un conjunto de vectores de documentos entrenados en un corpus de traducciones paralelas de la Biblia en 22 lenguas indoeuropeas, que representan 4 familias lingüísticas: indoeuropea, eslava, germánica y romance. Este corpus de texto consiste en un conjunto de 532,092 versículos bíblicos, con 24,186 versículos idénticos traducidos a cada idioma. Los métodos son (A) agrupamiento jerárquico utilizando la distancia entre los centroides de los vectores de idioma, (B) agrupamiento jerárquico utilizando una medida de distancia derivada de redes, y (C) Agrupamiento Profundo Embebido (DEC) de vectores de idioma. Evaluamos nuestros métodos utilizando un árbol de verdad fundamental y familias lingüísticas derivadas de dicho árbol. Los tres logran puntuaciones F de agrupamiento superiores a 0.9 en las familias indoeuropea y eslava; la mayor confusión se da entre las familias germánica y romance. Las puntuaciones F medias en todas las familias son 0.864 (agrupamiento por centroides), 0.953 (particionamiento de redes) y 0.763 (DEC). Esto muestra que los vectores de documentos pueden ser utilizados para capturar y comparar características lingüísticas de textos multilingües, y por lo tanto podrían ayudar a ampliar la investigación sobre similitudes lingüísticas y otros estudios de traducción.
Descripción
La evaluación de similitudes entre lenguas naturales a menudo se basa en el conocimiento previo de los idiomas que se están estudiando. Describimos tres métodos para construir árboles filogenéticos y agrupar lenguas sin el uso de información específica de cada idioma. La entrada a nuestros métodos es un conjunto de vectores de documentos entrenados en un corpus de traducciones paralelas de la Biblia en 22 lenguas indoeuropeas, que representan 4 familias lingüísticas: indoeuropea, eslava, germánica y romance. Este corpus de texto consiste en un conjunto de 532,092 versículos bíblicos, con 24,186 versículos idénticos traducidos a cada idioma. Los métodos son (A) agrupamiento jerárquico utilizando la distancia entre los centroides de los vectores de idioma, (B) agrupamiento jerárquico utilizando una medida de distancia derivada de redes, y (C) Agrupamiento Profundo Embebido (DEC) de vectores de idioma. Evaluamos nuestros métodos utilizando un árbol de verdad fundamental y familias lingüísticas derivadas de dicho árbol. Los tres logran puntuaciones F de agrupamiento superiores a 0.9 en las familias indoeuropea y eslava; la mayor confusión se da entre las familias germánica y romance. Las puntuaciones F medias en todas las familias son 0.864 (agrupamiento por centroides), 0.953 (particionamiento de redes) y 0.763 (DEC). Esto muestra que los vectores de documentos pueden ser utilizados para capturar y comparar características lingüísticas de textos multilingües, y por lo tanto podrían ayudar a ampliar la investigación sobre similitudes lingüísticas y otros estudios de traducción.