Analizando las similitudes de las lenguas indoeuropeas utilizando vectores de documentos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Analizando las similitudes de las lenguas indoeuropeas utilizando vectores de documentos

Autores: Schrader, Samuel R.; Gultepe, Eren

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Analizando las similitudes de las lenguas indoeuropeas utilizando vectores de documentos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Evaluación

Similitudes

Lenguajes naturales

árboles filogenéticos

Agrupamiento

Vectores de documentos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La evaluación de similitudes entre lenguas naturales a menudo se basa en el conocimiento previo de los idiomas que se están estudiando. Describimos tres métodos para construir árboles filogenéticos y agrupar lenguas sin el uso de información específica de cada idioma. La entrada a nuestros métodos es un conjunto de vectores de documentos entrenados en un corpus de traducciones paralelas de la Biblia en 22 lenguas indoeuropeas, que representan 4 familias lingüísticas: indoeuropea, eslava, germánica y romance. Este corpus de texto consiste en un conjunto de 532,092 versículos bíblicos, con 24,186 versículos idénticos traducidos a cada idioma. Los métodos son (A) agrupamiento jerárquico utilizando la distancia entre los centroides de los vectores de idioma, (B) agrupamiento jerárquico utilizando una medida de distancia derivada de redes, y (C) Agrupamiento Profundo Embebido (DEC) de vectores de idioma. Evaluamos nuestros métodos utilizando un árbol de verdad fundamental y familias lingüísticas derivadas de dicho árbol. Los tres logran puntuaciones F de agrupamiento superiores a 0.9 en las familias indoeuropea y eslava; la mayor confusión se da entre las familias germánica y romance. Las puntuaciones F medias en todas las familias son 0.864 (agrupamiento por centroides), 0.953 (particionamiento de redes) y 0.763 (DEC). Esto muestra que los vectores de documentos pueden ser utilizados para capturar y comparar características lingüísticas de textos multilingües, y por lo tanto podrían ayudar a ampliar la investigación sobre similitudes lingüísticas y otros estudios de traducción.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro