logo móvil
Contáctanos

Definiendo palabras semánticamente cercanas del idioma kazajo con el sistema distribuido Apache Spark

Autores: Ayazbayev, Dauren; Bogdanchikov, Andrey; Orynbekova, Kamila; Varlamis, Iraklis

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Definiendo palabras semánticamente cercanas del idioma kazajo con el sistema distribuido Apache Spark


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Palabras semánticamente cercanas
Similitud semántica
Tareas de recuperación de información
Forma vectorial
Apache Spark
Transformadores de oraciones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
Este trabajo se centra en determinar palabras semánticamente cercanas y utilizar la similitud semántica en general para mejorar el rendimiento en tareas de recuperación de información. La similitud semántica de las palabras es una tarea importante con muchas aplicaciones, desde la recuperación de información hasta la corrección ortográfica o incluso el agrupamiento y clasificación de documentos. Aunque, en idiomas con recursos lingüísticos ricos, los métodos y herramientas para esta tarea están bien establecidos, algunos idiomas no cuentan con tales herramientas. El primer paso en nuestro experimento es representar las palabras en una colección en forma de vector y luego definir la similitud semántica de los términos utilizando un método de similitud de vectores. Para domar la complejidad de la tarea, que depende del número de pares de palabras (y, en consecuencia, de los vectores) que deben combinarse para definir los pares de palabras semánticamente más cercanos, se diseña un método distribuido que se ejecuta en Apache Spark para reducir el tiempo de cálculo al ejecutar tareas de comparación en paralelo. Se proponen y prueban tres implementaciones alternativas utilizando una lista de palabras objetivo y buscando las palabras más semánticamente similares de un léxico para cada una de ellas. En un segundo paso, empleamos transformadores de oraciones multilingües pre-entrenados para capturar la semántica del contenido a nivel de oración y un índice semántico basado en vectores para acelerar las búsquedas. El código está escrito en MapReduce, y los experimentos y resultados muestran que los métodos propuestos pueden proporcionar una solución interesante para encontrar palabras o textos similares en el idioma kazajo.

Otros recursos que podrían interesarte

Temas Virtualpro