Definiendo palabras semánticamente cercanas del idioma kazajo con el sistema distribuido Apache Spark

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Definiendo palabras semánticamente cercanas del idioma kazajo con el sistema distribuido Apache Spark

Autores: Ayazbayev, Dauren; Bogdanchikov, Andrey; Orynbekova, Kamila; Varlamis, Iraklis

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Definiendo palabras semánticamente cercanas del idioma kazajo con el sistema distribuido Apache Spark

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Palabras semánticamente cercanas

Similitud semántica

Tareas de recuperación de información

Forma vectorial

Apache Spark

Transformadores de oraciones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

Este trabajo se centra en determinar palabras semánticamente cercanas y utilizar la similitud semántica en general para mejorar el rendimiento en tareas de recuperación de información. La similitud semántica de las palabras es una tarea importante con muchas aplicaciones, desde la recuperación de información hasta la corrección ortográfica o incluso el agrupamiento y clasificación de documentos. Aunque, en idiomas con recursos lingüísticos ricos, los métodos y herramientas para esta tarea están bien establecidos, algunos idiomas no cuentan con tales herramientas. El primer paso en nuestro experimento es representar las palabras en una colección en forma de vector y luego definir la similitud semántica de los términos utilizando un método de similitud de vectores. Para domar la complejidad de la tarea, que depende del número de pares de palabras (y, en consecuencia, de los vectores) que deben combinarse para definir los pares de palabras semánticamente más cercanos, se diseña un método distribuido que se ejecuta en Apache Spark para reducir el tiempo de cálculo al ejecutar tareas de comparación en paralelo. Se proponen y prueban tres implementaciones alternativas utilizando una lista de palabras objetivo y buscando las palabras más semánticamente similares de un léxico para cada una de ellas. En un segundo paso, empleamos transformadores de oraciones multilingües pre-entrenados para capturar la semántica del contenido a nivel de oración y un índice semántico basado en vectores para acelerar las búsquedas. El código está escrito en MapReduce, y los experimentos y resultados muestran que los métodos propuestos pueden proporcionar una solución interesante para encontrar palabras o textos similares en el idioma kazajo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro