Definiendo palabras semánticamente cercanas del idioma kazajo con el sistema distribuido Apache Spark
Autores: Ayazbayev, Dauren; Bogdanchikov, Andrey; Orynbekova, Kamila; Varlamis, Iraklis
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Definiendo palabras semánticamente cercanas del idioma kazajo con el sistema distribuido Apache Spark
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Palabras semánticamente cercanas
Similitud semántica
Tareas de recuperación de información
Forma vectorial
Apache Spark
Transformadores de oraciones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Este trabajo se centra en determinar palabras semánticamente cercanas y utilizar la similitud semántica en general para mejorar el rendimiento en tareas de recuperación de información. La similitud semántica de las palabras es una tarea importante con muchas aplicaciones, desde la recuperación de información hasta la corrección ortográfica o incluso el agrupamiento y clasificación de documentos. Aunque, en idiomas con recursos lingüísticos ricos, los métodos y herramientas para esta tarea están bien establecidos, algunos idiomas no cuentan con tales herramientas. El primer paso en nuestro experimento es representar las palabras en una colección en forma de vector y luego definir la similitud semántica de los términos utilizando un método de similitud de vectores. Para domar la complejidad de la tarea, que depende del número de pares de palabras (y, en consecuencia, de los vectores) que deben combinarse para definir los pares de palabras semánticamente más cercanos, se diseña un método distribuido que se ejecuta en Apache Spark para reducir el tiempo de cálculo al ejecutar tareas de comparación en paralelo. Se proponen y prueban tres implementaciones alternativas utilizando una lista de palabras objetivo y buscando las palabras más semánticamente similares de un léxico para cada una de ellas. En un segundo paso, empleamos transformadores de oraciones multilingües pre-entrenados para capturar la semántica del contenido a nivel de oración y un índice semántico basado en vectores para acelerar las búsquedas. El código está escrito en MapReduce, y los experimentos y resultados muestran que los métodos propuestos pueden proporcionar una solución interesante para encontrar palabras o textos similares en el idioma kazajo.
Descripción
Este trabajo se centra en determinar palabras semánticamente cercanas y utilizar la similitud semántica en general para mejorar el rendimiento en tareas de recuperación de información. La similitud semántica de las palabras es una tarea importante con muchas aplicaciones, desde la recuperación de información hasta la corrección ortográfica o incluso el agrupamiento y clasificación de documentos. Aunque, en idiomas con recursos lingüísticos ricos, los métodos y herramientas para esta tarea están bien establecidos, algunos idiomas no cuentan con tales herramientas. El primer paso en nuestro experimento es representar las palabras en una colección en forma de vector y luego definir la similitud semántica de los términos utilizando un método de similitud de vectores. Para domar la complejidad de la tarea, que depende del número de pares de palabras (y, en consecuencia, de los vectores) que deben combinarse para definir los pares de palabras semánticamente más cercanos, se diseña un método distribuido que se ejecuta en Apache Spark para reducir el tiempo de cálculo al ejecutar tareas de comparación en paralelo. Se proponen y prueban tres implementaciones alternativas utilizando una lista de palabras objetivo y buscando las palabras más semánticamente similares de un léxico para cada una de ellas. En un segundo paso, empleamos transformadores de oraciones multilingües pre-entrenados para capturar la semántica del contenido a nivel de oración y un índice semántico basado en vectores para acelerar las búsquedas. El código está escrito en MapReduce, y los experimentos y resultados muestran que los métodos propuestos pueden proporcionar una solución interesante para encontrar palabras o textos similares en el idioma kazajo.