Sobre la implementación de incrustaciones en la clasificación y clasificación de texto empleando grafos
Autores: Kalogeropoulos, Nikitas-Rigas; Ioannou, Dimitris; Stathopoulos, Dionysios; Makris, Christos
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Sobre la implementación de incrustaciones en la clasificación y clasificación de texto empleando grafos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Mejorar
Modelo basado en conjuntos gráficos
Incrustaciones de nodos
Incrustaciones de palabras
Recuperación de información
Node2vec
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Este documento tiene como objetivo mejorar el modelo basado en conjuntos gráficos (GSB) para tareas de clasificación y ranking incorporando incrustaciones de nodos y palabras. El modelo integra una representación gráfica textual con un modelo basado en conjuntos para la recuperación de información. Inicialmente, cada documento en una colección se transforma en una representación gráfica. La mejora propuesta implica aumentar los bordes de estos gráficos con incrustaciones, que pueden ser preentrenadas o generadas utilizando modelos de Word2Vec y GloVe. Además, un aspecto alternativo de nuestro modelo propuesto consiste en la técnica de incrustación Node2Vec, que se aplica a un gráfico creado a nivel de colección a través de la extensión del modelo basado en conjuntos, proporcionando bordes basados en la información estructural del gráfico. La descomposición central se utiliza como un método para podar el gráfico. Como subproducto de nuestro modelo de recuperación de información, exploramos técnicas de clasificación de texto basadas en nuestro enfoque. Las incrustaciones de Node2Vec son generadas por nuestros gráficos y se aplican para representar los diferentes documentos en nuestras colecciones que han pasado por varios métodos de preprocesamiento. Comparamos las incrustaciones basadas en gráficos con las representaciones de Doc2Vec y Word2Vec para elaborar si nuestro enfoque puede implementarse en problemas de clasificación de temas. Por esa razón, luego entrenamos clasificadores populares en las incrustaciones de documentos obtenidas de cada modelo.
Descripción
Este documento tiene como objetivo mejorar el modelo basado en conjuntos gráficos (GSB) para tareas de clasificación y ranking incorporando incrustaciones de nodos y palabras. El modelo integra una representación gráfica textual con un modelo basado en conjuntos para la recuperación de información. Inicialmente, cada documento en una colección se transforma en una representación gráfica. La mejora propuesta implica aumentar los bordes de estos gráficos con incrustaciones, que pueden ser preentrenadas o generadas utilizando modelos de Word2Vec y GloVe. Además, un aspecto alternativo de nuestro modelo propuesto consiste en la técnica de incrustación Node2Vec, que se aplica a un gráfico creado a nivel de colección a través de la extensión del modelo basado en conjuntos, proporcionando bordes basados en la información estructural del gráfico. La descomposición central se utiliza como un método para podar el gráfico. Como subproducto de nuestro modelo de recuperación de información, exploramos técnicas de clasificación de texto basadas en nuestro enfoque. Las incrustaciones de Node2Vec son generadas por nuestros gráficos y se aplican para representar los diferentes documentos en nuestras colecciones que han pasado por varios métodos de preprocesamiento. Comparamos las incrustaciones basadas en gráficos con las representaciones de Doc2Vec y Word2Vec para elaborar si nuestro enfoque puede implementarse en problemas de clasificación de temas. Por esa razón, luego entrenamos clasificadores populares en las incrustaciones de documentos obtenidas de cada modelo.