Clasificación de texto basada en el gráfico heterogéneo considerando las relaciones entre documentos
Autores: Nakajima, Hiromu; Sasaki, Minoru
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Clasificación de texto basada en el gráfico heterogéneo considerando las relaciones entre documentos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Clasificación de texto
Datos de estructura de gráficos
Relaciones entre documentos
Red neuronal convolucional de grafos
Vectores de documentos
Relaciones entre palabras
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
La clasificación de texto es la tarea de estimar el género de un documento basado en información como la co-ocurrencia de palabras y la frecuencia de ocurrencia. La clasificación de texto ha sido estudiada por diversos enfoques. En este estudio, nos enfocamos en la clasificación de texto utilizando datos de estructura de grafo. Los métodos basados en grafo convencionales expresan las relaciones entre palabras y las relaciones entre palabras y documentos como pesos entre nodos. Luego, se utiliza una red neuronal de grafo para el aprendizaje. Sin embargo, hay un problema, ya que los métodos convencionales no pueden representar la relación entre documentos en el grafo. En este artículo, proponemos una estructura de grafo que considera las relaciones entre documentos. En el método propuesto, la similitud del coseno de los vectores de documentos se establece como pesos entre los nodos de documentos. Esto completa un grafo que considera la relación entre documentos. Luego, el grafo se introduce en una red neuronal convolucional de grafo para el entrenamiento. Por lo tanto, el objetivo de este estudio es mejorar el rendimiento de la clasificación de texto de los métodos convencionales utilizando este grafo que considera las relaciones entre los nodos de documentos. En este estudio, realizamos experimentos de evaluación utilizando cinco corpus diferentes de documentos en inglés. Los resultados mostraron que el método propuesto superó el rendimiento del método convencional en hasta un 1.19%, lo que indica que el uso de relaciones entre documentos es efectivo. Además, se demostró que el método propuesto es particularmente efectivo en la clasificación de documentos largos.
Descripción
La clasificación de texto es la tarea de estimar el género de un documento basado en información como la co-ocurrencia de palabras y la frecuencia de ocurrencia. La clasificación de texto ha sido estudiada por diversos enfoques. En este estudio, nos enfocamos en la clasificación de texto utilizando datos de estructura de grafo. Los métodos basados en grafo convencionales expresan las relaciones entre palabras y las relaciones entre palabras y documentos como pesos entre nodos. Luego, se utiliza una red neuronal de grafo para el aprendizaje. Sin embargo, hay un problema, ya que los métodos convencionales no pueden representar la relación entre documentos en el grafo. En este artículo, proponemos una estructura de grafo que considera las relaciones entre documentos. En el método propuesto, la similitud del coseno de los vectores de documentos se establece como pesos entre los nodos de documentos. Esto completa un grafo que considera la relación entre documentos. Luego, el grafo se introduce en una red neuronal convolucional de grafo para el entrenamiento. Por lo tanto, el objetivo de este estudio es mejorar el rendimiento de la clasificación de texto de los métodos convencionales utilizando este grafo que considera las relaciones entre los nodos de documentos. En este estudio, realizamos experimentos de evaluación utilizando cinco corpus diferentes de documentos en inglés. Los resultados mostraron que el método propuesto superó el rendimiento del método convencional en hasta un 1.19%, lo que indica que el uso de relaciones entre documentos es efectivo. Además, se demostró que el método propuesto es particularmente efectivo en la clasificación de documentos largos.