Algoritmo híbrido de optimización de moscas de la fruta con K-Means para la agrupación de documentos de texto
Autores: Bezdan, Timea; Stoean, Catalin; Naamany, Ahmed Al; Bacanin, Nebojsa; Rashid, Tarik A.; Zivkovic, Miodrag; Venkatachalam, K.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Algoritmo híbrido de optimización de moscas de la fruta con K-Means para la agrupación de documentos de texto
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Internet
Datos de texto
Agrupamiento
Minería de texto
Algoritmo
Documentos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
El rápido crecimiento de Internet resulta en grandes cantidades de datos de texto. Debido al gran volumen del formato no estructurado de los datos de texto, extraer información relevante y su análisis se vuelve muy desafiante. El agrupamiento de documentos de texto es un proceso de minería de texto que divide el conjunto de documentos basados en texto en grupos mutuamente exclusivos de tal manera que los documentos dentro del mismo grupo son similares entre sí, mientras que los documentos de diferentes grupos difieren según el contenido. Uno de los mayores desafíos en el agrupamiento de texto es dividir la colección de datos de texto midiendo la relevancia del contenido en los documentos. Abordando este problema, en este trabajo se propone un algoritmo híbrido de inteligencia de enjambre con un algoritmo K-means para el agrupamiento de texto. Primero, se prueba el algoritmo híbrido de optimización de mosca de la fruta en diez funciones de referencia CEC2019 no restringidas. A continuación, el método propuesto se evalúa en seis conjuntos de datos de texto de referencia estándar. La evaluación experimental en las funciones no restringidas, así como en documentos basados en texto, indicó que el enfoque propuesto es robusto y superior a otros métodos de vanguardia.
Descripción
El rápido crecimiento de Internet resulta en grandes cantidades de datos de texto. Debido al gran volumen del formato no estructurado de los datos de texto, extraer información relevante y su análisis se vuelve muy desafiante. El agrupamiento de documentos de texto es un proceso de minería de texto que divide el conjunto de documentos basados en texto en grupos mutuamente exclusivos de tal manera que los documentos dentro del mismo grupo son similares entre sí, mientras que los documentos de diferentes grupos difieren según el contenido. Uno de los mayores desafíos en el agrupamiento de texto es dividir la colección de datos de texto midiendo la relevancia del contenido en los documentos. Abordando este problema, en este trabajo se propone un algoritmo híbrido de inteligencia de enjambre con un algoritmo K-means para el agrupamiento de texto. Primero, se prueba el algoritmo híbrido de optimización de mosca de la fruta en diez funciones de referencia CEC2019 no restringidas. A continuación, el método propuesto se evalúa en seis conjuntos de datos de texto de referencia estándar. La evaluación experimental en las funciones no restringidas, así como en documentos basados en texto, indicó que el enfoque propuesto es robusto y superior a otros métodos de vanguardia.