Adaptando Algoritmos de Selección de Características para la Clasificación de Textos Chinos
Autores: Liu, Xuan; Wang, Shuang; Lu, Siyu; Yin, Zhengtong; Li, Xiaolu; Yin, Lirong; Tian, Jiawei; Zheng, Wenfeng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Adaptando Algoritmos de Selección de Características para la Clasificación de Textos Chinos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Clasificación de texto
Selección de características
Textos chinos
Algoritmos
Rendimiento
Corpus de noticias
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
La clasificación de textos ha sido destacada como el proceso clave para organizar textos en línea para una mejor comunicación en la Era de los Medios Digitales. La clasificación de textos establece reglas de clasificación basadas en características del texto, por lo que la precisión en la selección de características es la base de la clasificación de textos. Ante el rápido aumento de documentos electrónicos chinos en el entorno digital, los académicos han acumulado bastantes algoritmos para la selección de características para la clasificación automática de textos chinos en los últimos años. Sin embargo, la discusión sobre cómo adaptar los algoritmos de selección de características existentes para varios tipos de textos chinos sigue siendo insuficiente. Para abordar esto, este estudio propone tres algoritmos de selección de características mejorados y prueba su rendimiento en diferentes tipos de textos chinos. Estos incluyen un algoritmo CHI cuadrado mejorado con información mutua (MI), que introduce simultáneamente la frecuencia de palabras y el ajuste de términos (CHMI); un algoritmo de frecuencia de términos-CHI cuadrado (TF-CHI), que mejora el cálculo de pesos; y un algoritmo de frecuencia de términos-frecuencia inversa de documentos (TF-IDF) mejorado con el algoritmo de aumento de gradiente extremo (XGBoost), que mejora la capacidad del algoritmo para filtrar palabras (TF-XGBoost). Este estudio elige aleatoriamente 3000 textos de seis categorías diferentes del corpus de noticias Sogou para obtener la matriz de confusión y evaluar el rendimiento de los nuevos algoritmos con precisión y la puntuación F. Se realizan comparaciones experimentales en clasificadores de máquina de soporte vectorial (SVM) y Bayes ingenuo (NB). Los resultados experimentales demuestran que los algoritmos de selección de características propuestos en este documento mejoran el rendimiento en varios corpus de noticias, aunque los mejores esquemas de selección de características para cada tipo de corpus son diferentes. Se sugieren estudios adicionales sobre la aplicación de los métodos de selección de características mejorados en otros idiomas y la mejora en los clasificadores.
Descripción
La clasificación de textos ha sido destacada como el proceso clave para organizar textos en línea para una mejor comunicación en la Era de los Medios Digitales. La clasificación de textos establece reglas de clasificación basadas en características del texto, por lo que la precisión en la selección de características es la base de la clasificación de textos. Ante el rápido aumento de documentos electrónicos chinos en el entorno digital, los académicos han acumulado bastantes algoritmos para la selección de características para la clasificación automática de textos chinos en los últimos años. Sin embargo, la discusión sobre cómo adaptar los algoritmos de selección de características existentes para varios tipos de textos chinos sigue siendo insuficiente. Para abordar esto, este estudio propone tres algoritmos de selección de características mejorados y prueba su rendimiento en diferentes tipos de textos chinos. Estos incluyen un algoritmo CHI cuadrado mejorado con información mutua (MI), que introduce simultáneamente la frecuencia de palabras y el ajuste de términos (CHMI); un algoritmo de frecuencia de términos-CHI cuadrado (TF-CHI), que mejora el cálculo de pesos; y un algoritmo de frecuencia de términos-frecuencia inversa de documentos (TF-IDF) mejorado con el algoritmo de aumento de gradiente extremo (XGBoost), que mejora la capacidad del algoritmo para filtrar palabras (TF-XGBoost). Este estudio elige aleatoriamente 3000 textos de seis categorías diferentes del corpus de noticias Sogou para obtener la matriz de confusión y evaluar el rendimiento de los nuevos algoritmos con precisión y la puntuación F. Se realizan comparaciones experimentales en clasificadores de máquina de soporte vectorial (SVM) y Bayes ingenuo (NB). Los resultados experimentales demuestran que los algoritmos de selección de características propuestos en este documento mejoran el rendimiento en varios corpus de noticias, aunque los mejores esquemas de selección de características para cada tipo de corpus son diferentes. Se sugieren estudios adicionales sobre la aplicación de los métodos de selección de características mejorados en otros idiomas y la mejora en los clasificadores.