logo móvil
Contáctanos

Adaptando Algoritmos de Selección de Características para la Clasificación de Textos Chinos

Autores: Liu, Xuan; Wang, Shuang; Lu, Siyu; Yin, Zhengtong; Li, Xiaolu; Yin, Lirong; Tian, Jiawei; Zheng, Wenfeng

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Adaptando Algoritmos de Selección de Características para la Clasificación de Textos Chinos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Clasificación de texto
Selección de características
Textos chinos
Algoritmos
Rendimiento
Corpus de noticias

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
La clasificación de textos ha sido destacada como el proceso clave para organizar textos en línea para una mejor comunicación en la Era de los Medios Digitales. La clasificación de textos establece reglas de clasificación basadas en características del texto, por lo que la precisión en la selección de características es la base de la clasificación de textos. Ante el rápido aumento de documentos electrónicos chinos en el entorno digital, los académicos han acumulado bastantes algoritmos para la selección de características para la clasificación automática de textos chinos en los últimos años. Sin embargo, la discusión sobre cómo adaptar los algoritmos de selección de características existentes para varios tipos de textos chinos sigue siendo insuficiente. Para abordar esto, este estudio propone tres algoritmos de selección de características mejorados y prueba su rendimiento en diferentes tipos de textos chinos. Estos incluyen un algoritmo CHI cuadrado mejorado con información mutua (MI), que introduce simultáneamente la frecuencia de palabras y el ajuste de términos (CHMI); un algoritmo de frecuencia de términos-CHI cuadrado (TF-CHI), que mejora el cálculo de pesos; y un algoritmo de frecuencia de términos-frecuencia inversa de documentos (TF-IDF) mejorado con el algoritmo de aumento de gradiente extremo (XGBoost), que mejora la capacidad del algoritmo para filtrar palabras (TF-XGBoost). Este estudio elige aleatoriamente 3000 textos de seis categorías diferentes del corpus de noticias Sogou para obtener la matriz de confusión y evaluar el rendimiento de los nuevos algoritmos con precisión y la puntuación F. Se realizan comparaciones experimentales en clasificadores de máquina de soporte vectorial (SVM) y Bayes ingenuo (NB). Los resultados experimentales demuestran que los algoritmos de selección de características propuestos en este documento mejoran el rendimiento en varios corpus de noticias, aunque los mejores esquemas de selección de características para cada tipo de corpus son diferentes. Se sugieren estudios adicionales sobre la aplicación de los métodos de selección de características mejorados en otros idiomas y la mejora en los clasificadores.

Otros recursos que podrían interesarte

Temas Virtualpro