Adaptando Algoritmos de Selección de Características para la Clasificación de Textos Chinos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Adaptando Algoritmos de Selección de Características para la Clasificación de Textos Chinos

Autores: Liu, Xuan; Wang, Shuang; Lu, Siyu; Yin, Zhengtong; Li, Xiaolu; Yin, Lirong; Tian, Jiawei; Zheng, Wenfeng

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Adaptando Algoritmos de Selección de Características para la Clasificación de Textos Chinos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Clasificación de texto

Selección de características

Textos chinos

Algoritmos

Rendimiento

Corpus de noticias

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones

La clasificación de textos ha sido destacada como el proceso clave para organizar textos en línea para una mejor comunicación en la Era de los Medios Digitales. La clasificación de textos establece reglas de clasificación basadas en características del texto, por lo que la precisión en la selección de características es la base de la clasificación de textos. Ante el rápido aumento de documentos electrónicos chinos en el entorno digital, los académicos han acumulado bastantes algoritmos para la selección de características para la clasificación automática de textos chinos en los últimos años. Sin embargo, la discusión sobre cómo adaptar los algoritmos de selección de características existentes para varios tipos de textos chinos sigue siendo insuficiente. Para abordar esto, este estudio propone tres algoritmos de selección de características mejorados y prueba su rendimiento en diferentes tipos de textos chinos. Estos incluyen un algoritmo CHI cuadrado mejorado con información mutua (MI), que introduce simultáneamente la frecuencia de palabras y el ajuste de términos (CHMI); un algoritmo de frecuencia de términos-CHI cuadrado (TF-CHI), que mejora el cálculo de pesos; y un algoritmo de frecuencia de términos-frecuencia inversa de documentos (TF-IDF) mejorado con el algoritmo de aumento de gradiente extremo (XGBoost), que mejora la capacidad del algoritmo para filtrar palabras (TF-XGBoost). Este estudio elige aleatoriamente 3000 textos de seis categorías diferentes del corpus de noticias Sogou para obtener la matriz de confusión y evaluar el rendimiento de los nuevos algoritmos con precisión y la puntuación F. Se realizan comparaciones experimentales en clasificadores de máquina de soporte vectorial (SVM) y Bayes ingenuo (NB). Los resultados experimentales demuestran que los algoritmos de selección de características propuestos en este documento mejoran el rendimiento en varios corpus de noticias, aunque los mejores esquemas de selección de características para cada tipo de corpus son diferentes. Se sugieren estudios adicionales sobre la aplicación de los métodos de selección de características mejorados en otros idiomas y la mejora en los clasificadores.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro