Detección de texto controvertido de múltiples dominios basada en un conjunto apilado de aprendizaje automático y aprendizaje profundo
Autores: Liu, Jiadi; Liu, Zhuodong; Li, Qiaoqi; Kong, Weihao; Li, Xiangyu
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Detección de texto controvertido de múltiples dominios basada en un conjunto apilado de aprendizaje automático y aprendizaje profundo
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Redes sociales
Reseñas en línea
Textos controvertidos
Procesamiento de lenguaje natural
Clasificación de texto
Aprendizaje en conjunto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Debido a la rápida proliferación de las redes sociales y las reseñas en línea, la identificación y clasificación precisa de textos controvertidos ha surgido como un desafío significativo en el campo del procesamiento del lenguaje natural. Sin embargo, las metodologías tradicionales de clasificación de textos frecuentemente encuentran limitaciones críticas, como la sensibilidad a las características y las capacidades de generalización insuficientes. Esto resulta en un rendimiento notablemente subóptimo cuando se enfrenta a contenido controvertido diverso. Para abordar estas limitaciones sustanciales, este artículo propone un nuevo marco de detección de textos controvertidos basado en el aprendizaje de conjunto apilado para mejorar la precisión y la robustez de la clasificación de textos. En primer lugar, considerando la complejidad multidimensional de las características textuales, integramos una ingeniería de características integral, es decir, que abarca la frecuencia de palabras, métricas estadísticas, análisis de sentimientos y características de la estructura del árbol de comentarios, así como metodologías avanzadas de selección de características, en particular lassonet, es decir, una red neuronal con esparcimientos de características, para abordar eficazmente los desafíos de dimensionalidad al tiempo que se mejora la interpretabilidad del modelo y la eficiencia computacional. En segundo lugar, diseñamos una arquitectura de conjunto apilado de dos niveles, que no solo combina las fortalezas de múltiples algoritmos de aprendizaje automático, por ejemplo, árbol de decisión potenciado por gradiente (GBDT), bosque aleatorio (RF) y aumento extremo de gradiente (XGBoost), con modelos de aprendizaje profundo, por ejemplo, unidad recurrente cerrada (GRU) y memoria a corto plazo larga (LSTM), sino que también implementa la máquina de vectores de soporte (SVM) para un metaaprendizaje eficiente. Además, comparamos sistemáticamente tres algoritmos de optimización de hiperparámetros, incluido el algoritmo de búsqueda de gorrión (SSA), la optimización por enjambre de partículas (PSO) y la optimización bayesiana (BO). Los resultados experimentales demuestran que el SSA exhibe un rendimiento superior en la exploración de espacios de parámetros de alta dimensión. La experimentación extensiva en diversos temas y dominios también confirma que nuestra metodología propuesta supera significativamente a los enfoques de vanguardia.
Descripción
Debido a la rápida proliferación de las redes sociales y las reseñas en línea, la identificación y clasificación precisa de textos controvertidos ha surgido como un desafío significativo en el campo del procesamiento del lenguaje natural. Sin embargo, las metodologías tradicionales de clasificación de textos frecuentemente encuentran limitaciones críticas, como la sensibilidad a las características y las capacidades de generalización insuficientes. Esto resulta en un rendimiento notablemente subóptimo cuando se enfrenta a contenido controvertido diverso. Para abordar estas limitaciones sustanciales, este artículo propone un nuevo marco de detección de textos controvertidos basado en el aprendizaje de conjunto apilado para mejorar la precisión y la robustez de la clasificación de textos. En primer lugar, considerando la complejidad multidimensional de las características textuales, integramos una ingeniería de características integral, es decir, que abarca la frecuencia de palabras, métricas estadísticas, análisis de sentimientos y características de la estructura del árbol de comentarios, así como metodologías avanzadas de selección de características, en particular lassonet, es decir, una red neuronal con esparcimientos de características, para abordar eficazmente los desafíos de dimensionalidad al tiempo que se mejora la interpretabilidad del modelo y la eficiencia computacional. En segundo lugar, diseñamos una arquitectura de conjunto apilado de dos niveles, que no solo combina las fortalezas de múltiples algoritmos de aprendizaje automático, por ejemplo, árbol de decisión potenciado por gradiente (GBDT), bosque aleatorio (RF) y aumento extremo de gradiente (XGBoost), con modelos de aprendizaje profundo, por ejemplo, unidad recurrente cerrada (GRU) y memoria a corto plazo larga (LSTM), sino que también implementa la máquina de vectores de soporte (SVM) para un metaaprendizaje eficiente. Además, comparamos sistemáticamente tres algoritmos de optimización de hiperparámetros, incluido el algoritmo de búsqueda de gorrión (SSA), la optimización por enjambre de partículas (PSO) y la optimización bayesiana (BO). Los resultados experimentales demuestran que el SSA exhibe un rendimiento superior en la exploración de espacios de parámetros de alta dimensión. La experimentación extensiva en diversos temas y dominios también confirma que nuestra metodología propuesta supera significativamente a los enfoques de vanguardia.