logo móvil
Contáctanos

Mejorando la Clasificación de Texto a Través de la Ingeniería de Características Basada en Gramática y Modelos de Aprendizaje

Autores: Mohasseb, Alaa; Kanavos, Andreas; Amer, Eslam

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Mejorando la Clasificación de Texto a Través de la Ingeniería de Características Basada en Gramática y Modelos de Aprendizaje


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Clasificación de texto
PNL
Aprendizaje profundo
Modelos de transformadores
Algoritmo SMOTE
DistilBERT

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La clasificación de texto sigue siendo una tarea desafiante en el procesamiento del lenguaje natural (NLP) debido a la complejidad lingüística y al desequilibrio de datos. Este estudio propone un enfoque híbrido que integra la ingeniería de características basada en gramática con el aprendizaje profundo y modelos de transformadores para mejorar el rendimiento de la clasificación. Se utiliza un conjunto de datos de preguntas factuales y no factuales, categorizadas además en tipos causal, de elección, de confirmación, hipotético y de lista, para evaluar varios modelos, incluidos CNN, BiLSTM, MLP, BERT, DistilBERT, Electra y GPT-2. Se extraen y aprovechan explícitamente características gramaticales y específicas del dominio para mejorar la clasificación multiclase. Para abordar el desequilibrio de clases, se aplica el algoritmo SMOTE, lo que aumenta significativamente la recuperación y la puntuación F1 para las clases minoritarias. Los resultados experimentales muestran que DistilBERT logra la mayor precisión en la clasificación binaria, igual a 94%, mientras que BiLSTM y CNN superan a los transformadores en configuraciones multiclase, alcanzando hasta un 92% de precisión. Estos hallazgos confirman que las características basadas en gramática proporcionan información sintáctica y semántica crítica, mejorando la robustez e interpretabilidad del modelo más allá de las incrustaciones convencionales.

Otros recursos que podrían interesarte

Temas Virtualpro