Mejorando la Clasificación de Texto a Través de la Ingeniería de Características Basada en Gramática y Modelos de Aprendizaje

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la Clasificación de Texto a Través de la Ingeniería de Características Basada en Gramática y Modelos de Aprendizaje

Autores: Mohasseb, Alaa; Kanavos, Andreas; Amer, Eslam

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Mejorando la Clasificación de Texto a Través de la Ingeniería de Características Basada en Gramática y Modelos de Aprendizaje

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Clasificación de texto

PNL

Aprendizaje profundo

Modelos de transformadores

Algoritmo SMOTE

DistilBERT

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La clasificación de texto sigue siendo una tarea desafiante en el procesamiento del lenguaje natural (NLP) debido a la complejidad lingüística y al desequilibrio de datos. Este estudio propone un enfoque híbrido que integra la ingeniería de características basada en gramática con el aprendizaje profundo y modelos de transformadores para mejorar el rendimiento de la clasificación. Se utiliza un conjunto de datos de preguntas factuales y no factuales, categorizadas además en tipos causal, de elección, de confirmación, hipotético y de lista, para evaluar varios modelos, incluidos CNN, BiLSTM, MLP, BERT, DistilBERT, Electra y GPT-2. Se extraen y aprovechan explícitamente características gramaticales y específicas del dominio para mejorar la clasificación multiclase. Para abordar el desequilibrio de clases, se aplica el algoritmo SMOTE, lo que aumenta significativamente la recuperación y la puntuación F1 para las clases minoritarias. Los resultados experimentales muestran que DistilBERT logra la mayor precisión en la clasificación binaria, igual a 94%, mientras que BiLSTM y CNN superan a los transformadores en configuraciones multiclase, alcanzando hasta un 92% de precisión. Estos hallazgos confirman que las características basadas en gramática proporcionan información sintáctica y semántica crítica, mejorando la robustez e interpretabilidad del modelo más allá de las incrustaciones convencionales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro