TextNeX: red de expertos en texto para una clasificación de texto robusta-estudio de caso sobre la detección de texto generado por máquina
Autores: Pintelas, Emmanuel; Koursaris, Athanasios; Livieris, Ioannis E.; Tampakas, Vasilis
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
TextNeX: red de expertos en texto para una clasificación de texto robusta-estudio de caso sobre la detección de texto generado por máquina
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Eficiente
Preciso
Clasificación de texto
Modelo de conjunto
Modelos de lenguaje livianos
Eficiencia computacional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La clasificación de texto eficiente y precisa es esencial para una amplia gama de aplicaciones de procesamiento de lenguaje natural, incluido el análisis de sentimientos, la detección de spam y la identificación de texto generado por máquinas. Aunque los avances recientes en modelos de lenguaje basados en transformadores han logrado un rendimiento notable, a menudo vienen con costos computacionales significativos, limitando su aplicabilidad en entornos con recursos limitados. En este trabajo, proponemos TextNeX, un nuevo modelo de conjunto que aprovecha modelos de lenguaje ligeros para lograr un rendimiento de vanguardia manteniendo la eficiencia computacional. El proceso de desarrollo del modelo TextNeX sigue un procedimiento de tres fases: (i) generación de un conjunto de modelos ligeros diversos a través de configuraciones de modelos aleatorizadas y variaciones de datos de entrenamiento; (ii) aplicación de una selección impulsada por heterogeneidad basada en agrupamiento para retener los modelos más complementarios y (iii) optimización de las contribuciones de los modelos seleccionados utilizando programación cuadrática secuencial. Las evaluaciones experimentales en tres conjuntos de datos desafiantes de clasificación de texto demuestran que TextNeX supera a los modelos de conjunto de vanguardia existentes en precisión, robustez y eficacia computacional, ofreciendo una alternativa práctica a los modelos a gran escala para aplicaciones del mundo real.
Descripción
La clasificación de texto eficiente y precisa es esencial para una amplia gama de aplicaciones de procesamiento de lenguaje natural, incluido el análisis de sentimientos, la detección de spam y la identificación de texto generado por máquinas. Aunque los avances recientes en modelos de lenguaje basados en transformadores han logrado un rendimiento notable, a menudo vienen con costos computacionales significativos, limitando su aplicabilidad en entornos con recursos limitados. En este trabajo, proponemos TextNeX, un nuevo modelo de conjunto que aprovecha modelos de lenguaje ligeros para lograr un rendimiento de vanguardia manteniendo la eficiencia computacional. El proceso de desarrollo del modelo TextNeX sigue un procedimiento de tres fases: (i) generación de un conjunto de modelos ligeros diversos a través de configuraciones de modelos aleatorizadas y variaciones de datos de entrenamiento; (ii) aplicación de una selección impulsada por heterogeneidad basada en agrupamiento para retener los modelos más complementarios y (iii) optimización de las contribuciones de los modelos seleccionados utilizando programación cuadrática secuencial. Las evaluaciones experimentales en tres conjuntos de datos desafiantes de clasificación de texto demuestran que TextNeX supera a los modelos de conjunto de vanguardia existentes en precisión, robustez y eficacia computacional, ofreciendo una alternativa práctica a los modelos a gran escala para aplicaciones del mundo real.