logo móvil
Contáctanos

Selección de modelo de bi-codificador adaptativo y conjunto para clasificación de texto

Autores: Park, Youngki; Shin, Youhyun

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Selección de modelo de bi-codificador adaptativo y conjunto para clasificación de texto


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Bi-codificadores
Clasificación de texto
Conjuntos de datos
Rendimiento
Ajuste fino
RoBERTa-Base

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
¿Pueden los bi-codificadores, sin ajustes adicionales, lograr un rendimiento comparable a los modelos BERT ajustados finamente en tareas de clasificación? Para responder a esta pregunta, presentamos un enfoque simple pero efectivo para la clasificación de texto utilizando bi-codificadores sin necesidad de ajustes finos. Nuestra observación principal es que los bi-codificadores de última generación muestran un rendimiento variable en diferentes conjuntos de datos. Por lo tanto, nuestros enfoques propuestos implican la preparación de múltiples bi-codificadores y, cuando se proporciona un nuevo conjunto de datos, seleccionar y ensamblar los más apropiados en función del conjunto de datos. Los resultados experimentales muestran que, para tareas de clasificación de texto en subconjuntos de los conjuntos de datos AG News, SMS Spam Collection, Stanford Sentiment Treebank v2 y TREC Question Classification, los enfoques propuestos logran un rendimiento comparable a BERT-Base, DistilBERT-Base, ALBERT-Base y RoBERTa-Base ajustados finamente. Por ejemplo, el uso del conocido modelo de bi-codificador sin optimización adicional resultó en una precisión promedio del 77.84%. Esto mejoró al 89.49% mediante la aplicación de las técnicas de selección y ensamblaje adaptativo propuestas, y aumentó aún más al 91.96% cuando se combinó con el modelo RoBERTa-Base. Creemos que este enfoque será particularmente útil en campos como la educación de programación de IA de K-12, donde se aplican modelos pre-entrenados a conjuntos de datos pequeños sin ajustes finos.

Otros recursos que podrían interesarte

Temas Virtualpro