Clasificación de texto de pocos disparos basada en indicaciones con aumento de etiquetas de multi-granularidad y verbalizador adaptativo
Autores: Huang, Deling; Li, Zanxiong; Yu, Jian; Zhou, Yulong
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Clasificación de texto de pocos disparos basada en indicaciones con aumento de etiquetas de multi-granularidad y verbalizador adaptativo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Clasificación de texto
Aprendizaje con pocos ejemplos
Ajuste de indicaciones
Verbalizadores
Modelos de lenguaje preentrenados
Aumento de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La clasificación de texto de pocos disparos (FSTC) tiene como objetivo clasificar texto con precisión en categorías predefinidas utilizando muestras de entrenamiento mínimas. Recientemente, los métodos basados en el ajuste de indicaciones han logrado resultados prometedores al construir verbalizadores que mapean los datos de entrada al espacio de etiquetas, maximizando así la utilización de las características de modelos preentrenados. Sin embargo, los métodos existentes de construcción de verbalizadores a menudo dependen de bases de conocimiento externas, lo que requiere un filtrado de ruido complejo y un refinamiento manual, haciendo que el proceso sea lento y laborioso, mientras que los enfoques basados en modelos de lenguaje preentrenados (PLMs) a menudo pasan por alto los sesgos de predicción inherentes. Además, los métodos convencionales de aumento de datos se centran en modificar instancias de entrada mientras pasan por alto el papel integral de la semántica de las etiquetas en el ajuste de indicaciones. Esta desconexión a menudo conduce a un compromiso donde una mayor diversidad de muestras se produce a expensas de la consistencia semántica, resultando en mejoras marginales. Para abordar estas limitaciones, este documento propone primero un nuevo método basado en la Información Mutua Bayesiana que optimiza el mapeo de etiquetas para retener características generales de PLM mientras reduce la dependencia de atributos irrelevantes o injustos para mitigar sesgos latentes. Basado en este método, proponemos dos generadores sinérgicos que sintetizan muestras semánticamente consistentes al integrar información de palabras de etiquetas del verbalizador para enriquecer efectivamente la distribución de datos y aliviar la escasez. Para garantizar la fiabilidad del conjunto aumentado, proponemos un Selector de Baja Entropía que actúa como un filtro semántico, reteniendo solo muestras de alta confianza para proteger al modelo contra señales de supervisión ambiguas. Además, proponemos un marco de Entrenamiento Adversarial Consciente de la Dificultad que fomenta el aprendizaje de características generalizadas, permitiendo que el modelo soporte perturbaciones sutiles en la entrada. Experimentos extensivos demuestran que nuestro enfoque supera a los métodos de vanguardia en la mayoría de las divisiones de pocos disparos y de datos completos, con mejoras en la puntuación F1 de hasta +2.8% en el estándar de referencia AG"s News y +1.0% en el desafiante estándar de referencia DBPedia.
Descripción
La clasificación de texto de pocos disparos (FSTC) tiene como objetivo clasificar texto con precisión en categorías predefinidas utilizando muestras de entrenamiento mínimas. Recientemente, los métodos basados en el ajuste de indicaciones han logrado resultados prometedores al construir verbalizadores que mapean los datos de entrada al espacio de etiquetas, maximizando así la utilización de las características de modelos preentrenados. Sin embargo, los métodos existentes de construcción de verbalizadores a menudo dependen de bases de conocimiento externas, lo que requiere un filtrado de ruido complejo y un refinamiento manual, haciendo que el proceso sea lento y laborioso, mientras que los enfoques basados en modelos de lenguaje preentrenados (PLMs) a menudo pasan por alto los sesgos de predicción inherentes. Además, los métodos convencionales de aumento de datos se centran en modificar instancias de entrada mientras pasan por alto el papel integral de la semántica de las etiquetas en el ajuste de indicaciones. Esta desconexión a menudo conduce a un compromiso donde una mayor diversidad de muestras se produce a expensas de la consistencia semántica, resultando en mejoras marginales. Para abordar estas limitaciones, este documento propone primero un nuevo método basado en la Información Mutua Bayesiana que optimiza el mapeo de etiquetas para retener características generales de PLM mientras reduce la dependencia de atributos irrelevantes o injustos para mitigar sesgos latentes. Basado en este método, proponemos dos generadores sinérgicos que sintetizan muestras semánticamente consistentes al integrar información de palabras de etiquetas del verbalizador para enriquecer efectivamente la distribución de datos y aliviar la escasez. Para garantizar la fiabilidad del conjunto aumentado, proponemos un Selector de Baja Entropía que actúa como un filtro semántico, reteniendo solo muestras de alta confianza para proteger al modelo contra señales de supervisión ambiguas. Además, proponemos un marco de Entrenamiento Adversarial Consciente de la Dificultad que fomenta el aprendizaje de características generalizadas, permitiendo que el modelo soporte perturbaciones sutiles en la entrada. Experimentos extensivos demuestran que nuestro enfoque supera a los métodos de vanguardia en la mayoría de las divisiones de pocos disparos y de datos completos, con mejoras en la puntuación F1 de hasta +2.8% en el estándar de referencia AG"s News y +1.0% en el desafiante estándar de referencia DBPedia.