ACVM: Un Mecanismo de Validación de Combinación Adaptativa para el Reconocimiento de Imágenes de Cola Larga
Autores: Sun, Tianci; He, Wanqiu; Shao, Changbin; Zheng, Shang; Yu, Hualong
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
ACVM: Un Mecanismo de Validación de Combinación Adaptativa para el Reconocimiento de Imágenes de Cola Larga
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Conjuntos de datos a gran escala
Redes neuronales profundas
Estrategia de reponderación
Dificultad de clase
Validación cruzada K-fold
Dificultad de muestra
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En escenarios del mundo real, los conjuntos de datos a gran escala a menudo exhiben una distribución de datos de cola larga. Entrenar redes neuronales profundas con tales datos generalmente conduce a un sesgo hacia las clases principales. Estudios existentes han demostrado que la estrategia de reponderación es un medio efectivo para aliviar el problema de la cola larga. Estudios recientes sugieren que incorporar la dificultad de clase en la reponderación puede generar resultados superiores. Sin embargo, el método de cuantificación de la dificultad de clase mediante un conjunto de validación independiente ha mostrado limitaciones en aplicaciones prácticas, es decir, desperdicio de muestras de entrenamiento y estimaciones inexactas. Para abordar este problema, este estudio propone un modelo novedoso basado en validación cruzada K-fold, llamado modelo de validación de combinación adaptativa, que contiene dos innovaciones principales: primero, tanto la dificultad de clase como la de muestra se cuantifican utilizando una estrategia de estimación más completa y auténtica, es decir, validación cruzada K-fold, para obtener estimaciones precisas y robustas; segundo, extraemos las distribuciones de probabilidad de predicción de las muestras, que reflejan la dificultad de la muestra, de diferentes ramas del modelo y diseñamos una pérdida armonizada por distribución para centrarnos simultáneamente en los efectos de las distribuciones reponderadas y originales. Experimentos extensivos en varios conjuntos de datos populares de reconocimiento de imágenes de cola larga (CIFAR10-LT y CIFAR100-LT, con varias tasas de desequilibrio, e ImageNet-LT) demuestran que el método propuesto puede aliviar efectivamente el problema de la cola larga y lograr un rendimiento de vanguardia en la mayoría de los conjuntos de datos.
Descripción
En escenarios del mundo real, los conjuntos de datos a gran escala a menudo exhiben una distribución de datos de cola larga. Entrenar redes neuronales profundas con tales datos generalmente conduce a un sesgo hacia las clases principales. Estudios existentes han demostrado que la estrategia de reponderación es un medio efectivo para aliviar el problema de la cola larga. Estudios recientes sugieren que incorporar la dificultad de clase en la reponderación puede generar resultados superiores. Sin embargo, el método de cuantificación de la dificultad de clase mediante un conjunto de validación independiente ha mostrado limitaciones en aplicaciones prácticas, es decir, desperdicio de muestras de entrenamiento y estimaciones inexactas. Para abordar este problema, este estudio propone un modelo novedoso basado en validación cruzada K-fold, llamado modelo de validación de combinación adaptativa, que contiene dos innovaciones principales: primero, tanto la dificultad de clase como la de muestra se cuantifican utilizando una estrategia de estimación más completa y auténtica, es decir, validación cruzada K-fold, para obtener estimaciones precisas y robustas; segundo, extraemos las distribuciones de probabilidad de predicción de las muestras, que reflejan la dificultad de la muestra, de diferentes ramas del modelo y diseñamos una pérdida armonizada por distribución para centrarnos simultáneamente en los efectos de las distribuciones reponderadas y originales. Experimentos extensivos en varios conjuntos de datos populares de reconocimiento de imágenes de cola larga (CIFAR10-LT y CIFAR100-LT, con varias tasas de desequilibrio, e ImageNet-LT) demuestran que el método propuesto puede aliviar efectivamente el problema de la cola larga y lograr un rendimiento de vanguardia en la mayoría de los conjuntos de datos.