FldtMatch: mejorando la clasificación de datos desequilibrados a través del aprendizaje profundo semi-supervisado con umbral dinámico autoadaptativo
Autores: Wu, Xin; Xu, Jingjing; Li, Kuan; Yin, Jianping; Xiong, Jian
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
FldtMatch: mejorando la clasificación de datos desequilibrados a través del aprendizaje profundo semi-supervisado con umbral dinámico autoadaptativo
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Métodos
Aprendizaje profundo semi-supervisado
Pseudoetiquetado
Umbral
Conjuntos de datos desbalanceados
Umbral dinámico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Entre los muchos métodos de aprendizaje profundo semi-supervisado (DSSL), el método holístico combina ideas de otros métodos, como la regularización de consistencia y la pseudoetiquetado, con gran éxito. Este método típicamente introduce un umbral para utilizar datos no etiquetados. Si el valor predictivo más alto de los datos no etiquetados supera el umbral, la clase asociada se designa como la pseudoetiqueta de los datos. Sin embargo, los métodos actuales utilizan umbrales fijos o dinámicos, ignorando las dificultades de aprendizaje variables en las categorías de conjuntos de datos desequilibrados. Para superar estos problemas, en este artículo primero diseñamos el Etiquetado Efectivo Acumulativo (CEL) para reflejar la dificultad de aprendizaje de una clase en particular. Este enfoque difiere de los métodos anteriores porque utiliza pseudoetiquetas efectivas y la verdad terrenal, influenciando colectivamente la capacidad del modelo para adquirir conocimiento de categoría. Además, basándonos en CEL, proponemos una forma simple pero efectiva de calcular el umbral, Umbral Dinámico Autoadaptativo (SDT). Requiere un solo hiperparámetro para ajustarse a varios escenarios, eliminando la necesidad de un enfoque único de modificación de umbral para cada caso. SDT utiliza una función de mapeo inteligente que puede resolver el problema de la dificultad de aprendizaje diferencial de diversas categorías en un conjunto de datos de imágenes desequilibrado que afecta negativamente el umbral dinámico. Finalmente, proponemos un método profundo semi-supervisado con SDT llamado FldtMatch. A través de análisis teóricos y experimentos extensos, hemos demostrado plenamente que FldtMatch puede superar el impacto negativo de los datos desequilibrados. Independientemente de la elección de la red base, nuestro método logra los mejores resultados en múltiples conjuntos de datos. La mejora máxima de la métrica de macro F1-Score es de aproximadamente 5,6% en DFUC2021 y 2,2% en ISIC2018.
Descripción
Entre los muchos métodos de aprendizaje profundo semi-supervisado (DSSL), el método holístico combina ideas de otros métodos, como la regularización de consistencia y la pseudoetiquetado, con gran éxito. Este método típicamente introduce un umbral para utilizar datos no etiquetados. Si el valor predictivo más alto de los datos no etiquetados supera el umbral, la clase asociada se designa como la pseudoetiqueta de los datos. Sin embargo, los métodos actuales utilizan umbrales fijos o dinámicos, ignorando las dificultades de aprendizaje variables en las categorías de conjuntos de datos desequilibrados. Para superar estos problemas, en este artículo primero diseñamos el Etiquetado Efectivo Acumulativo (CEL) para reflejar la dificultad de aprendizaje de una clase en particular. Este enfoque difiere de los métodos anteriores porque utiliza pseudoetiquetas efectivas y la verdad terrenal, influenciando colectivamente la capacidad del modelo para adquirir conocimiento de categoría. Además, basándonos en CEL, proponemos una forma simple pero efectiva de calcular el umbral, Umbral Dinámico Autoadaptativo (SDT). Requiere un solo hiperparámetro para ajustarse a varios escenarios, eliminando la necesidad de un enfoque único de modificación de umbral para cada caso. SDT utiliza una función de mapeo inteligente que puede resolver el problema de la dificultad de aprendizaje diferencial de diversas categorías en un conjunto de datos de imágenes desequilibrado que afecta negativamente el umbral dinámico. Finalmente, proponemos un método profundo semi-supervisado con SDT llamado FldtMatch. A través de análisis teóricos y experimentos extensos, hemos demostrado plenamente que FldtMatch puede superar el impacto negativo de los datos desequilibrados. Independientemente de la elección de la red base, nuestro método logra los mejores resultados en múltiples conjuntos de datos. La mejora máxima de la métrica de macro F1-Score es de aproximadamente 5,6% en DFUC2021 y 2,2% en ISIC2018.