Explorando los beneficios de la ampliación de datos y el aprendizaje activo en conjuntos de datos desequilibrados
Autores: Moles, Luis; Andres, Alain; Echegaray, Goretti; Boto, Fernando
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Explorando los beneficios de la ampliación de datos y el aprendizaje activo en conjuntos de datos desequilibrados
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Datos
Aprendizaje activo
Datos etiquetados
Técnicas de aumento de datos
Escenarios de aprendizaje supervisado
Clases minoritarias
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
A pesar de la creciente disponibilidad de grandes cantidades de datos, el desafío de adquirir datos etiquetados persiste. Este problema es particularmente grave en escenarios de aprendizaje supervisado, donde los datos etiquetados son esenciales para el entrenamiento del modelo. Además, el rápido crecimiento de datos requerido por tecnologías de vanguardia como el aprendizaje profundo hace que la tarea de etiquetar grandes conjuntos de datos sea poco práctica. Los métodos de aprendizaje activo ofrecen una solución poderosa al seleccionar de forma iterativa las instancias no etiquetadas más informativas, reduciendo así la cantidad de datos etiquetados requeridos. Sin embargo, el aprendizaje activo enfrenta algunas limitaciones con conjuntos de datos desequilibrados, donde la sobre-representación de la clase mayoritaria puede sesgar la selección de muestras. Para abordar esto, combinar el aprendizaje activo con técnicas de aumento de datos surge como una estrategia prometedora. Sin embargo, todavía no está claro cuál es la mejor manera de combinar estas técnicas. Nuestra investigación aborda esta cuestión analizando la efectividad de combinar tanto el aprendizaje activo como las técnicas de aumento de datos en diferentes escenarios. Además, nos enfocamos en mejorar las capacidades de generalización para las clases minoritarias, que tienden a ser opacadas por la mejora vista en las clases mayoritarias. Con este propósito, generamos datos sintéticos utilizando múltiples métodos de aumento de datos y evaluamos los resultados considerando dos estrategias de aprendizaje activo en tres conjuntos de datos desequilibrados. Nuestro estudio muestra que el aumento de datos mejora la precisión de predicción para las clases minoritarias, con enfoques basados en CTGANs obteniendo mejoras de casi el 50% en algunos casos. Además, demostramos que combinar técnicas de aumento de datos con aprendizaje activo puede reducir la cantidad de datos reales requeridos.
Descripción
A pesar de la creciente disponibilidad de grandes cantidades de datos, el desafío de adquirir datos etiquetados persiste. Este problema es particularmente grave en escenarios de aprendizaje supervisado, donde los datos etiquetados son esenciales para el entrenamiento del modelo. Además, el rápido crecimiento de datos requerido por tecnologías de vanguardia como el aprendizaje profundo hace que la tarea de etiquetar grandes conjuntos de datos sea poco práctica. Los métodos de aprendizaje activo ofrecen una solución poderosa al seleccionar de forma iterativa las instancias no etiquetadas más informativas, reduciendo así la cantidad de datos etiquetados requeridos. Sin embargo, el aprendizaje activo enfrenta algunas limitaciones con conjuntos de datos desequilibrados, donde la sobre-representación de la clase mayoritaria puede sesgar la selección de muestras. Para abordar esto, combinar el aprendizaje activo con técnicas de aumento de datos surge como una estrategia prometedora. Sin embargo, todavía no está claro cuál es la mejor manera de combinar estas técnicas. Nuestra investigación aborda esta cuestión analizando la efectividad de combinar tanto el aprendizaje activo como las técnicas de aumento de datos en diferentes escenarios. Además, nos enfocamos en mejorar las capacidades de generalización para las clases minoritarias, que tienden a ser opacadas por la mejora vista en las clases mayoritarias. Con este propósito, generamos datos sintéticos utilizando múltiples métodos de aumento de datos y evaluamos los resultados considerando dos estrategias de aprendizaje activo en tres conjuntos de datos desequilibrados. Nuestro estudio muestra que el aumento de datos mejora la precisión de predicción para las clases minoritarias, con enfoques basados en CTGANs obteniendo mejoras de casi el 50% en algunos casos. Además, demostramos que combinar técnicas de aumento de datos con aprendizaje activo puede reducir la cantidad de datos reales requeridos.