TabFedSL: un enfoque de autoaprendizaje para etiquetar datos tabulares en entornos de aprendizaje federado
Autores: Wang, Ruixiao; Hu, Yanxin; Chen, Zhiyu; Guo, Jianwei; Liu, Gang
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
TabFedSL: un enfoque de autoaprendizaje para etiquetar datos tabulares en entornos de aprendizaje federado
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje auto-supervisado
Etiquetado de datos
Conjuntos de datos grandes
Estructuras espaciales
Datos tabulares
Aprendizaje Federado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Actualmente, el aprendizaje auto-supervisado ha demostrado ser efectivo en la resolución de problemas de etiquetado de datos. Su éxito depende principalmente de tener acceso a conjuntos de datos grandes y de alta calidad con características diversas. También se basa en utilizar las estructuras espaciales, temporales y semánticas presentes en los datos. Sin embargo, dominios como finanzas, salud y seguros utilizan principalmente formatos de datos tabulares. Esto presenta desafíos para los métodos tradicionales de aumento de datos destinados a mejorar la calidad de los datos. Además, la naturaleza sensible a la privacidad de estos dominios complica la adquisición de conjuntos de datos extensos y de alta calidad necesarios para entrenar modelos auto-supervisados efectivos. Para abordar estos desafíos, nuestra propuesta introduce un nuevo marco que combina el aprendizaje auto-supervisado con el Aprendizaje Federado (FL). Este enfoque tiene como objetivo resolver el problema del entrenamiento distribuido de datos asegurando la calidad del entrenamiento. Nuestro marco mejora el paradigma convencional de aumento de datos del aprendizaje auto-supervisado incorporando el etiquetado de datos mediante la segmentación de datos en subconjuntos. Nuestro marco agrega ruido dividiendo subconjuntos de datos y puede lograr el mismo nivel de aprendizaje centralizado en un entorno distribuido. Además, realizamos experimentos en varios conjuntos de datos tabulares públicos para evaluar nuestro enfoque. Los resultados experimentales muestran la efectividad y generalizabilidad de nuestro método propuesto en escenarios que involucran datos no etiquetados y entornos distribuidos.
Descripción
Actualmente, el aprendizaje auto-supervisado ha demostrado ser efectivo en la resolución de problemas de etiquetado de datos. Su éxito depende principalmente de tener acceso a conjuntos de datos grandes y de alta calidad con características diversas. También se basa en utilizar las estructuras espaciales, temporales y semánticas presentes en los datos. Sin embargo, dominios como finanzas, salud y seguros utilizan principalmente formatos de datos tabulares. Esto presenta desafíos para los métodos tradicionales de aumento de datos destinados a mejorar la calidad de los datos. Además, la naturaleza sensible a la privacidad de estos dominios complica la adquisición de conjuntos de datos extensos y de alta calidad necesarios para entrenar modelos auto-supervisados efectivos. Para abordar estos desafíos, nuestra propuesta introduce un nuevo marco que combina el aprendizaje auto-supervisado con el Aprendizaje Federado (FL). Este enfoque tiene como objetivo resolver el problema del entrenamiento distribuido de datos asegurando la calidad del entrenamiento. Nuestro marco mejora el paradigma convencional de aumento de datos del aprendizaje auto-supervisado incorporando el etiquetado de datos mediante la segmentación de datos en subconjuntos. Nuestro marco agrega ruido dividiendo subconjuntos de datos y puede lograr el mismo nivel de aprendizaje centralizado en un entorno distribuido. Además, realizamos experimentos en varios conjuntos de datos tabulares públicos para evaluar nuestro enfoque. Los resultados experimentales muestran la efectividad y generalizabilidad de nuestro método propuesto en escenarios que involucran datos no etiquetados y entornos distribuidos.