Automatización de la extracción de características de modelos de entidad-relación: evaluación experimental de métodos de aprendizaje automático para el aprendizaje relacional
Autores: Stanoev, Boris; Mitrov, Goran; Kulakov, Andrea; Mirceva, Georgina; Lameski, Petre; Zdravevski, Eftim
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Automatización de la extracción de características de modelos de entidad-relación: evaluación experimental de métodos de aprendizaje automático para el aprendizaje relacional
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Crecimiento exponencial
Ideas prácticas
Bases de datos relacionales
Aprendizaje automático
Algoritmo de proposicionalización
Minería de datos multi-relacional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
Con el crecimiento exponencial de los datos, extraer información accionable se vuelve intensivo en recursos. En muchas organizaciones, las bases de datos relacionales normalizadas almacenan una parte significativa de estos datos, donde las tablas están interconectadas a través de algunas relaciones. Este documento explora el aprendizaje relacional, que implica unir y fusionar tablas de bases de datos, a menudo normalizadas en tercera forma normal. El procesamiento posterior incluye la extracción de características y su utilización en modelos de aprendizaje automático (ML). En este documento, experimentamos con el algoritmo de proposicionalización (es decir, Wordification) para la ingeniería de características. A continuación, comparamos los algoritmos PropDRM y PropStar, que están diseñados específicamente para la minería de datos multi-relacionales, con algoritmos tradicionales de aprendizaje automático. Basándonos en los experimentos realizados, concluimos que Gradient Boost, en comparación con PropDRM, logra un rendimiento similar (puntuación F1, precisión y AUC) en múltiples conjuntos de datos. PropStar consistentemente tuvo un rendimiento inferior en algunos conjuntos de datos, mientras que fue comparable a los otros algoritmos en otros. En resumen, el algoritmo de proposicionalización para la extracción de características hace posible aplicar algoritmos tradicionales de ML para el aprendizaje relacional directamente. En contraste, los enfoques diseñados específicamente para el aprendizaje relacional todavía enfrentan desafíos en escalabilidad, interpretabilidad y eficiencia. Estos hallazgos tienen un impacto práctico que puede ayudar a acelerar la adopción del aprendizaje automático en contextos empresariales donde los datos se almacenan en formato relacional sin necesidad de extracción de características específicas del dominio.
Descripción
Con el crecimiento exponencial de los datos, extraer información accionable se vuelve intensivo en recursos. En muchas organizaciones, las bases de datos relacionales normalizadas almacenan una parte significativa de estos datos, donde las tablas están interconectadas a través de algunas relaciones. Este documento explora el aprendizaje relacional, que implica unir y fusionar tablas de bases de datos, a menudo normalizadas en tercera forma normal. El procesamiento posterior incluye la extracción de características y su utilización en modelos de aprendizaje automático (ML). En este documento, experimentamos con el algoritmo de proposicionalización (es decir, Wordification) para la ingeniería de características. A continuación, comparamos los algoritmos PropDRM y PropStar, que están diseñados específicamente para la minería de datos multi-relacionales, con algoritmos tradicionales de aprendizaje automático. Basándonos en los experimentos realizados, concluimos que Gradient Boost, en comparación con PropDRM, logra un rendimiento similar (puntuación F1, precisión y AUC) en múltiples conjuntos de datos. PropStar consistentemente tuvo un rendimiento inferior en algunos conjuntos de datos, mientras que fue comparable a los otros algoritmos en otros. En resumen, el algoritmo de proposicionalización para la extracción de características hace posible aplicar algoritmos tradicionales de ML para el aprendizaje relacional directamente. En contraste, los enfoques diseñados específicamente para el aprendizaje relacional todavía enfrentan desafíos en escalabilidad, interpretabilidad y eficiencia. Estos hallazgos tienen un impacto práctico que puede ayudar a acelerar la adopción del aprendizaje automático en contextos empresariales donde los datos se almacenan en formato relacional sin necesidad de extracción de características específicas del dominio.