AutoML con Optimización Bayesiana para la Gestión de Grandes Datos
Autores: Karras, Aristeidis; Karras, Christos; Schizas, Nikolaos; Avlonitis, Markos; Sioutas, Spyros
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
AutoML con Optimización Bayesiana para la Gestión de Grandes Datos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje automático automatizado
Gestión de grandes datos
Optimización de hiperparámetros
Aceleración del entrenamiento
Técnicas de optimización estocástica
Computación paralela
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El campo del aprendizaje automático automatizado (AutoML) ha ganado una atención significativa en los últimos años debido a su capacidad para automatizar el proceso de construcción y optimización de modelos de aprendizaje automático. Sin embargo, la creciente cantidad de grandes datos que se generan ha presentado nuevos desafíos para los sistemas de AutoML en términos de gestión de grandes datos. En este documento, introducimos Fabolas y la extrapolación de curvas de aprendizaje como dos métodos para acelerar la optimización de hiperparámetros. Se presentaron cuatro métodos para acelerar el entrenamiento, incluyendo Bag of Little Bootstraps, agrupamiento k-means para Máquinas de Vectores de Soporte, selección del tamaño de la submuestra para el descenso de gradiente y submuestreo para la regresión logística. Además, también discutimos el uso de métodos de Cadenas de Markov Monte Carlo (MCMC) y otras técnicas de optimización estocástica para mejorar la eficiencia de los sistemas de AutoML en la gestión de grandes datos. Estos métodos mejoran varios aspectos del proceso de entrenamiento, lo que hace posible combinarlos de diversas maneras para obtener mayores aceleraciones. Revisamos varias combinaciones que tienen potencial y proporcionamos una comprensión integral del estado actual de AutoML y su potencial para gestionar grandes datos en diversas industrias. Además, también mencionamos la importancia de la computación paralela y los sistemas distribuidos para mejorar la escalabilidad de los sistemas de AutoML al trabajar con grandes datos.
Descripción
El campo del aprendizaje automático automatizado (AutoML) ha ganado una atención significativa en los últimos años debido a su capacidad para automatizar el proceso de construcción y optimización de modelos de aprendizaje automático. Sin embargo, la creciente cantidad de grandes datos que se generan ha presentado nuevos desafíos para los sistemas de AutoML en términos de gestión de grandes datos. En este documento, introducimos Fabolas y la extrapolación de curvas de aprendizaje como dos métodos para acelerar la optimización de hiperparámetros. Se presentaron cuatro métodos para acelerar el entrenamiento, incluyendo Bag of Little Bootstraps, agrupamiento k-means para Máquinas de Vectores de Soporte, selección del tamaño de la submuestra para el descenso de gradiente y submuestreo para la regresión logística. Además, también discutimos el uso de métodos de Cadenas de Markov Monte Carlo (MCMC) y otras técnicas de optimización estocástica para mejorar la eficiencia de los sistemas de AutoML en la gestión de grandes datos. Estos métodos mejoran varios aspectos del proceso de entrenamiento, lo que hace posible combinarlos de diversas maneras para obtener mayores aceleraciones. Revisamos varias combinaciones que tienen potencial y proporcionamos una comprensión integral del estado actual de AutoML y su potencial para gestionar grandes datos en diversas industrias. Además, también mencionamos la importancia de la computación paralela y los sistemas distribuidos para mejorar la escalabilidad de los sistemas de AutoML al trabajar con grandes datos.