logo móvil
Contáctanos

Optimizando Apache Spark MLlib: rendimiento predictivo de modelos a gran escala para análisis de big data

Autores: Theodorakopoulos, Leonidas; Karras, Aristeidis; Krimpas, George A.

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Optimizando Apache Spark MLlib: rendimiento predictivo de modelos a gran escala para análisis de big data


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Operadores de aprendizaje automático
Apache Spark MLlib
Modelos predictivos
Ajuste de hiperparámetros
Asignación de recursos
Aplicaciones de big data

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 42

Citaciones: Sin citaciones


Descripción
En este estudio, analizamos el rendimiento de los operadores de aprendizaje automático en Apache Spark MLlib para K-Means, Regresión de Bosques Aleatorios y Word2Vec. Utilizamos un clúster Spark multinodo junto con métricas de ejecución detalladas recopiladas a partir de datos de diversos conjuntos de datos y configuraciones de parámetros. Los datos se utilizaron para entrenar modelos predictivos que tenían hasta un 98% de precisión en el rendimiento de pronóstico. Al construir modelos predictivos aplicables, nuestra investigación proporciona un tratamiento único para los desafíos clave de ajuste de hiperparámetros, escalabilidad y asignación de recursos en tiempo real. Específicamente, se demostró el valor práctico de los modelos tradicionales en la optimización de los flujos de trabajo de Apache Spark MLlib, logrando hasta un 30% de ahorro de recursos y una reducción del 25% en el tiempo de procesamiento. Estos modelos permiten la optimización del sistema, reducen la cantidad de gastos computacionales y mejoran el rendimiento general de las aplicaciones de big data. En última instancia, este trabajo no solo cierra brechas significativas en la modelización del rendimiento predictivo, sino que también allana el camino para el análisis en tiempo real en un entorno distribuido.

Otros recursos que podrían interesarte

Temas Virtualpro