Evaluaciones de rendimiento de sistemas de archivos distribuidos para grandes datos científicos en el entorno de FUSE
Autores: Lee, Jun-Yeong; Kim, Moon-Hyun; Raza Shah, Syed Asif; Ahn, Sang-Un; Yoon, Heejun; Noh, Seo-Young
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Evaluaciones de rendimiento de sistemas de archivos distribuidos para grandes datos científicos en el entorno de FUSE
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Datos
Sistemas de almacenamiento
RAID
Sistemas de archivos distribuidos
Entornos intensivos en datos
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Los datos son importantes y siempre están creciendo en entornos científicos intensivos en datos. El crecimiento de estos datos de investigación requiere sistemas de almacenamiento de datos que desempeñen un papel fundamental en la gestión y análisis de datos para descubrimientos científicos. El Conjunto Redundante de Discos Independientes (RAID), una tecnología de almacenamiento bien conocida que combina múltiples discos en un único volumen lógico grande, ha sido ampliamente utilizado con el propósito de redundancia de datos y mejora de rendimiento. Sin embargo, esto requiere hardware o software compatible con RAID para construir una matriz de discos habilitada para RAID. Además, es difícil escalar el almacenamiento basado en RAID. Para mitigar este problema, se han desarrollado muchos sistemas de archivos distribuidos que se utilizan activamente en varios entornos, especialmente en instalaciones informáticas intensivas en datos, donde se deben manejar grandes cantidades de datos. En este estudio, investigamos y comparamos varios sistemas de archivos distribuidos, como Ceph, GlusterFS, Lustre y EOS para entornos intensivos en datos. En nuestro experimento, configuramos los sistemas de archivos distribuidos bajo una estructura de Nodos Independientes en un Conjunto Confiable (RAIN) y un entorno de Sistema de Archivos en Espacio de Usuario (FUSE). Nuestros resultados identifican las características de cada sistema de archivos que afectan el rendimiento de lectura y escritura dependiendo de las características de los datos, que deben ser consideradas en entornos informáticos intensivos en datos.
Descripción
Los datos son importantes y siempre están creciendo en entornos científicos intensivos en datos. El crecimiento de estos datos de investigación requiere sistemas de almacenamiento de datos que desempeñen un papel fundamental en la gestión y análisis de datos para descubrimientos científicos. El Conjunto Redundante de Discos Independientes (RAID), una tecnología de almacenamiento bien conocida que combina múltiples discos en un único volumen lógico grande, ha sido ampliamente utilizado con el propósito de redundancia de datos y mejora de rendimiento. Sin embargo, esto requiere hardware o software compatible con RAID para construir una matriz de discos habilitada para RAID. Además, es difícil escalar el almacenamiento basado en RAID. Para mitigar este problema, se han desarrollado muchos sistemas de archivos distribuidos que se utilizan activamente en varios entornos, especialmente en instalaciones informáticas intensivas en datos, donde se deben manejar grandes cantidades de datos. En este estudio, investigamos y comparamos varios sistemas de archivos distribuidos, como Ceph, GlusterFS, Lustre y EOS para entornos intensivos en datos. En nuestro experimento, configuramos los sistemas de archivos distribuidos bajo una estructura de Nodos Independientes en un Conjunto Confiable (RAIN) y un entorno de Sistema de Archivos en Espacio de Usuario (FUSE). Nuestros resultados identifican las características de cada sistema de archivos que afectan el rendimiento de lectura y escritura dependiendo de las características de los datos, que deben ser consideradas en entornos informáticos intensivos en datos.