DFPoLD: Una Predicción de Fallo de Disco Duro en Conjuntos de Datos de Baja Calidad
Autores: Wei, Shuting; Lu, Xiaoyu; Yang, Hongzhang; Tu, Chenfeng; Guo, Jiangpu; Sun, Hailong; Feng, Yu
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
DFPoLD: Una Predicción de Fallo de Disco Duro en Conjuntos de Datos de Baja Calidad
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Predicción de fallos en discos duros
Conjuntos de datos de baja calidad
Pérdida de datos SMART
Modelos basados en aprendizaje automático
Características de series temporales
Fórmula de selección de ventana de tiempo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La predicción de fallos en discos duros es un método importante de mantenimiento proactivo para sistemas de almacenamiento. En los últimos años, se ha avanzado significativamente en la predicción de fallos en discos duros utilizando conjuntos de datos SMART de alta calidad. Sin embargo, en aplicaciones industriales, a menudo se produce pérdida de datos durante la recolección, transmisión y almacenamiento de datos SMART. Los modelos de predicción de fallos en discos duros basados en aprendizaje automático existentes tienen un rendimiento deficiente en conjuntos de datos de baja calidad. Por lo tanto, este documento propone una técnica de predicción de fallos en discos duros basada en conjuntos de datos de baja calidad. En primer lugar, basándonos en el conjunto de datos original de Backblaze, construimos un conjunto de datos de baja calidad, Backblaze-, simulando daños en sectores en escenarios reales y eliminando entre el 10% y el 99% de los datos. Se introdujeron características de series temporales como la Suma Absoluta de la Primera Diferencia (ASFD) para amplificar las diferencias entre muestras positivas y negativas y reducir la sensibilidad del modelo a la pérdida de datos SMART. Considerando el impacto de diferentes calidades de conjuntos de datos en la selección de ventanas de tiempo, proponemos una fórmula de selección de ventanas de tiempo que elige diferentes ventanas de tiempo según la proporción de pérdida de datos. Se encontró que cuanto peor es la calidad del conjunto de datos, más larga debe ser la selección de la ventana de tiempo. El modelo propuesto logra una Tasa de Verdaderos Positivos (TPR) del 99.46%, un AUC de 0.9971 y un puntaje F1 de 0.9871, con una Tasa de Falsos Positivos (FPR) por debajo del 0.04%, incluso con una pérdida de datos del 80%, manteniendo un rendimiento cercano al del conjunto de datos original.
Descripción
La predicción de fallos en discos duros es un método importante de mantenimiento proactivo para sistemas de almacenamiento. En los últimos años, se ha avanzado significativamente en la predicción de fallos en discos duros utilizando conjuntos de datos SMART de alta calidad. Sin embargo, en aplicaciones industriales, a menudo se produce pérdida de datos durante la recolección, transmisión y almacenamiento de datos SMART. Los modelos de predicción de fallos en discos duros basados en aprendizaje automático existentes tienen un rendimiento deficiente en conjuntos de datos de baja calidad. Por lo tanto, este documento propone una técnica de predicción de fallos en discos duros basada en conjuntos de datos de baja calidad. En primer lugar, basándonos en el conjunto de datos original de Backblaze, construimos un conjunto de datos de baja calidad, Backblaze-, simulando daños en sectores en escenarios reales y eliminando entre el 10% y el 99% de los datos. Se introdujeron características de series temporales como la Suma Absoluta de la Primera Diferencia (ASFD) para amplificar las diferencias entre muestras positivas y negativas y reducir la sensibilidad del modelo a la pérdida de datos SMART. Considerando el impacto de diferentes calidades de conjuntos de datos en la selección de ventanas de tiempo, proponemos una fórmula de selección de ventanas de tiempo que elige diferentes ventanas de tiempo según la proporción de pérdida de datos. Se encontró que cuanto peor es la calidad del conjunto de datos, más larga debe ser la selección de la ventana de tiempo. El modelo propuesto logra una Tasa de Verdaderos Positivos (TPR) del 99.46%, un AUC de 0.9971 y un puntaje F1 de 0.9871, con una Tasa de Falsos Positivos (FPR) por debajo del 0.04%, incluso con una pérdida de datos del 80%, manteniendo un rendimiento cercano al del conjunto de datos original.