logo móvil
Contáctanos

DFPoLD: Una Predicción de Fallo de Disco Duro en Conjuntos de Datos de Baja Calidad

Autores: Wei, Shuting; Lu, Xiaoyu; Yang, Hongzhang; Tu, Chenfeng; Guo, Jiangpu; Sun, Hailong; Feng, Yu

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

DFPoLD: Una Predicción de Fallo de Disco Duro en Conjuntos de Datos de Baja Calidad


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Predicción de fallos en discos duros
Conjuntos de datos de baja calidad
Pérdida de datos SMART
Modelos basados en aprendizaje automático
Características de series temporales
Fórmula de selección de ventana de tiempo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La predicción de fallos en discos duros es un método importante de mantenimiento proactivo para sistemas de almacenamiento. En los últimos años, se ha avanzado significativamente en la predicción de fallos en discos duros utilizando conjuntos de datos SMART de alta calidad. Sin embargo, en aplicaciones industriales, a menudo se produce pérdida de datos durante la recolección, transmisión y almacenamiento de datos SMART. Los modelos de predicción de fallos en discos duros basados en aprendizaje automático existentes tienen un rendimiento deficiente en conjuntos de datos de baja calidad. Por lo tanto, este documento propone una técnica de predicción de fallos en discos duros basada en conjuntos de datos de baja calidad. En primer lugar, basándonos en el conjunto de datos original de Backblaze, construimos un conjunto de datos de baja calidad, Backblaze-, simulando daños en sectores en escenarios reales y eliminando entre el 10% y el 99% de los datos. Se introdujeron características de series temporales como la Suma Absoluta de la Primera Diferencia (ASFD) para amplificar las diferencias entre muestras positivas y negativas y reducir la sensibilidad del modelo a la pérdida de datos SMART. Considerando el impacto de diferentes calidades de conjuntos de datos en la selección de ventanas de tiempo, proponemos una fórmula de selección de ventanas de tiempo que elige diferentes ventanas de tiempo según la proporción de pérdida de datos. Se encontró que cuanto peor es la calidad del conjunto de datos, más larga debe ser la selección de la ventana de tiempo. El modelo propuesto logra una Tasa de Verdaderos Positivos (TPR) del 99.46%, un AUC de 0.9971 y un puntaje F1 de 0.9871, con una Tasa de Falsos Positivos (FPR) por debajo del 0.04%, incluso con una pérdida de datos del 80%, manteniendo un rendimiento cercano al del conjunto de datos original.

Otros recursos que podrían interesarte

Temas Virtualpro