DFPoLD: Una Predicción de Fallo de Disco Duro en Conjuntos de Datos de Baja Calidad

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

DFPoLD: Una Predicción de Fallo de Disco Duro en Conjuntos de Datos de Baja Calidad

Autores: Wei, Shuting; Lu, Xiaoyu; Yang, Hongzhang; Tu, Chenfeng; Guo, Jiangpu; Sun, Hailong; Feng, Yu

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

DFPoLD: Una Predicción de Fallo de Disco Duro en Conjuntos de Datos de Baja Calidad

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Predicción de fallos en discos duros

Conjuntos de datos de baja calidad

Pérdida de datos SMART

Modelos basados en aprendizaje automático

Características de series temporales

Fórmula de selección de ventana de tiempo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La predicción de fallos en discos duros es un método importante de mantenimiento proactivo para sistemas de almacenamiento. En los últimos años, se ha avanzado significativamente en la predicción de fallos en discos duros utilizando conjuntos de datos SMART de alta calidad. Sin embargo, en aplicaciones industriales, a menudo se produce pérdida de datos durante la recolección, transmisión y almacenamiento de datos SMART. Los modelos de predicción de fallos en discos duros basados en aprendizaje automático existentes tienen un rendimiento deficiente en conjuntos de datos de baja calidad. Por lo tanto, este documento propone una técnica de predicción de fallos en discos duros basada en conjuntos de datos de baja calidad. En primer lugar, basándonos en el conjunto de datos original de Backblaze, construimos un conjunto de datos de baja calidad, Backblaze-, simulando daños en sectores en escenarios reales y eliminando entre el 10% y el 99% de los datos. Se introdujeron características de series temporales como la Suma Absoluta de la Primera Diferencia (ASFD) para amplificar las diferencias entre muestras positivas y negativas y reducir la sensibilidad del modelo a la pérdida de datos SMART. Considerando el impacto de diferentes calidades de conjuntos de datos en la selección de ventanas de tiempo, proponemos una fórmula de selección de ventanas de tiempo que elige diferentes ventanas de tiempo según la proporción de pérdida de datos. Se encontró que cuanto peor es la calidad del conjunto de datos, más larga debe ser la selección de la ventana de tiempo. El modelo propuesto logra una Tasa de Verdaderos Positivos (TPR) del 99.46%, un AUC de 0.9971 y un puntaje F1 de 0.9871, con una Tasa de Falsos Positivos (FPR) por debajo del 0.04%, incluso con una pérdida de datos del 80%, manteniendo un rendimiento cercano al del conjunto de datos original.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro