Generación de Datos Sintéticos Basada en Difusión Condicionada por Texto para el Análisis de Sensores de Motores de Turbina y Estimación de RUL
Autores: Mora-de-León, Luis Pablo; Solís-Martín, David; Galán-Páez, Juan; Borrego-Díaz, Joaquín
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Generación de Datos Sintéticos Basada en Difusión Condicionada por Texto para el Análisis de Sensores de Motores de Turbina y Estimación de RUL
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Marco
Datos sintéticos
Modelo de difusión
Series temporales
Motor
Condicionado por texto.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Este documento presenta un nuevo marco para generar datos sintéticos de series temporales a partir de lecturas de sensores de motores de turbina utilizando un modelo de difusión condicionado por texto. El enfoque comienza con el preprocesamiento del conjunto de datos, que incluye análisis de correlación, selección de características y normalización. El Análisis de Componentes Principales (PCA) transforma las señales normalizadas en tres componentes, mapeadas a los canales RGB de una imagen. Estos componentes, combinados con identificadores de motor e información del ciclo, forman imágenes compactas de 19 x 19 x 3 píxeles, que luego se escalan a 512 x 512 x 3 píxeles. Un modelo de difusión basado en un autoencoder variacional (VAE), ajustado a estas imágenes, aprovecha los mensajes de texto que describen las características del motor para generar muestras sintéticas de alta calidad. Un pipeline de transformación inversa reconstruye imágenes sintéticas de nuevo en señales de series temporales, preservando los atributos específicos del motor original mientras elimina artefactos de relleno. La calidad de los datos sintéticos se evalúa entrenando modelos de estimación de Vida Útil Restante (RUL) y comparando el rendimiento entre conjuntos de datos originales, sintéticos y combinados. Los resultados demuestran que los datos sintéticos pueden ser beneficiosos para el entrenamiento de modelos, particularmente en las primeras épocas cuando se trabaja con conjuntos de datos limitados. En comparación con enfoques existentes, que dependen de redes generativas adversariales (GAN) o transformaciones determinísticas, el marco propuesto ofrece una mayor fidelidad y adaptabilidad de los datos. Este estudio destaca el potencial de los modelos de difusión condicionados por texto para aumentar conjuntos de datos de series temporales en aplicaciones industriales de Prognósticos y Gestión de Salud (PHM).
Descripción
Este documento presenta un nuevo marco para generar datos sintéticos de series temporales a partir de lecturas de sensores de motores de turbina utilizando un modelo de difusión condicionado por texto. El enfoque comienza con el preprocesamiento del conjunto de datos, que incluye análisis de correlación, selección de características y normalización. El Análisis de Componentes Principales (PCA) transforma las señales normalizadas en tres componentes, mapeadas a los canales RGB de una imagen. Estos componentes, combinados con identificadores de motor e información del ciclo, forman imágenes compactas de 19 x 19 x 3 píxeles, que luego se escalan a 512 x 512 x 3 píxeles. Un modelo de difusión basado en un autoencoder variacional (VAE), ajustado a estas imágenes, aprovecha los mensajes de texto que describen las características del motor para generar muestras sintéticas de alta calidad. Un pipeline de transformación inversa reconstruye imágenes sintéticas de nuevo en señales de series temporales, preservando los atributos específicos del motor original mientras elimina artefactos de relleno. La calidad de los datos sintéticos se evalúa entrenando modelos de estimación de Vida Útil Restante (RUL) y comparando el rendimiento entre conjuntos de datos originales, sintéticos y combinados. Los resultados demuestran que los datos sintéticos pueden ser beneficiosos para el entrenamiento de modelos, particularmente en las primeras épocas cuando se trabaja con conjuntos de datos limitados. En comparación con enfoques existentes, que dependen de redes generativas adversariales (GAN) o transformaciones determinísticas, el marco propuesto ofrece una mayor fidelidad y adaptabilidad de los datos. Este estudio destaca el potencial de los modelos de difusión condicionados por texto para aumentar conjuntos de datos de series temporales en aplicaciones industriales de Prognósticos y Gestión de Salud (PHM).