Enfoque basado en el perfil de matriz para el análisis de datos de sensores industriales dentro de RDBMS
Autores: Zymbler, Mikhail; Ivanova, Elena
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Enfoque basado en el perfil de matriz para el análisis de datos de sensores industriales dentro de RDBMS
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Grandes datos de sensores
Sistema de gestión de bases de datos de series temporales
InfluxDB
OpenTSDB
TimescaleDB
Concepto de perfil de matriz
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 47
Citaciones: Sin citaciones
Actualmente, los grandes datos de sensores surgen en un amplio espectro de aplicaciones de Industria 4.0, Internet de las cosas y Ciudades Inteligentes. En dichos dominios temáticos, los sensores tienden a tener una alta frecuencia y producen series temporales masivas en un intervalo de tiempo relativamente corto. Los datos recopilados de los sensores están sujetos a minería para tomar decisiones estratégicas. En el artículo, consideramos el problema de elegir un Sistema de Gestión de Base de Datos de Series Temporales (TSDBMS) para proporcionar un almacenamiento eficiente y minería de grandes datos de sensores. Revisamos InfluxDB, OpenTSDB y TimescaleDB, que se encuentran entre los TSDBMS más populares y representan diferentes categorías de dichos sistemas, a saber, nativos, complementos de sistemas NoSQL y complementos de sistemas de bases de datos relacionales (RDBMS), respectivamente. Nuestra revisión muestra que, en la actualidad, los TSDBMS ofrecen un modesto conjunto de herramientas integradas para minar grandes datos de sensores. Esto lleva al uso de sistemas de minería de terceros y costos no deseados adicionales debido a la exportación de datos fuera de un TSDBMS, la conversión de datos, y así sucesivamente. Proponemos un enfoque para gestionar y minar datos de sensores dentro de RDBMS que explota el concepto de Perfil de Matriz. Un Perfil de Matriz es una estructura de datos que anota una serie temporal a través del índice y la distancia al vecino más cercano de cada subsecuencia de la serie temporal y sirve como base para descubrir motivos, anomalías y otras primitivas de minería de datos de series temporales. Este enfoque se implementa como una extensión de PostgreSQL que permite a un programador de aplicaciones tanto calcular perfiles de matriz y primitivas de minería como representarlos como tablas relacionales. Estudios de casos experimentales muestran que nuestro enfoque supera a los competidores mencionados anteriormente fuera de los TSDBMS en términos de rendimiento, ya que asume que los datos de sensores se minan dentro de un TSDBMS sin costos significativos adicionales.
Descripción
Actualmente, los grandes datos de sensores surgen en un amplio espectro de aplicaciones de Industria 4.0, Internet de las cosas y Ciudades Inteligentes. En dichos dominios temáticos, los sensores tienden a tener una alta frecuencia y producen series temporales masivas en un intervalo de tiempo relativamente corto. Los datos recopilados de los sensores están sujetos a minería para tomar decisiones estratégicas. En el artículo, consideramos el problema de elegir un Sistema de Gestión de Base de Datos de Series Temporales (TSDBMS) para proporcionar un almacenamiento eficiente y minería de grandes datos de sensores. Revisamos InfluxDB, OpenTSDB y TimescaleDB, que se encuentran entre los TSDBMS más populares y representan diferentes categorías de dichos sistemas, a saber, nativos, complementos de sistemas NoSQL y complementos de sistemas de bases de datos relacionales (RDBMS), respectivamente. Nuestra revisión muestra que, en la actualidad, los TSDBMS ofrecen un modesto conjunto de herramientas integradas para minar grandes datos de sensores. Esto lleva al uso de sistemas de minería de terceros y costos no deseados adicionales debido a la exportación de datos fuera de un TSDBMS, la conversión de datos, y así sucesivamente. Proponemos un enfoque para gestionar y minar datos de sensores dentro de RDBMS que explota el concepto de Perfil de Matriz. Un Perfil de Matriz es una estructura de datos que anota una serie temporal a través del índice y la distancia al vecino más cercano de cada subsecuencia de la serie temporal y sirve como base para descubrir motivos, anomalías y otras primitivas de minería de datos de series temporales. Este enfoque se implementa como una extensión de PostgreSQL que permite a un programador de aplicaciones tanto calcular perfiles de matriz y primitivas de minería como representarlos como tablas relacionales. Estudios de casos experimentales muestran que nuestro enfoque supera a los competidores mencionados anteriormente fuera de los TSDBMS en términos de rendimiento, ya que asume que los datos de sensores se minan dentro de un TSDBMS sin costos significativos adicionales.