Representación y clasificación de datos de series temporales mediante aproximación y agregación hexadecimal
Autores: He, Zhenwen; Zhang, Chunfeng; Ma, Xiaogang; Liu, Gang
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Representación y clasificación de datos de series temporales mediante aproximación y agregación hexadecimal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Series temporales
Datos
Métodos de representación
HAX
PAX
Clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Los datos de series temporales se encuentran ampliamente en finanzas, salud, medio ambiente, social, móvil y otros campos. Se ha producido una gran cantidad de datos de series temporales debido al uso generalizado de teléfonos inteligentes, varios sensores, RFID y otros dispositivos de Internet. Cómo se representa una serie temporal es clave para el almacenamiento y gestión eficientes y efectivos de los datos de series temporales, así como muy importante para la clasificación de series temporales. Dos nuevos métodos de representación de series temporales, Aproximación Agregada Hexadecimal (HAX) y Aproximación Agregada de Puntos (PAX), se proponen en este documento. Los dos métodos representan cada segmento de una serie temporal como un objeto de intervalo transformable (TIO). Luego, cada TIO se asigna a un punto espacial ubicado en un plano bidimensional. Finalmente, el HAX asigna cada punto a un dígito hexadecimal de modo que una serie temporal se convierte en una cadena hexadecimal. Los resultados experimentales muestran que HAX tiene una precisión de clasificación más alta que la Aproximación Agregada Simbólica (SAX) pero una más baja que algunas variantes de SAX (SAX-TD, SAX-BD). El HAX tiene el mismo costo de espacio que SAX pero es menor que estas variantes. El PAX tiene una precisión de clasificación más alta que HAX y está extremadamente cerca de la distancia euclidiana (ED); sin embargo, el costo de espacio de PAX es generalmente mucho menor que el costo de espacio de ED. HAX y PAX son métodos de representación generales que también pueden admitir el agrupamiento, indexación y consulta de series temporales geocientíficas, excepto la clasificación.
Descripción
Los datos de series temporales se encuentran ampliamente en finanzas, salud, medio ambiente, social, móvil y otros campos. Se ha producido una gran cantidad de datos de series temporales debido al uso generalizado de teléfonos inteligentes, varios sensores, RFID y otros dispositivos de Internet. Cómo se representa una serie temporal es clave para el almacenamiento y gestión eficientes y efectivos de los datos de series temporales, así como muy importante para la clasificación de series temporales. Dos nuevos métodos de representación de series temporales, Aproximación Agregada Hexadecimal (HAX) y Aproximación Agregada de Puntos (PAX), se proponen en este documento. Los dos métodos representan cada segmento de una serie temporal como un objeto de intervalo transformable (TIO). Luego, cada TIO se asigna a un punto espacial ubicado en un plano bidimensional. Finalmente, el HAX asigna cada punto a un dígito hexadecimal de modo que una serie temporal se convierte en una cadena hexadecimal. Los resultados experimentales muestran que HAX tiene una precisión de clasificación más alta que la Aproximación Agregada Simbólica (SAX) pero una más baja que algunas variantes de SAX (SAX-TD, SAX-BD). El HAX tiene el mismo costo de espacio que SAX pero es menor que estas variantes. El PAX tiene una precisión de clasificación más alta que HAX y está extremadamente cerca de la distancia euclidiana (ED); sin embargo, el costo de espacio de PAX es generalmente mucho menor que el costo de espacio de ED. HAX y PAX son métodos de representación generales que también pueden admitir el agrupamiento, indexación y consulta de series temporales geocientíficas, excepto la clasificación.