Hacia la detección de intrusiones casi en tiempo real para dispositivos IoT utilizando aprendizaje supervisado y Apache Spark
Autores: Morfino, Valerio; Rampone, Salvatore
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Hacia la detección de intrusiones casi en tiempo real para dispositivos IoT utilizando aprendizaje supervisado y Apache Spark
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Campos
Internet de las cosas
Ataques
Algoritmos de aprendizaje automático
Ciberataques
Apache spark
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
En el campo de las infraestructuras de Internet de las cosas (IoT), la detección de ataques y anomalías son preocupaciones crecientes. Con el aumento del uso de infraestructuras de IoT en todos los ámbitos, las amenazas y ataques en estas infraestructuras también están creciendo proporcionalmente. En este documento se comparan las actuaciones de varios algoritmos de aprendizaje automático en la identificación de ciberataques (específicamente ataques SYN-DOS) a sistemas IoT tanto en términos de rendimiento de la aplicación, como en tiempos de entrenamiento/aplicación. Utilizamos algoritmos de aprendizaje automático supervisado incluidos en la biblioteca MLlib de Apache Spark, un motor rápido y general para el procesamiento de grandes volúmenes de datos. Mostramos los detalles de implementación y el rendimiento de esos algoritmos en conjuntos de datos públicos utilizando un conjunto de entrenamiento de hasta 2 millones de instancias. Adoptamos un entorno en la nube, enfatizando la importancia de la escalabilidad y la elasticidad de uso. Los resultados muestran que todos los algoritmos de Spark utilizados resultan en una muy buena precisión de identificación (>99%). En general, uno de ellos, Random Forest, logra una precisión de 1. También informamos de un tiempo de entrenamiento muy corto (23.22 segundos para Decision Tree con 2 millones de filas). Los experimentos también muestran un tiempo de aplicación muy bajo (0.13 segundos para más de 600,000 instancias para Random Forest) utilizando Apache Spark en la nube. Además, el modelo explícito generado por Random Forest es muy fácil de implementar utilizando lenguajes de programación de alto o bajo nivel. A la luz de los resultados obtenidos, tanto en términos de tiempos de computación como de rendimiento de identificación, se propone un enfoque híbrido para la detección de ciberataques SYN-DOS en dispositivos IoT: la aplicación de un modelo explícito de Random Forest, implementado directamente en el dispositivo IoT, junto con un análisis de segundo nivel (entrenamiento) realizado en la nube.
Descripción
En el campo de las infraestructuras de Internet de las cosas (IoT), la detección de ataques y anomalías son preocupaciones crecientes. Con el aumento del uso de infraestructuras de IoT en todos los ámbitos, las amenazas y ataques en estas infraestructuras también están creciendo proporcionalmente. En este documento se comparan las actuaciones de varios algoritmos de aprendizaje automático en la identificación de ciberataques (específicamente ataques SYN-DOS) a sistemas IoT tanto en términos de rendimiento de la aplicación, como en tiempos de entrenamiento/aplicación. Utilizamos algoritmos de aprendizaje automático supervisado incluidos en la biblioteca MLlib de Apache Spark, un motor rápido y general para el procesamiento de grandes volúmenes de datos. Mostramos los detalles de implementación y el rendimiento de esos algoritmos en conjuntos de datos públicos utilizando un conjunto de entrenamiento de hasta 2 millones de instancias. Adoptamos un entorno en la nube, enfatizando la importancia de la escalabilidad y la elasticidad de uso. Los resultados muestran que todos los algoritmos de Spark utilizados resultan en una muy buena precisión de identificación (>99%). En general, uno de ellos, Random Forest, logra una precisión de 1. También informamos de un tiempo de entrenamiento muy corto (23.22 segundos para Decision Tree con 2 millones de filas). Los experimentos también muestran un tiempo de aplicación muy bajo (0.13 segundos para más de 600,000 instancias para Random Forest) utilizando Apache Spark en la nube. Además, el modelo explícito generado por Random Forest es muy fácil de implementar utilizando lenguajes de programación de alto o bajo nivel. A la luz de los resultados obtenidos, tanto en términos de tiempos de computación como de rendimiento de identificación, se propone un enfoque híbrido para la detección de ciberataques SYN-DOS en dispositivos IoT: la aplicación de un modelo explícito de Random Forest, implementado directamente en el dispositivo IoT, junto con un análisis de segundo nivel (entrenamiento) realizado en la nube.