Hacia el aprendizaje completo en dispositivos pequeños: una búsqueda guiada para una red neuronal inicializada aleatoriamente
Autores: Pau, Danilo; Pisani, Andrea; Candelieri, Antonio
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Hacia el aprendizaje completo en dispositivos pequeños: una búsqueda guiada para una red neuronal inicializada aleatoriamente
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Esfuerzos de investigación
Aprendizaje en el dispositivo
Redes neuronales
Máquinas de aprendizaje extremo
Tareas de extracción de características
Búsqueda de arquitectura neuronal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
En el contexto de TinyML, se han dedicado muchos esfuerzos de investigación a diseñar topologías avanzadas para soportar el Aprendizaje en el Dispositivo. Alcanzar este objetivo traería numerosas ventajas, incluyendo reducciones en la latencia y complejidad computacional, mayor privacidad, seguridad de datos y robustez contra ataques adversarios, mayor resistencia contra el cambio de concepto, etc. Sin embargo, el Aprendizaje en el Dispositivo en dispositivos con recursos limitados plantea severas limitaciones en cuanto a potencia computacional y memoria. Por lo tanto, desplegar Redes Neuronales en dispositivos pequeños parece ser prohibitivo, ya que su entrenamiento basado en retropropagación es demasiado exigente en memoria para sus activos integrados. El uso de Máquinas de Aprendizaje Extremo basadas en Redes Neuronales Convolucionales podría ser factible y muy conveniente, especialmente para tareas de Extracción de Características. Sin embargo, requiere la búsqueda de una topología inicializada aleatoriamente que logre resultados tan buenos como los logrados por el modelo retropropagado. Este trabajo propone un enfoque novedoso para componer automáticamente un Extractor de Características Convolucionales Extremo, basado en Búsqueda de Arquitectura Neuronal y Optimización Bayesiana. Se aplicó a los conjuntos de datos CIFAR-10 y MNIST para su evaluación. Se han definido dos espacios de búsqueda, así como una estrategia de búsqueda que ha sido probada con dos modelos sustitutos, Proceso Gaussiano y Bosque Aleatorio. Se definió una estrategia de estimación del rendimiento, manteniendo el conjunto de características calculado por el modelo de referencia ResNet del banco de pruebas MLCommons-Tiny. En tan solo 1200 iteraciones de búsqueda, la estrategia propuesta logró alcanzar una topología cuyas características extraídas obtuvieron un error cuadrático medio igual a 0.64 en comparación con el conjunto de referencia. Se requieren más mejoras, con un objetivo de al menos una disminución de un orden de magnitud en el error cuadrático medio para una mayor precisión de clasificación. El código está disponible a través de GitHub para permitir la reproducibilidad de los resultados reportados en este documento.
Descripción
En el contexto de TinyML, se han dedicado muchos esfuerzos de investigación a diseñar topologías avanzadas para soportar el Aprendizaje en el Dispositivo. Alcanzar este objetivo traería numerosas ventajas, incluyendo reducciones en la latencia y complejidad computacional, mayor privacidad, seguridad de datos y robustez contra ataques adversarios, mayor resistencia contra el cambio de concepto, etc. Sin embargo, el Aprendizaje en el Dispositivo en dispositivos con recursos limitados plantea severas limitaciones en cuanto a potencia computacional y memoria. Por lo tanto, desplegar Redes Neuronales en dispositivos pequeños parece ser prohibitivo, ya que su entrenamiento basado en retropropagación es demasiado exigente en memoria para sus activos integrados. El uso de Máquinas de Aprendizaje Extremo basadas en Redes Neuronales Convolucionales podría ser factible y muy conveniente, especialmente para tareas de Extracción de Características. Sin embargo, requiere la búsqueda de una topología inicializada aleatoriamente que logre resultados tan buenos como los logrados por el modelo retropropagado. Este trabajo propone un enfoque novedoso para componer automáticamente un Extractor de Características Convolucionales Extremo, basado en Búsqueda de Arquitectura Neuronal y Optimización Bayesiana. Se aplicó a los conjuntos de datos CIFAR-10 y MNIST para su evaluación. Se han definido dos espacios de búsqueda, así como una estrategia de búsqueda que ha sido probada con dos modelos sustitutos, Proceso Gaussiano y Bosque Aleatorio. Se definió una estrategia de estimación del rendimiento, manteniendo el conjunto de características calculado por el modelo de referencia ResNet del banco de pruebas MLCommons-Tiny. En tan solo 1200 iteraciones de búsqueda, la estrategia propuesta logró alcanzar una topología cuyas características extraídas obtuvieron un error cuadrático medio igual a 0.64 en comparación con el conjunto de referencia. Se requieren más mejoras, con un objetivo de al menos una disminución de un orden de magnitud en el error cuadrático medio para una mayor precisión de clasificación. El código está disponible a través de GitHub para permitir la reproducibilidad de los resultados reportados en este documento.