Segmentación de rocas en la visión de navegación de los rovers planetarios
Autores: Kuang, Boyu; Wisniewski, Mariusz; Rana, Zeeshan A.; Zhao, Yifan
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Segmentación de rocas en la visión de navegación de los rovers planetarios
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Visual
Navegación
Segmentación de rocas
Autonomía
Rover
Marco
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
La navegación visual es una parte esencial de la autonomía del rover planetario. La segmentación de rocas ha surgido como un tema interdisciplinario importante entre el procesamiento de imágenes, la robótica y la modelización matemática. La segmentación de rocas es un tema desafiante para la autonomía del rover debido al alto consumo computacional, la necesidad de tiempo real y la dificultad de anotación. Esta investigación propone un marco de segmentación de rocas y una red de segmentación de rocas (NI-U-Net++) para ayudar con la navegación visual de los rovers. El marco consta de dos etapas: el proceso de pre-entrenamiento y el proceso de transferencia de entrenamiento. El proceso de pre-entrenamiento aplica el algoritmo sintético para generar imágenes sintéticas; luego, utiliza las imágenes generadas para pre-entrenar NI-U-Net++. El algoritmo sintético aumenta el tamaño del conjunto de datos de imágenes y proporciona máscaras a nivel de píxeles, ambos son desafíos en tareas de aprendizaje automático. El proceso de pre-entrenamiento logra el estado del arte en comparación con los estudios relacionados, que alcanzaron una precisión, intersección sobre unión (IoU), puntuación de DICE y error cuadrático medio (RMSE) del 99,41%, 0,8991, 0,9459 y 0,0775, respectivamente. El proceso de transferencia de entrenamiento ajusta finamente el NI-U-Net++ pre-entrenado utilizando imágenes de la vida real, que lograron una precisión, IoU, puntuación de DICE y RMSE del 99,58%, 0,7476, 0,8556 y 0,0557, respectivamente. Finalmente, el NI-U-Net++ transferido se integra en una visión de navegación de rover planetario y logra un rendimiento en tiempo real de 32,57 fotogramas por segundo (o el tiempo de inferencia es de 0,0307 s por fotograma). El marco solo anota manualmente alrededor del 8% (183 imágenes) de las 2250 imágenes en la visión de navegación, lo cual es una solución que ahorra trabajo en tareas de segmentación de rocas. El marco propuesto de segmentación de rocas y NI-U-Net++ mejoran el rendimiento de los modelos de vanguardia. El algoritmo sintético mejora el proceso de creación de datos válidos para el desafío de la segmentación de rocas. Todos los códigos fuente, conjuntos de datos y modelos entrenados de esta investigación están disponibles abiertamente en Cranfield Online Research Data (CORD).
Descripción
La navegación visual es una parte esencial de la autonomía del rover planetario. La segmentación de rocas ha surgido como un tema interdisciplinario importante entre el procesamiento de imágenes, la robótica y la modelización matemática. La segmentación de rocas es un tema desafiante para la autonomía del rover debido al alto consumo computacional, la necesidad de tiempo real y la dificultad de anotación. Esta investigación propone un marco de segmentación de rocas y una red de segmentación de rocas (NI-U-Net++) para ayudar con la navegación visual de los rovers. El marco consta de dos etapas: el proceso de pre-entrenamiento y el proceso de transferencia de entrenamiento. El proceso de pre-entrenamiento aplica el algoritmo sintético para generar imágenes sintéticas; luego, utiliza las imágenes generadas para pre-entrenar NI-U-Net++. El algoritmo sintético aumenta el tamaño del conjunto de datos de imágenes y proporciona máscaras a nivel de píxeles, ambos son desafíos en tareas de aprendizaje automático. El proceso de pre-entrenamiento logra el estado del arte en comparación con los estudios relacionados, que alcanzaron una precisión, intersección sobre unión (IoU), puntuación de DICE y error cuadrático medio (RMSE) del 99,41%, 0,8991, 0,9459 y 0,0775, respectivamente. El proceso de transferencia de entrenamiento ajusta finamente el NI-U-Net++ pre-entrenado utilizando imágenes de la vida real, que lograron una precisión, IoU, puntuación de DICE y RMSE del 99,58%, 0,7476, 0,8556 y 0,0557, respectivamente. Finalmente, el NI-U-Net++ transferido se integra en una visión de navegación de rover planetario y logra un rendimiento en tiempo real de 32,57 fotogramas por segundo (o el tiempo de inferencia es de 0,0307 s por fotograma). El marco solo anota manualmente alrededor del 8% (183 imágenes) de las 2250 imágenes en la visión de navegación, lo cual es una solución que ahorra trabajo en tareas de segmentación de rocas. El marco propuesto de segmentación de rocas y NI-U-Net++ mejoran el rendimiento de los modelos de vanguardia. El algoritmo sintético mejora el proceso de creación de datos válidos para el desafío de la segmentación de rocas. Todos los códigos fuente, conjuntos de datos y modelos entrenados de esta investigación están disponibles abiertamente en Cranfield Online Research Data (CORD).