Aprendizaje Generativo para el Postprocesamiento de Predicciones de Segmentación Semántica: Una Red Generativa Antagónica Condicional Ligera Basada en Pix2pix para Mejorar la Extracción de Áreas de Superficie de Carreteras
Autores: Cira, Calimanut-Ionut; Manso-Callejo, Miguel-Ángel; Alcarria, Ramón; Fernández Pareja, Teresa; Bordel Sánchez, Borja; Serradilla, Francisco
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Aprendizaje Generativo para el Postprocesamiento de Predicciones de Segmentación Semántica: Una Red Generativa Antagónica Condicional Ligera Basada en Pix2pix para Mejorar la Extracción de Áreas de Superficie de Carreteras
Categoría
Ciencias Medioambientales
Subcategoría
Ciencias medioambientales generales
Palabras clave
Teledetección
Redes neuronales profundas
Segmentación semántica
Aprendizaje generativo
Traducciones de imagen a imagen
Puntuación IoU
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los expertos en teledetección han estado utilizando activamente redes neuronales profundas para resolver tareas de extracción en imágenes aéreas de alta resolución mediante operaciones de segmentación semántica supervisada. Sin embargo, la operación de extracción es imperfecta, debido a la naturaleza compleja de los objetos geoespaciales, las limitaciones de la resolución de detección o las oclusiones presentes en las escenas. En este trabajo, abordamos el desafío del posprocesamiento de las predicciones de segmentación semántica de áreas de superficie de carreteras obtenidas con un modelo de segmentación de última generación y presentamos una técnica basada en el aprendizaje generativo y conceptos de traducciones de imagen a imagen para mejorar estas predicciones iniciales de segmentación. El modelo propuesto es una Red Generativa Antagónica condicional basada en Pix2pix, modificada en gran medida para la eficiencia computacional (reducción del 92.4% en el número de parámetros en la red generadora y del 61.3% en la red discriminadora). El modelo se entrena para aprender la distribución de la red de carreteras presente en la cartografía oficial, utilizando un nuevo conjunto de datos que contiene 6784 mosaicos de 256 x 256 píxeles, cubriendo áreas representativas de España. Posteriormente, realizamos una comparación métrica utilizando la puntuación de Intersección sobre Unión (IoU) (que mide la relación entre las áreas de superposición y unión) en un nuevo conjunto de prueba que contiene 1696 mosaicos (no vistos durante el entrenamiento) y observamos un aumento máximo del 11.6% en la puntuación IoU (de 0.6726 a 0.7515). Al final, realizamos una comparación cualitativa para evaluar visualmente la efectividad de la técnica y observamos grandes mejoras con respecto a las predicciones iniciales de segmentación semántica.
Descripción
Los expertos en teledetección han estado utilizando activamente redes neuronales profundas para resolver tareas de extracción en imágenes aéreas de alta resolución mediante operaciones de segmentación semántica supervisada. Sin embargo, la operación de extracción es imperfecta, debido a la naturaleza compleja de los objetos geoespaciales, las limitaciones de la resolución de detección o las oclusiones presentes en las escenas. En este trabajo, abordamos el desafío del posprocesamiento de las predicciones de segmentación semántica de áreas de superficie de carreteras obtenidas con un modelo de segmentación de última generación y presentamos una técnica basada en el aprendizaje generativo y conceptos de traducciones de imagen a imagen para mejorar estas predicciones iniciales de segmentación. El modelo propuesto es una Red Generativa Antagónica condicional basada en Pix2pix, modificada en gran medida para la eficiencia computacional (reducción del 92.4% en el número de parámetros en la red generadora y del 61.3% en la red discriminadora). El modelo se entrena para aprender la distribución de la red de carreteras presente en la cartografía oficial, utilizando un nuevo conjunto de datos que contiene 6784 mosaicos de 256 x 256 píxeles, cubriendo áreas representativas de España. Posteriormente, realizamos una comparación métrica utilizando la puntuación de Intersección sobre Unión (IoU) (que mide la relación entre las áreas de superposición y unión) en un nuevo conjunto de prueba que contiene 1696 mosaicos (no vistos durante el entrenamiento) y observamos un aumento máximo del 11.6% en la puntuación IoU (de 0.6726 a 0.7515). Al final, realizamos una comparación cualitativa para evaluar visualmente la efectividad de la técnica y observamos grandes mejoras con respecto a las predicciones iniciales de segmentación semántica.