Enfoques basados en aprendizaje profundo para la segmentación semántica de imágenes de escenas naturales: una revisión
Autores: Emek Soylu, Busra; Guzel, Mehmet Serdar; Bostanci, Gazi Erkan; Ekinci, Fatih; Asuroglu, Tunc; Acici, Koray
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Enfoques basados en aprendizaje profundo para la segmentación semántica de imágenes de escenas naturales: una revisión
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Segmentación semántica
Visión por computadora
Redes Neuronales Convolucionales
Aprendizaje profundo
Conjuntos de datos
Evaluación de rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
La tarea de segmentación semántica ocupa una posición fundamental en el campo de la visión por computadora. Asignar una etiqueta semántica a cada píxel en una imagen es una tarea desafiante. En tiempos recientes, se han logrado avances significativos en el campo de la segmentación semántica a través de la aplicación de técnicas de Redes Neuronales Convolucionales (CNN) basadas en aprendizaje profundo. Este artículo presenta un análisis exhaustivo y estructurado de aproximadamente 150 métodos de segmentación semántica basados en CNN en la última década. Además, examina 15 conjuntos de datos bien conocidos en el campo de la segmentación semántica. Estos conjuntos de datos consisten en imágenes 2D y 3D y fotogramas de video, incluyendo escenas generales, interiores, exteriores y de calles. Además, este artículo menciona varias técnicas recientes, como SAM, UDA, y algoritmos comunes de post-procesamiento, como CRF y MRF. Además, este artículo analiza la evaluación del rendimiento de los métodos revisados de última generación, métodos pioneros, redes de base comunes y conjuntos de datos populares. Estos han sido comparados según los resultados de la Intersección Media sobre Unión (MIoU), la métrica de evaluación más popular de la segmentación semántica. Finalmente, se discuten los principales desafíos y posibles soluciones y se subrayan algunas direcciones de investigación futuras en la tarea de segmentación semántica. Esperamos que nuestro artículo de revisión sea útil para proporcionar un conocimiento previo a los lectores que trabajarán en este campo.
Descripción
La tarea de segmentación semántica ocupa una posición fundamental en el campo de la visión por computadora. Asignar una etiqueta semántica a cada píxel en una imagen es una tarea desafiante. En tiempos recientes, se han logrado avances significativos en el campo de la segmentación semántica a través de la aplicación de técnicas de Redes Neuronales Convolucionales (CNN) basadas en aprendizaje profundo. Este artículo presenta un análisis exhaustivo y estructurado de aproximadamente 150 métodos de segmentación semántica basados en CNN en la última década. Además, examina 15 conjuntos de datos bien conocidos en el campo de la segmentación semántica. Estos conjuntos de datos consisten en imágenes 2D y 3D y fotogramas de video, incluyendo escenas generales, interiores, exteriores y de calles. Además, este artículo menciona varias técnicas recientes, como SAM, UDA, y algoritmos comunes de post-procesamiento, como CRF y MRF. Además, este artículo analiza la evaluación del rendimiento de los métodos revisados de última generación, métodos pioneros, redes de base comunes y conjuntos de datos populares. Estos han sido comparados según los resultados de la Intersección Media sobre Unión (MIoU), la métrica de evaluación más popular de la segmentación semántica. Finalmente, se discuten los principales desafíos y posibles soluciones y se subrayan algunas direcciones de investigación futuras en la tarea de segmentación semántica. Esperamos que nuestro artículo de revisión sea útil para proporcionar un conocimiento previo a los lectores que trabajarán en este campo.