logo móvil
Contáctanos

E-hrnet: segmentación semántica mejorada utilizando squeeze and excitation

Autores: Kim, Jin-Seong; Park, Sung-Wook; Kim, Jun-Yeong; Park, Jun; Huh, Jun-Ho; Jung, Se-Hoon; Sim, Chun-Bo

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

E-hrnet: segmentación semántica mejorada utilizando squeeze and excitation


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Redes neuronales convolucionales
Segmentación semántica
Redes de alta resolución
Módulo de atención
Bloque de squeeze-and-excitation
Intersección media por unión sobre clases

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones


Descripción
En el campo de la visión por computadora, los modelos basados en redes neuronales convolucionales (CNN) han demostrado una alta precisión y un buen rendimiento de generalización. Sin embargo, en la segmentación semántica, los modelos basados en CNN tienen un problema: se pierde información de contexto espacial y global debido a una disminución en la resolución durante la extracción de características. Las redes de alta resolución (HRNets) pueden resolver este problema manteniendo capas de procesamiento de alta resolución de forma paralela. Sin embargo, todavía se produce una pérdida de información. Por lo tanto, en este estudio, proponemos un HRNet combinado con un módulo de atención para abordar el problema de la pérdida de información. El módulo de atención se coloca estratégicamente inmediatamente después de cada convolución para aliviar la pérdida de información al enfatizar la información retenida en cada etapa. Para lograr esto, empleamos un bloque de squeeze-and-excitation (SE) como módulo de atención, que puede integrarse fácilmente en cualquier modelo y mejorar el rendimiento sin imponer aumentos significativos de parámetros. Se enfatiza la información de contexto espacial y global comprimiendo y recalibrando características a través de un promedio global de agrupación (GAP). Una comparación de rendimiento entre el modelo HRNet existente y el modelo propuesto utilizando varios conjuntos de datos muestra que la intersección sobre unión promedio por clase (mIoU) y la precisión media de píxeles (MeanACC) mejoraron con el modelo propuesto, sin embargo, hubo un pequeño aumento en el número de parámetros. Con el conjunto de datos de cityscapes, MeanACC disminuyó un 0.1% con el modelo propuesto en comparación con el modelo base, pero mIoU aumentó un 0.5%. Con el conjunto de datos de LIP, MeanACC y mIoU aumentaron un 0.3% y 0.4%, respectivamente. El mIoU también disminuyó un 0.1% con el conjunto de datos de PASCAL Context, mientras que MeanACC aumentó un 0.7%. En general, el modelo propuesto mostró un rendimiento mejorado en comparación con el modelo existente.

Otros recursos que podrían interesarte

Temas Virtualpro