Detección de objetos de activos viales utilizando YOLOX basado en transformadores con decodificador de pirámide de características en panoramas de carreteras tailandesas
Autores: Panboonyuen, Teerapong; Thongbai, Sittinun; Wongweeranimit, Weerachai; Santitamnont, Phisan; Suphan, Kittiwan; Charoenphon, Chaiyut
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Detección de objetos de activos viales utilizando YOLOX basado en transformadores con decodificador de pirámide de características en panoramas de carreteras tailandesas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Transformadores
Detección de objetos
Procesamiento de lenguaje natural
Procesamiento de imágenes
Transformador de Visión
Red de Pirámide de Características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Debido a los diversos tamaños de cada objeto, como los hitos kilométricos, la detección sigue siendo un desafío y afecta directamente la precisión de estos conteos de objetos. Los transformadores han demostrado resultados impresionantes en varias tareas de procesamiento de lenguaje natural (NLP) y procesamiento de imágenes debido a las dependencias de modelado a largo alcance. Este documento tiene como objetivo proponer una serie de tú solo miras una vez (YOLO) con dos contribuciones: (i) Proponemos emplear un objetivo de preentrenamiento para obtener los tokens visuales originales basados en los parches de imagen en imágenes de activos viales. Al utilizar el Vision Transformer (ViT) preentrenado como columna vertebral, ajustamos inmediatamente los pesos del modelo en tareas posteriores al unir capas de tarea sobre el codificador preentrenado. (ii) Aplicamos diseños de decodificador de Red de Pirámide de Características (FPN) a nuestra red de aprendizaje profundo para aprender la importancia de diferentes características de entrada en lugar de simplemente sumar o concatenar, lo que puede causar desajuste de características y degradación del rendimiento. En conclusión, nuestro método propuesto (YOLOX basado en transformadores con FPN) aprende representaciones muy generales de objetos. Supera significativamente a otros detectores de última generación (SOTA), incluidos YOLOv5S, YOLOv5M y YOLOv5L. Lo mejoramos al 61.5% de AP en el corpus de la autopista de Tailandia, superando la mejor práctica actual (YOLOv5L) en un 2.56% de AP para el conjunto de datos de prueba.
Descripción
Debido a los diversos tamaños de cada objeto, como los hitos kilométricos, la detección sigue siendo un desafío y afecta directamente la precisión de estos conteos de objetos. Los transformadores han demostrado resultados impresionantes en varias tareas de procesamiento de lenguaje natural (NLP) y procesamiento de imágenes debido a las dependencias de modelado a largo alcance. Este documento tiene como objetivo proponer una serie de tú solo miras una vez (YOLO) con dos contribuciones: (i) Proponemos emplear un objetivo de preentrenamiento para obtener los tokens visuales originales basados en los parches de imagen en imágenes de activos viales. Al utilizar el Vision Transformer (ViT) preentrenado como columna vertebral, ajustamos inmediatamente los pesos del modelo en tareas posteriores al unir capas de tarea sobre el codificador preentrenado. (ii) Aplicamos diseños de decodificador de Red de Pirámide de Características (FPN) a nuestra red de aprendizaje profundo para aprender la importancia de diferentes características de entrada en lugar de simplemente sumar o concatenar, lo que puede causar desajuste de características y degradación del rendimiento. En conclusión, nuestro método propuesto (YOLOX basado en transformadores con FPN) aprende representaciones muy generales de objetos. Supera significativamente a otros detectores de última generación (SOTA), incluidos YOLOv5S, YOLOv5M y YOLOv5L. Lo mejoramos al 61.5% de AP en el corpus de la autopista de Tailandia, superando la mejor práctica actual (YOLOv5L) en un 2.56% de AP para el conjunto de datos de prueba.