logo móvil
Contáctanos

Detección de objetos de activos viales utilizando YOLOX basado en transformadores con decodificador de pirámide de características en panoramas de carreteras tailandesas

Autores: Panboonyuen, Teerapong; Thongbai, Sittinun; Wongweeranimit, Weerachai; Santitamnont, Phisan; Suphan, Kittiwan; Charoenphon, Chaiyut

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Detección de objetos de activos viales utilizando YOLOX basado en transformadores con decodificador de pirámide de características en panoramas de carreteras tailandesas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Transformadores
Detección de objetos
Procesamiento de lenguaje natural
Procesamiento de imágenes
Transformador de Visión
Red de Pirámide de Características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Debido a los diversos tamaños de cada objeto, como los hitos kilométricos, la detección sigue siendo un desafío y afecta directamente la precisión de estos conteos de objetos. Los transformadores han demostrado resultados impresionantes en varias tareas de procesamiento de lenguaje natural (NLP) y procesamiento de imágenes debido a las dependencias de modelado a largo alcance. Este documento tiene como objetivo proponer una serie de tú solo miras una vez (YOLO) con dos contribuciones: (i) Proponemos emplear un objetivo de preentrenamiento para obtener los tokens visuales originales basados en los parches de imagen en imágenes de activos viales. Al utilizar el Vision Transformer (ViT) preentrenado como columna vertebral, ajustamos inmediatamente los pesos del modelo en tareas posteriores al unir capas de tarea sobre el codificador preentrenado. (ii) Aplicamos diseños de decodificador de Red de Pirámide de Características (FPN) a nuestra red de aprendizaje profundo para aprender la importancia de diferentes características de entrada en lugar de simplemente sumar o concatenar, lo que puede causar desajuste de características y degradación del rendimiento. En conclusión, nuestro método propuesto (YOLOX basado en transformadores con FPN) aprende representaciones muy generales de objetos. Supera significativamente a otros detectores de última generación (SOTA), incluidos YOLOv5S, YOLOv5M y YOLOv5L. Lo mejoramos al 61.5% de AP en el corpus de la autopista de Tailandia, superando la mejor práctica actual (YOLOv5L) en un 2.56% de AP para el conjunto de datos de prueba.

Otros recursos que podrían interesarte

Temas Virtualpro