Yolo MDE: detección de objetos con estimación de profundidad monocular
Autores: Yu, Jongsub; Choi, Hyukdoo
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Yolo MDE: detección de objetos con estimación de profundidad monocular
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detector de objetos
Estimación de profundidad
Imágenes de cámara monocular
Caja delimitadora 3D
YOLO v4
Conducción autónoma
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Este documento presenta un detector de objetos con estimación de profundidad utilizando imágenes de cámara monocular. Los estudios de detección previos suelen centrarse en detectar objetos con cuadros delimitadores 2D o 3D. Un cuadro delimitador 3D consta del punto central, sus parámetros de tamaño e información de orientación. Sin embargo, predecir composiciones de salida complejas lleva a que un modelo tenga un rendimiento generalmente bajo, y no es necesario para la evaluación de riesgos para la conducción autónoma. Nos centramos en predecir una sola profundidad por objeto, lo cual es esencial para la evaluación de riesgos en la conducción autónoma. Nuestra arquitectura de red se basa en YOLO v4, que es un detector de objetos de un solo paso rápido y preciso. Agregamos un canal adicional a la capa de salida para la estimación de profundidad. Para entrenar la predicción de profundidad, extraemos la profundidad más cercana de las coordenadas del cuadro delimitador 3D de las etiquetas de verdad en el conjunto de datos. Nuestro modelo se compara con los últimos estudios sobre detección de objetos 3D utilizando el banco de pruebas de detección de objetos KITTI. Como resultado, mostramos que nuestro modelo logra un rendimiento de detección y velocidad de detección más altos que los modelos existentes con una precisión de profundidad comparable.
Descripción
Este documento presenta un detector de objetos con estimación de profundidad utilizando imágenes de cámara monocular. Los estudios de detección previos suelen centrarse en detectar objetos con cuadros delimitadores 2D o 3D. Un cuadro delimitador 3D consta del punto central, sus parámetros de tamaño e información de orientación. Sin embargo, predecir composiciones de salida complejas lleva a que un modelo tenga un rendimiento generalmente bajo, y no es necesario para la evaluación de riesgos para la conducción autónoma. Nos centramos en predecir una sola profundidad por objeto, lo cual es esencial para la evaluación de riesgos en la conducción autónoma. Nuestra arquitectura de red se basa en YOLO v4, que es un detector de objetos de un solo paso rápido y preciso. Agregamos un canal adicional a la capa de salida para la estimación de profundidad. Para entrenar la predicción de profundidad, extraemos la profundidad más cercana de las coordenadas del cuadro delimitador 3D de las etiquetas de verdad en el conjunto de datos. Nuestro modelo se compara con los últimos estudios sobre detección de objetos 3D utilizando el banco de pruebas de detección de objetos KITTI. Como resultado, mostramos que nuestro modelo logra un rendimiento de detección y velocidad de detección más altos que los modelos existentes con una precisión de profundidad comparable.