Detección de Objetos a través de Mask R-CNN Basado en Gradientes Usando Algoritmos de Aprendizaje Automático
Autores: Xavier, Alphonse Inbaraj; Villavicencio, Charlyn; Macrohon, Julio Jerison; Jeng, Jyh-Horng; Hsieh, Jer-Guang
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Detección de Objetos a través de Mask R-CNN Basado en Gradientes Usando Algoritmos de Aprendizaje Automático
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Detección de objetos
Aprendizaje automático
Modelos de aprendizaje profundo
GradCAM-MLRCNN
Localización
Red Neuronal Convolucional Regional con Máscara
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
La detección de objetos ha recibido mucha atención en la investigación en los últimos años debido a su estrecha asociación con el análisis de video y la interpretación de imágenes. Detectar objetos en imágenes y videos es una tarea fundamental y se considera uno de los problemas más difíciles en la visión por computadora. Se han propuesto muchos modelos de aprendizaje automático y aprendizaje profundo en el pasado para resolver este problema. En el escenario actual, el algoritmo de detección debe calcular de principio a fin en el menor tiempo posible. Este artículo propone un método llamado GradCAM-MLRCNN que combina Gradient-weighted Class Activation Mapping++ (Grad-CAM++) para la localización y Mask Regional Convolution Neural Network (Mask R-CNN) para la detección de objetos junto con algoritmos de aprendizaje automático. En nuestro método propuesto, se utilizan imágenes para entrenar la red, junto con máscaras que muestran dónde están los objetos en la imagen. Se regresa un cuadro delimitador alrededor de la región de interés en la mayoría de las redes de localización. Además, al igual que en cualquier tarea de clasificación, se minimiza la pérdida logarítmica multiclase durante el entrenamiento. Este modelo mejora el tiempo de cálculo y la velocidad, así como la eficiencia, que reconoce objetos en imágenes con precisión al comparar algoritmos de aprendizaje automático de vanguardia, como árboles de decisión, algoritmo gaussiano, agrupamiento k-means, vecino más cercano y regresión logística. Entre estos métodos, encontramos que la regresión logística tuvo un buen desempeño con una tasa de precisión del 98.4%, una tasa de recuperación del 99.6% y una tasa de precisión del 97.3% con respecto a ResNet 152 y VGG 19. Además, demostramos la bondad de ajuste de nuestro modelo propuesto utilizando el método estadístico de chi-cuadrado y demostramos que nuestra solución puede lograr una gran precisión mientras mantiene un nivel de recuperación justo.
Descripción
La detección de objetos ha recibido mucha atención en la investigación en los últimos años debido a su estrecha asociación con el análisis de video y la interpretación de imágenes. Detectar objetos en imágenes y videos es una tarea fundamental y se considera uno de los problemas más difíciles en la visión por computadora. Se han propuesto muchos modelos de aprendizaje automático y aprendizaje profundo en el pasado para resolver este problema. En el escenario actual, el algoritmo de detección debe calcular de principio a fin en el menor tiempo posible. Este artículo propone un método llamado GradCAM-MLRCNN que combina Gradient-weighted Class Activation Mapping++ (Grad-CAM++) para la localización y Mask Regional Convolution Neural Network (Mask R-CNN) para la detección de objetos junto con algoritmos de aprendizaje automático. En nuestro método propuesto, se utilizan imágenes para entrenar la red, junto con máscaras que muestran dónde están los objetos en la imagen. Se regresa un cuadro delimitador alrededor de la región de interés en la mayoría de las redes de localización. Además, al igual que en cualquier tarea de clasificación, se minimiza la pérdida logarítmica multiclase durante el entrenamiento. Este modelo mejora el tiempo de cálculo y la velocidad, así como la eficiencia, que reconoce objetos en imágenes con precisión al comparar algoritmos de aprendizaje automático de vanguardia, como árboles de decisión, algoritmo gaussiano, agrupamiento k-means, vecino más cercano y regresión logística. Entre estos métodos, encontramos que la regresión logística tuvo un buen desempeño con una tasa de precisión del 98.4%, una tasa de recuperación del 99.6% y una tasa de precisión del 97.3% con respecto a ResNet 152 y VGG 19. Además, demostramos la bondad de ajuste de nuestro modelo propuesto utilizando el método estadístico de chi-cuadrado y demostramos que nuestra solución puede lograr una gran precisión mientras mantiene un nivel de recuperación justo.