Identificación de origen de por CNN incrustado con el bloque de conexión residual jerárquica
Autores: Li, Dongming; Yang, Chenglin; Yao, Rui; Ma, Li
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Identificación de origen de por CNN incrustado con el bloque de conexión residual jerárquica
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Agronomía y Ciencia de los Cultivos
Palabras clave
Modelo propuesto
IResNet
Técnicas de aumento de datos
Bloque de conexión residual jerárquica
Operación de convolución de profundidad separable
Resultados experimentales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Este documento propone un método para reconocer el origen utilizando el modelo IResNet para lograr la clasificación basada en visión por computadora. En primer lugar, creamos un pequeño conjunto de datos de muestra y aplicamos técnicas de aumento de datos para mejorar su diversidad. Después, introdujimos el bloque de conexión residual jerárquico en la etapa inicial del modelo original para ampliar el campo perceptual de la red neuronal y mejorar la extracción de características de escala. Mientras tanto, se adoptó una operación de convolución separable en profundidad en la etapa posterior del modelo para reemplazar la operación de convolución convencional y reducir aún más el costo temporal del modelo. Los resultados experimentales demuestran que el modelo de red mejorado logró una mejora del 5.03% en precisión en comparación con el modelo original, al mismo tiempo que redujo significativamente el número de parámetros requeridos para el modelo. En nuestros experimentos, comparamos la precisión del modelo propuesto con varios modelos clásicos de redes neuronales convolucionales, incluidos ResNet50, Resnest50, Res2net50, RepVggNet_B0 y ConvNext_T. Los resultados mostraron que nuestro modelo propuesto logró una precisión del 93.72%, superando a ResNet50 (86.68%), Resnest50 (89.38%), Res2net50 (91.83%), RepVggNet_B0 (88.68%) y ConvNext_T (92.18%). Además, nuestro modelo propuesto logró la mayor precisión entre los modelos comparados, con una velocidad de cuadro de transmisión de 158.9 fps y un tiempo de inferencia de solo 6.29 ms. La metodología de investigación empleada en este estudio ha demostrado la capacidad de reducir errores potenciales causados por la observación manual, mejorando efectivamente la capacidad de reconocimiento basada en datos existentes. Además, los hallazgos de este estudio proporcionan una referencia valiosa y apoyo para futuros esfuerzos para desarrollar modelos livianos en esta área.
Descripción
Este documento propone un método para reconocer el origen utilizando el modelo IResNet para lograr la clasificación basada en visión por computadora. En primer lugar, creamos un pequeño conjunto de datos de muestra y aplicamos técnicas de aumento de datos para mejorar su diversidad. Después, introdujimos el bloque de conexión residual jerárquico en la etapa inicial del modelo original para ampliar el campo perceptual de la red neuronal y mejorar la extracción de características de escala. Mientras tanto, se adoptó una operación de convolución separable en profundidad en la etapa posterior del modelo para reemplazar la operación de convolución convencional y reducir aún más el costo temporal del modelo. Los resultados experimentales demuestran que el modelo de red mejorado logró una mejora del 5.03% en precisión en comparación con el modelo original, al mismo tiempo que redujo significativamente el número de parámetros requeridos para el modelo. En nuestros experimentos, comparamos la precisión del modelo propuesto con varios modelos clásicos de redes neuronales convolucionales, incluidos ResNet50, Resnest50, Res2net50, RepVggNet_B0 y ConvNext_T. Los resultados mostraron que nuestro modelo propuesto logró una precisión del 93.72%, superando a ResNet50 (86.68%), Resnest50 (89.38%), Res2net50 (91.83%), RepVggNet_B0 (88.68%) y ConvNext_T (92.18%). Además, nuestro modelo propuesto logró la mayor precisión entre los modelos comparados, con una velocidad de cuadro de transmisión de 158.9 fps y un tiempo de inferencia de solo 6.29 ms. La metodología de investigación empleada en este estudio ha demostrado la capacidad de reducir errores potenciales causados por la observación manual, mejorando efectivamente la capacidad de reconocimiento basada en datos existentes. Además, los hallazgos de este estudio proporcionan una referencia valiosa y apoyo para futuros esfuerzos para desarrollar modelos livianos en esta área.