Un enfoque novedoso de dos etapas para la extracción automática y generación multi-vista de litchis
Autores: Li, Yuanhong; Wang, Jing; Liang, Ming; Song, Haoyu; Liao, Jianhong; Lan, Yubin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un enfoque novedoso de dos etapas para la extracción automática y generación multi-vista de litchis
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Ciencias Agrícolas y Biológicas Generales
Palabras clave
Propone
Integración
Segmentación
Extracción
Multi-vista
Precisión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Obtener imágenes multi-vista consistentes de lichis es crucial para varios estudios relacionados con los lichis, como la aumentación de datos y la reconstrucción 3D. Este artículo propone un modelo de dos etapas que integra la red de segmentación semántica Mask2Former con la red de generación multi-vista Wonder3D. Esta integración tiene como objetivo segmentar y extraer con precisión los lichis de fondos complejos y generar imágenes multi-vista consistentes de lichis previamente no vistos. En la primera etapa, se utiliza el modelo Mask2Former para predecir máscaras de lichi, lo que permite la extracción de lichis de fondos complejos. Para mejorar aún más la precisión de la extracción de ramas de lichi, proponemos un método novedoso que combina las máscaras predichas con operaciones morfológicas y el espacio de color HSV. Este enfoque garantiza una extracción precisa de las ramas de lichi incluso cuando la precisión de predicción del modelo de segmentación semántica no es alta. En la segunda etapa, las imágenes de lichi segmentadas y extraídas se pasan como entrada a la red Wonder3D para generar multi-vista de los lichis. Después de comparar diferentes redes de segmentación semántica y síntesis multi-vista, las redes Mask2Former y Wonder3D demostraron el mejor rendimiento. La red Mask2Former logró un promedio de Intersección sobre Unión (mIoU) del 79.79% y una precisión de píxeles promedio (mPA) del 85.82%. La red Wonder3D logró un pico de relación señal-ruido (PSNR) de 18.89 dB, un índice de similitud estructural (SSIM) de 0.8199 y una similitud de parche de imagen perceptual aprendida (LPIPS) de 0.114. Combinar el modelo Mask2Former con la red Wonder3D resultó en un aumento en los puntajes de PSNR y SSIM en 0.21 dB y 0.0121, respectivamente, y una disminución en LPIPS en 0.064 en comparación con el uso del modelo Wonder3D solo. Por lo tanto, el modelo de dos etapas propuesto logra de manera efectiva la extracción automática y la generación multi-vista de lichis con alta precisión.
Descripción
Obtener imágenes multi-vista consistentes de lichis es crucial para varios estudios relacionados con los lichis, como la aumentación de datos y la reconstrucción 3D. Este artículo propone un modelo de dos etapas que integra la red de segmentación semántica Mask2Former con la red de generación multi-vista Wonder3D. Esta integración tiene como objetivo segmentar y extraer con precisión los lichis de fondos complejos y generar imágenes multi-vista consistentes de lichis previamente no vistos. En la primera etapa, se utiliza el modelo Mask2Former para predecir máscaras de lichi, lo que permite la extracción de lichis de fondos complejos. Para mejorar aún más la precisión de la extracción de ramas de lichi, proponemos un método novedoso que combina las máscaras predichas con operaciones morfológicas y el espacio de color HSV. Este enfoque garantiza una extracción precisa de las ramas de lichi incluso cuando la precisión de predicción del modelo de segmentación semántica no es alta. En la segunda etapa, las imágenes de lichi segmentadas y extraídas se pasan como entrada a la red Wonder3D para generar multi-vista de los lichis. Después de comparar diferentes redes de segmentación semántica y síntesis multi-vista, las redes Mask2Former y Wonder3D demostraron el mejor rendimiento. La red Mask2Former logró un promedio de Intersección sobre Unión (mIoU) del 79.79% y una precisión de píxeles promedio (mPA) del 85.82%. La red Wonder3D logró un pico de relación señal-ruido (PSNR) de 18.89 dB, un índice de similitud estructural (SSIM) de 0.8199 y una similitud de parche de imagen perceptual aprendida (LPIPS) de 0.114. Combinar el modelo Mask2Former con la red Wonder3D resultó en un aumento en los puntajes de PSNR y SSIM en 0.21 dB y 0.0121, respectivamente, y una disminución en LPIPS en 0.064 en comparación con el uso del modelo Wonder3D solo. Por lo tanto, el modelo de dos etapas propuesto logra de manera efectiva la extracción automática y la generación multi-vista de lichis con alta precisión.