logo móvil
Contáctanos

Un marco híbrido para la segmentación de imágenes de referencia: modelo de doble decodificador con complementación SAM

Autores: Chen, Haoyuan; Zhou, Sihang; Li, Kuan; Yin, Jianping; Huang, Jian

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un marco híbrido para la segmentación de imágenes de referencia: modelo de doble decodificador con complementación SAM


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Señales visuales y verbales
Segmentación de imágenes
Modelo PolyFormer
Modelo SAM
Resultados de segmentación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones


Descripción
En el ámbito de la interacción humano-robot, la integración de señales visuales y verbales ha cobrado cada vez más importancia. Este documento se centra en los desafíos y avances en la referencia de segmentación de imágenes (RIS), una tarea que implica segmentar imágenes basadas en descripciones textuales. Los enfoques tradicionales para RIS han estado principalmente centrados en la clasificación a nivel de píxeles. Estos métodos, aunque efectivos, a menudo pasan por alto la interconexión de píxeles, lo cual puede ser crucial para interpretar escenas visuales complejas. Además, si bien el modelo PolyFormer ha mostrado un rendimiento impresionante en RIS, su gran cantidad de parámetros y altos requisitos de datos de entrenamiento plantean desafíos significativos. Estos factores restringen su adaptabilidad y optimización en hardware de consumo estándar, obstaculizando mejoras adicionales en investigaciones posteriores. Abordando estos problemas, nuestro estudio presenta un novedoso marco de decodificador de dos ramas con SAM (modelo de segmentación de cualquier cosa) para RIS. Este marco incorpora un decodificador MLP y un decodificador KAN con un módulo de fusión de características a múltiples escalas, mejorando la capacidad del modelo para discernir detalles finos dentro de las imágenes. La robustez del marco se ve reforzada aún más por una estrategia de aprendizaje de conjunto que consolida las ideas tanto de las ramas del decodificador MLP como del KAN. Más importante aún, recopilamos las coordenadas de los bordes de destino de segmentación y las coordenadas de la caja delimitadora como señales de entrada para el modelo SAM. Esta estrategia aprovecha las capacidades de aprendizaje de cero muestra de SAM para refinar y optimizar los resultados de segmentación. Nuestros hallazgos experimentales, basados en los ampliamente reconocidos conjuntos de datos RefCOCO, RefCOCO+ y RefCOCOg, confirman la efectividad de este método. Los resultados no solo logran un rendimiento de vanguardia en la segmentación, sino que también están respaldados por estudios de ablación que resaltan las contribuciones de cada componente a la mejora general en el rendimiento.

Otros recursos que podrían interesarte

Temas Virtualpro