Red de convolución temporal en forma de U para la segmentación de acciones vulgares
Autores: Shen, Zhengwei; Xu, Ran; Zhang, Yongquan; Qin, Feiwei; Ge, Ruiquan; Wang, Changmiao; Toyoura, Masahiro
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Red de convolución temporal en forma de U para la segmentación de acciones vulgares
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje profundo
Acciones vulgares
Segmentación
Ambigüedad de límites
Sobre-segmentación
BMUTCN
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
El advenimiento del aprendizaje profundo ha proporcionado soluciones a muchos desafíos planteados por Internet. Sin embargo, la localización eficiente y el reconocimiento de segmentos vulgares dentro de videos siguen siendo tareas formidables. Esta dificultad surge de la difuminación de características espaciales en acciones vulgares, lo que puede hacerlas indistinguibles de acciones generales. Además, los problemas de ambigüedad de límites y sobre-segmentación complican la segmentación de acciones vulgares. Para abordar estos problemas, presentamos la Red Convolucional Temporal en forma de U para el Emparejamiento de Límites (BMUTCN), un enfoque novedoso para la segmentación de acciones vulgares. El BMUTCN emplea una arquitectura en forma de U dentro de una red convolucional temporal codificador-decodificador para fortalecer el reconocimiento de características aprovechando el contexto del video. Además, introducimos un mapa de emparejamiento de límites que fusiona la información de límites de acción con mayor precisión para fotogramas que muestran límites ambiguos. Además, proponemos una técnica de supresión de bloques internos adaptativa, que mitiga sustancialmente los errores de sobre-segmentación mientras se preserva la precisión. Nuestra metodología, probada en varios conjuntos de datos públicos y en un conjunto de datos vulgar personalizado, ha demostrado un rendimiento de vanguardia en este último.
Descripción
El advenimiento del aprendizaje profundo ha proporcionado soluciones a muchos desafíos planteados por Internet. Sin embargo, la localización eficiente y el reconocimiento de segmentos vulgares dentro de videos siguen siendo tareas formidables. Esta dificultad surge de la difuminación de características espaciales en acciones vulgares, lo que puede hacerlas indistinguibles de acciones generales. Además, los problemas de ambigüedad de límites y sobre-segmentación complican la segmentación de acciones vulgares. Para abordar estos problemas, presentamos la Red Convolucional Temporal en forma de U para el Emparejamiento de Límites (BMUTCN), un enfoque novedoso para la segmentación de acciones vulgares. El BMUTCN emplea una arquitectura en forma de U dentro de una red convolucional temporal codificador-decodificador para fortalecer el reconocimiento de características aprovechando el contexto del video. Además, introducimos un mapa de emparejamiento de límites que fusiona la información de límites de acción con mayor precisión para fotogramas que muestran límites ambiguos. Además, proponemos una técnica de supresión de bloques internos adaptativa, que mitiga sustancialmente los errores de sobre-segmentación mientras se preserva la precisión. Nuestra metodología, probada en varios conjuntos de datos públicos y en un conjunto de datos vulgar personalizado, ha demostrado un rendimiento de vanguardia en este último.