Reconocimiento de violencia basado en la fusión auditiva-visual del mapeo del autoencoder
Autores: Lou, Jiu; Zuo, Decheng; Zhang, Zhan; Liu, Hongwei
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Reconocimiento de violencia basado en la fusión auditiva-visual del mapeo del autoencoder
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Proceso
Reconocimiento de violencia
Precisión
Desalineación en el eje del tiempo
Desviación semántica
Fusión de información auditiva-visual
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
En el proceso de reconocimiento de la violencia, la precisión se ve reducida debido a problemas relacionados con el desalineamiento del eje temporal y la desviación semántica de la información visual y auditiva multimedia. Por lo tanto, este documento propone un método de fusión de información auditiva-visual basado en el mapeo del autoencoder. Primero, se establece un modelo de extracción de características basado en el marco CNN-LSTM, y los segmentos multimedia se utilizan como entrada completa para resolver el problema del desalineamiento del eje temporal de la información visual y auditiva. Luego, se construye un subespacio semántico compartido basado en un modelo de mapeo del autoencoder y se optimiza mediante correspondencia semántica, lo que resuelve el problema de la desviación semántica audiovisual y realiza la fusión de la información visual y auditiva en características a nivel de segmento. Finalmente, se utiliza toda la red para identificar la violencia. Los resultados experimentales muestran que el método puede aprovechar la complementariedad entre los modos. En comparación con la información de un solo modo, el método multimodal puede lograr mejores resultados.
Descripción
En el proceso de reconocimiento de la violencia, la precisión se ve reducida debido a problemas relacionados con el desalineamiento del eje temporal y la desviación semántica de la información visual y auditiva multimedia. Por lo tanto, este documento propone un método de fusión de información auditiva-visual basado en el mapeo del autoencoder. Primero, se establece un modelo de extracción de características basado en el marco CNN-LSTM, y los segmentos multimedia se utilizan como entrada completa para resolver el problema del desalineamiento del eje temporal de la información visual y auditiva. Luego, se construye un subespacio semántico compartido basado en un modelo de mapeo del autoencoder y se optimiza mediante correspondencia semántica, lo que resuelve el problema de la desviación semántica audiovisual y realiza la fusión de la información visual y auditiva en características a nivel de segmento. Finalmente, se utiliza toda la red para identificar la violencia. Los resultados experimentales muestran que el método puede aprovechar la complementariedad entre los modos. En comparación con la información de un solo modo, el método multimodal puede lograr mejores resultados.