logo móvil
Contáctanos

Reconocimiento de violencia basado en la fusión auditiva-visual del mapeo del autoencoder

Autores: Lou, Jiu; Zuo, Decheng; Zhang, Zhan; Liu, Hongwei

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Reconocimiento de violencia basado en la fusión auditiva-visual del mapeo del autoencoder


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Proceso
Reconocimiento de violencia
Precisión
Desalineación en el eje del tiempo
Desviación semántica
Fusión de información auditiva-visual

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
En el proceso de reconocimiento de la violencia, la precisión se ve reducida debido a problemas relacionados con el desalineamiento del eje temporal y la desviación semántica de la información visual y auditiva multimedia. Por lo tanto, este documento propone un método de fusión de información auditiva-visual basado en el mapeo del autoencoder. Primero, se establece un modelo de extracción de características basado en el marco CNN-LSTM, y los segmentos multimedia se utilizan como entrada completa para resolver el problema del desalineamiento del eje temporal de la información visual y auditiva. Luego, se construye un subespacio semántico compartido basado en un modelo de mapeo del autoencoder y se optimiza mediante correspondencia semántica, lo que resuelve el problema de la desviación semántica audiovisual y realiza la fusión de la información visual y auditiva en características a nivel de segmento. Finalmente, se utiliza toda la red para identificar la violencia. Los resultados experimentales muestran que el método puede aprovechar la complementariedad entre los modos. En comparación con la información de un solo modo, el método multimodal puede lograr mejores resultados.

Otros recursos que podrían interesarte

Temas Virtualpro