Un modelo de saliencia audiovisual basado en objetos prototípicos y motivado biológicamente
Autores: Ramenahalli, Sudarshan
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Un modelo de saliencia audiovisual basado en objetos prototípicos y motivado biológicamente
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Entorno natural
Multisensorial
Algoritmo de análisis de escenas
Mapa de saliencia audiovisual
Basado en proto-objetos
Eventos salientes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
El entorno natural y nuestra interacción con él son esencialmente multisensoriales, donde podemos emplear los sentidos visuales, táctiles y/o auditivos para percibir, aprender e interactuar con nuestro entorno. Nuestro objetivo en este estudio es desarrollar un algoritmo de análisis de escenas utilizando información multisensorial, específicamente visión y audio. Desarrollamos un mapa de saliencia audiovisual basado en proto-objetos (AVSM) para el análisis de escenas naturales dinámicas. Una cámara audiovisual especializada con un campo de visión de 360 grados, capaz de localizar la dirección del sonido, se utiliza para recopilar datos audiovisuales espaciotemporalmente alineados. Demostramos que el rendimiento de un mapa de saliencia audiovisual basado en proto-objetos en la detección y localización de objetos/eventos relevantes está en acuerdo con el juicio humano. Además, el AVSM basado en proto-objetos que calculamos como una combinación lineal de mapas de conspicuidad de características visuales y auditivas captura un mayor número de eventos relevantes válidos en comparación con mapas de saliencia unisensoriales. Dicho algoritmo puede ser útil en vigilancia, navegación robótica, compresión de video y aplicaciones relacionadas.
Descripción
El entorno natural y nuestra interacción con él son esencialmente multisensoriales, donde podemos emplear los sentidos visuales, táctiles y/o auditivos para percibir, aprender e interactuar con nuestro entorno. Nuestro objetivo en este estudio es desarrollar un algoritmo de análisis de escenas utilizando información multisensorial, específicamente visión y audio. Desarrollamos un mapa de saliencia audiovisual basado en proto-objetos (AVSM) para el análisis de escenas naturales dinámicas. Una cámara audiovisual especializada con un campo de visión de 360 grados, capaz de localizar la dirección del sonido, se utiliza para recopilar datos audiovisuales espaciotemporalmente alineados. Demostramos que el rendimiento de un mapa de saliencia audiovisual basado en proto-objetos en la detección y localización de objetos/eventos relevantes está en acuerdo con el juicio humano. Además, el AVSM basado en proto-objetos que calculamos como una combinación lineal de mapas de conspicuidad de características visuales y auditivas captura un mayor número de eventos relevantes válidos en comparación con mapas de saliencia unisensoriales. Dicho algoritmo puede ser útil en vigilancia, navegación robótica, compresión de video y aplicaciones relacionadas.