Modelo de red neuronal gráfica de reconocimiento de interactividad (IR-GNN) para mejorar la detección de interacción humano-objeto
Autores: Zhang, Jiali; Mohd Yunos, Zuriahati; Haron, Habibollah
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Modelo de red neuronal gráfica de reconocimiento de interactividad (IR-GNN) para mejorar la detección de interacción humano-objeto
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Interacción humano-objeto
Detección
Estructura del modelo
Red neuronal gráfica de reconocimiento de interactividad
Característica de postura humana
Gráfico de interactividad humano-objeto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
La detección de interacción humano-objeto (HOI) es importante para promover el desarrollo de muchos campos como las interacciones humano-computadora, la robótica de servicio y la vigilancia de seguridad en video. Se descubre un alto porcentaje de pares humano-objeto con interacciones inválidas en la fase de detección de objetos de los algoritmos convencionales de detección de interacción humano-objeto, lo que resulta en una detección de interacción inexacta. Para reconocer pares inválidos de interacción humano-objeto, este documento propone una estructura de modelo, el modelo de red neuronal de grafo de reconocimiento de interactividad (IR-GNN), que puede inferir directamente la probabilidad de interacciones humano-objeto a partir de una arquitectura de modelo de grafo. El modelo consta de tres módulos: El primero es el módulo de características de postura humana, que utiliza puntos clave del cuerpo humano para construir características de postura espacial relativa y facilita aún más la discriminación de la interactividad humano-objeto a través de la información de la postura humana. En segundo lugar, se propone un módulo de grafo de interactividad humano-objeto. La relación espacial de la distancia humano-objeto se utiliza como peso de inicialización de los bordes, y el grafo se actualiza combinando el paso de mensajes del mecanismo de atención para que los bordes con pares de nodos interactivos obtengan pesos más altos. En tercer lugar, se propone el módulo de clasificación; al utilizar finalmente una red neuronal completamente conectada, la interactividad de los pares humano-objeto se clasifica binariamente. Estos tres módulos trabajan en colaboración para permitir la inferencia efectiva de posibilidades interactivas. Se realizan experimentos comparativos y de ablación en los conjuntos de datos HICO-DET y V-COCO. Se ha demostrado que nuestra tecnología puede mejorar la detección de interacciones humano-objeto.
Descripción
La detección de interacción humano-objeto (HOI) es importante para promover el desarrollo de muchos campos como las interacciones humano-computadora, la robótica de servicio y la vigilancia de seguridad en video. Se descubre un alto porcentaje de pares humano-objeto con interacciones inválidas en la fase de detección de objetos de los algoritmos convencionales de detección de interacción humano-objeto, lo que resulta en una detección de interacción inexacta. Para reconocer pares inválidos de interacción humano-objeto, este documento propone una estructura de modelo, el modelo de red neuronal de grafo de reconocimiento de interactividad (IR-GNN), que puede inferir directamente la probabilidad de interacciones humano-objeto a partir de una arquitectura de modelo de grafo. El modelo consta de tres módulos: El primero es el módulo de características de postura humana, que utiliza puntos clave del cuerpo humano para construir características de postura espacial relativa y facilita aún más la discriminación de la interactividad humano-objeto a través de la información de la postura humana. En segundo lugar, se propone un módulo de grafo de interactividad humano-objeto. La relación espacial de la distancia humano-objeto se utiliza como peso de inicialización de los bordes, y el grafo se actualiza combinando el paso de mensajes del mecanismo de atención para que los bordes con pares de nodos interactivos obtengan pesos más altos. En tercer lugar, se propone el módulo de clasificación; al utilizar finalmente una red neuronal completamente conectada, la interactividad de los pares humano-objeto se clasifica binariamente. Estos tres módulos trabajan en colaboración para permitir la inferencia efectiva de posibilidades interactivas. Se realizan experimentos comparativos y de ablación en los conjuntos de datos HICO-DET y V-COCO. Se ha demostrado que nuestra tecnología puede mejorar la detección de interacciones humano-objeto.