Habilitando Ai Consciente de la Perspectiva con Generación de Grafos de Escena Contextuales
Autores: Platnick, Daniel; Alirezaie, Marjan; Rahnama, Hossein
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Habilitando Ai Consciente de la Perspectiva con Generación de Grafos de Escena Contextuales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Comprensión contextual de imágenes
IA consciente de la perspectiva
Datos multimodales
Generación de gráficos de escena
Modelos de lenguaje grandes
Comprensión contextual
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento avanza en la comprensión contextual de imágenes dentro de la inteligencia artificial consciente de la perspectiva (PAi), un paradigma emergente en la interacción humano-computadora que permite a los usuarios percibir e interactuar a través de las perspectivas de los demás. Mientras que PAi se basa en datos multimodales, como texto, audio e imágenes, los desafíos en la recolección de datos, alineación y privacidad nos han llevado a centrarnos en habilitar la comprensión contextual de las imágenes. Para lograr esto, desarrollamos la generación de gráficos de escena consciente de la perspectiva con procesamiento posterior de LLM (PASGG-LM). Este marco extiende la generación tradicional de gráficos de escena (SGG) al incorporar modelos de lenguaje grandes (LLMs) para mejorar la comprensión contextual. PASGG-LM integra salidas clásicas de gráficos de escena con procesamiento posterior de LLM para inferir información contextual más rica, como emociones, actividades y contextos sociales. Para probar PASGG-LM, introducimos la tarea de generación de gráficos de escena consciente del contexto, donde el objetivo es generar un gráfico de situación consciente del contexto que describa la imagen de entrada. Evaluamos las canalizaciones de PASGG-LM utilizando modelos SGG de última generación, incluidos Motifs, Motifs-TDE y RelTR, y demostramos que el ajuste fino de LLM, particularmente GPT-4o-mini y Llama-3.1-8B, mejora el rendimiento en términos de R@K, mR@K y mAP. Nuestro método es capaz de generar gráficos de escena que capturan aspectos contextuales complejos, avanzando en la interacción humano-máquina al mejorar la representación de diversas perspectivas. Las direcciones futuras incluyen refinar los modelos de gráficos de escena contextual y expandir la integración de datos multimodales para aplicaciones de PAi en dominios como la salud, la educación y la robótica social.
Descripción
Este documento avanza en la comprensión contextual de imágenes dentro de la inteligencia artificial consciente de la perspectiva (PAi), un paradigma emergente en la interacción humano-computadora que permite a los usuarios percibir e interactuar a través de las perspectivas de los demás. Mientras que PAi se basa en datos multimodales, como texto, audio e imágenes, los desafíos en la recolección de datos, alineación y privacidad nos han llevado a centrarnos en habilitar la comprensión contextual de las imágenes. Para lograr esto, desarrollamos la generación de gráficos de escena consciente de la perspectiva con procesamiento posterior de LLM (PASGG-LM). Este marco extiende la generación tradicional de gráficos de escena (SGG) al incorporar modelos de lenguaje grandes (LLMs) para mejorar la comprensión contextual. PASGG-LM integra salidas clásicas de gráficos de escena con procesamiento posterior de LLM para inferir información contextual más rica, como emociones, actividades y contextos sociales. Para probar PASGG-LM, introducimos la tarea de generación de gráficos de escena consciente del contexto, donde el objetivo es generar un gráfico de situación consciente del contexto que describa la imagen de entrada. Evaluamos las canalizaciones de PASGG-LM utilizando modelos SGG de última generación, incluidos Motifs, Motifs-TDE y RelTR, y demostramos que el ajuste fino de LLM, particularmente GPT-4o-mini y Llama-3.1-8B, mejora el rendimiento en términos de R@K, mR@K y mAP. Nuestro método es capaz de generar gráficos de escena que capturan aspectos contextuales complejos, avanzando en la interacción humano-máquina al mejorar la representación de diversas perspectivas. Las direcciones futuras incluyen refinar los modelos de gráficos de escena contextual y expandir la integración de datos multimodales para aplicaciones de PAi en dominios como la salud, la educación y la robótica social.