logo móvil
Contáctanos

Habilitando Ai Consciente de la Perspectiva con Generación de Grafos de Escena Contextuales

Autores: Platnick, Daniel; Alirezaie, Marjan; Rahnama, Hossein

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Habilitando Ai Consciente de la Perspectiva con Generación de Grafos de Escena Contextuales


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Comprensión contextual de imágenes
IA consciente de la perspectiva
Datos multimodales
Generación de gráficos de escena
Modelos de lenguaje grandes
Comprensión contextual

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento avanza en la comprensión contextual de imágenes dentro de la inteligencia artificial consciente de la perspectiva (PAi), un paradigma emergente en la interacción humano-computadora que permite a los usuarios percibir e interactuar a través de las perspectivas de los demás. Mientras que PAi se basa en datos multimodales, como texto, audio e imágenes, los desafíos en la recolección de datos, alineación y privacidad nos han llevado a centrarnos en habilitar la comprensión contextual de las imágenes. Para lograr esto, desarrollamos la generación de gráficos de escena consciente de la perspectiva con procesamiento posterior de LLM (PASGG-LM). Este marco extiende la generación tradicional de gráficos de escena (SGG) al incorporar modelos de lenguaje grandes (LLMs) para mejorar la comprensión contextual. PASGG-LM integra salidas clásicas de gráficos de escena con procesamiento posterior de LLM para inferir información contextual más rica, como emociones, actividades y contextos sociales. Para probar PASGG-LM, introducimos la tarea de generación de gráficos de escena consciente del contexto, donde el objetivo es generar un gráfico de situación consciente del contexto que describa la imagen de entrada. Evaluamos las canalizaciones de PASGG-LM utilizando modelos SGG de última generación, incluidos Motifs, Motifs-TDE y RelTR, y demostramos que el ajuste fino de LLM, particularmente GPT-4o-mini y Llama-3.1-8B, mejora el rendimiento en términos de R@K, mR@K y mAP. Nuestro método es capaz de generar gráficos de escena que capturan aspectos contextuales complejos, avanzando en la interacción humano-máquina al mejorar la representación de diversas perspectivas. Las direcciones futuras incluyen refinar los modelos de gráficos de escena contextual y expandir la integración de datos multimodales para aplicaciones de PAi en dominios como la salud, la educación y la robótica social.

Otros recursos que podrían interesarte

Temas Virtualpro