Habilitando Ai Consciente de la Perspectiva con Generación de Grafos de Escena Contextuales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Habilitando Ai Consciente de la Perspectiva con Generación de Grafos de Escena Contextuales

Autores: Platnick, Daniel; Alirezaie, Marjan; Rahnama, Hossein

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Habilitando Ai Consciente de la Perspectiva con Generación de Grafos de Escena Contextuales

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Comprensión contextual de imágenes

IA consciente de la perspectiva

Datos multimodales

Generación de gráficos de escena

Modelos de lenguaje grandes

Comprensión contextual

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento avanza en la comprensión contextual de imágenes dentro de la inteligencia artificial consciente de la perspectiva (PAi), un paradigma emergente en la interacción humano-computadora que permite a los usuarios percibir e interactuar a través de las perspectivas de los demás. Mientras que PAi se basa en datos multimodales, como texto, audio e imágenes, los desafíos en la recolección de datos, alineación y privacidad nos han llevado a centrarnos en habilitar la comprensión contextual de las imágenes. Para lograr esto, desarrollamos la generación de gráficos de escena consciente de la perspectiva con procesamiento posterior de LLM (PASGG-LM). Este marco extiende la generación tradicional de gráficos de escena (SGG) al incorporar modelos de lenguaje grandes (LLMs) para mejorar la comprensión contextual. PASGG-LM integra salidas clásicas de gráficos de escena con procesamiento posterior de LLM para inferir información contextual más rica, como emociones, actividades y contextos sociales. Para probar PASGG-LM, introducimos la tarea de generación de gráficos de escena consciente del contexto, donde el objetivo es generar un gráfico de situación consciente del contexto que describa la imagen de entrada. Evaluamos las canalizaciones de PASGG-LM utilizando modelos SGG de última generación, incluidos Motifs, Motifs-TDE y RelTR, y demostramos que el ajuste fino de LLM, particularmente GPT-4o-mini y Llama-3.1-8B, mejora el rendimiento en términos de R@K, mR@K y mAP. Nuestro método es capaz de generar gráficos de escena que capturan aspectos contextuales complejos, avanzando en la interacción humano-máquina al mejorar la representación de diversas perspectivas. Las direcciones futuras incluyen refinar los modelos de gráficos de escena contextual y expandir la integración de datos multimodales para aplicaciones de PAi en dominios como la salud, la educación y la robótica social.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro