logo móvil
Contáctanos

MLLM-Búsqueda: Un Enfoque de Cero Tiros para Encontrar Personas Usando Modelos de Lenguaje Grande Multimodal

Autores: Fung, Angus; Tan, Aaron Hao; Wang, Haitong; Benhabib, Bensiyon; Nejat, Goldie

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

MLLM-Búsqueda: Un Enfoque de Cero Tiros para Encontrar Personas Usando Modelos de Lenguaje Grande Multimodal


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Robótico
Búsqueda
Persona
MLLM-Búsqueda
Entornos
Horario

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
La búsqueda robótica de personas en entornos centrados en el ser humano, incluidos los entornos de atención médica, es un desafío, ya que los robots autónomos necesitan localizar a las personas sin conocimiento completo o previo de sus horarios, planes o ubicaciones. Además, los robots deben ser capaces de adaptarse a eventos en tiempo real que pueden influir en el plan de una persona en un entorno. En este artículo, presentamos MLLM-Search, una nueva arquitectura de búsqueda de personas en cero disparos que aprovecha los modelos de lenguaje multimodal grandes (MLLM) para abordar el problema del robot móvil de buscar a una persona en escenarios impulsados por eventos con horarios de usuario variables. Nuestro enfoque introduce un nuevo método de indicación visual para proporcionar a los robots una comprensión espacial del entorno mediante la generación de un mapa de puntos de referencia espacialmente fundamentado, que representa puntos de referencia navegables utilizando un gráfico topológico y regiones mediante etiquetas semánticas. Esto se incorpora en un MLLM con un planificador de regiones que selecciona la próxima región de búsqueda en función de la relevancia semántica para el escenario de búsqueda y un planificador de puntos de referencia que genera un camino de búsqueda considerando los objetos semánticamente relevantes y el contexto espacial local a través de nuestro único enfoque de indicación de cadena de pensamiento espacial. Se llevaron a cabo extensos experimentos fotorealistas en 3D para validar el rendimiento de MLLM-Search en la búsqueda de una persona con un horario cambiante en diferentes entornos. También se realizó un estudio de ablación para validar las principales decisiones de diseño de MLLM-Search. Además, un estudio comparativo con métodos de búsqueda de vanguardia demostró que MLLM-Search supera a los métodos existentes en términos de eficiencia de búsqueda. Experimentos en el mundo real con un robot móvil en un piso de múltiples habitaciones de un edificio mostraron que MLLM-Search fue capaz de generalizar a nuevos entornos no vistos.

Otros recursos que podrían interesarte

Temas Virtualpro