MLLM-Búsqueda: Un Enfoque de Cero Tiros para Encontrar Personas Usando Modelos de Lenguaje Grande Multimodal
Autores: Fung, Angus; Tan, Aaron Hao; Wang, Haitong; Benhabib, Bensiyon; Nejat, Goldie
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
MLLM-Búsqueda: Un Enfoque de Cero Tiros para Encontrar Personas Usando Modelos de Lenguaje Grande Multimodal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Robótico
Búsqueda
Persona
MLLM-Búsqueda
Entornos
Horario
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
La búsqueda robótica de personas en entornos centrados en el ser humano, incluidos los entornos de atención médica, es un desafío, ya que los robots autónomos necesitan localizar a las personas sin conocimiento completo o previo de sus horarios, planes o ubicaciones. Además, los robots deben ser capaces de adaptarse a eventos en tiempo real que pueden influir en el plan de una persona en un entorno. En este artículo, presentamos MLLM-Search, una nueva arquitectura de búsqueda de personas en cero disparos que aprovecha los modelos de lenguaje multimodal grandes (MLLM) para abordar el problema del robot móvil de buscar a una persona en escenarios impulsados por eventos con horarios de usuario variables. Nuestro enfoque introduce un nuevo método de indicación visual para proporcionar a los robots una comprensión espacial del entorno mediante la generación de un mapa de puntos de referencia espacialmente fundamentado, que representa puntos de referencia navegables utilizando un gráfico topológico y regiones mediante etiquetas semánticas. Esto se incorpora en un MLLM con un planificador de regiones que selecciona la próxima región de búsqueda en función de la relevancia semántica para el escenario de búsqueda y un planificador de puntos de referencia que genera un camino de búsqueda considerando los objetos semánticamente relevantes y el contexto espacial local a través de nuestro único enfoque de indicación de cadena de pensamiento espacial. Se llevaron a cabo extensos experimentos fotorealistas en 3D para validar el rendimiento de MLLM-Search en la búsqueda de una persona con un horario cambiante en diferentes entornos. También se realizó un estudio de ablación para validar las principales decisiones de diseño de MLLM-Search. Además, un estudio comparativo con métodos de búsqueda de vanguardia demostró que MLLM-Search supera a los métodos existentes en términos de eficiencia de búsqueda. Experimentos en el mundo real con un robot móvil en un piso de múltiples habitaciones de un edificio mostraron que MLLM-Search fue capaz de generalizar a nuevos entornos no vistos.
Descripción
La búsqueda robótica de personas en entornos centrados en el ser humano, incluidos los entornos de atención médica, es un desafío, ya que los robots autónomos necesitan localizar a las personas sin conocimiento completo o previo de sus horarios, planes o ubicaciones. Además, los robots deben ser capaces de adaptarse a eventos en tiempo real que pueden influir en el plan de una persona en un entorno. En este artículo, presentamos MLLM-Search, una nueva arquitectura de búsqueda de personas en cero disparos que aprovecha los modelos de lenguaje multimodal grandes (MLLM) para abordar el problema del robot móvil de buscar a una persona en escenarios impulsados por eventos con horarios de usuario variables. Nuestro enfoque introduce un nuevo método de indicación visual para proporcionar a los robots una comprensión espacial del entorno mediante la generación de un mapa de puntos de referencia espacialmente fundamentado, que representa puntos de referencia navegables utilizando un gráfico topológico y regiones mediante etiquetas semánticas. Esto se incorpora en un MLLM con un planificador de regiones que selecciona la próxima región de búsqueda en función de la relevancia semántica para el escenario de búsqueda y un planificador de puntos de referencia que genera un camino de búsqueda considerando los objetos semánticamente relevantes y el contexto espacial local a través de nuestro único enfoque de indicación de cadena de pensamiento espacial. Se llevaron a cabo extensos experimentos fotorealistas en 3D para validar el rendimiento de MLLM-Search en la búsqueda de una persona con un horario cambiante en diferentes entornos. También se realizó un estudio de ablación para validar las principales decisiones de diseño de MLLM-Search. Además, un estudio comparativo con métodos de búsqueda de vanguardia demostró que MLLM-Search supera a los métodos existentes en términos de eficiencia de búsqueda. Experimentos en el mundo real con un robot móvil en un piso de múltiples habitaciones de un edificio mostraron que MLLM-Search fue capaz de generalizar a nuevos entornos no vistos.