Una Visión Multimodal: Marco de Lenguaje para la Detección Inteligente e Interpretación Semántica de Residuos Urbanos
Autores: Jonuzi, Verda Misimi; Mishkovski, Igor
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Una Visión Multimodal: Marco de Lenguaje para la Detección Inteligente e Interpretación Semántica de Residuos Urbanos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Gestión de residuos urbanos
Marco multimodal de visión-lenguaje
Modelos de detección de objetos
YOLOv8m
YOLOv10m
Interpretación semántica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La gestión de residuos urbanos sigue siendo un desafío significativo para lograr la sostenibilidad ambiental y avanzar en las infraestructuras de ciudades inteligentes. Este estudio propone un marco multimodal de visión-lenguaje que integra la detección de objetos en tiempo real con la interpretación semántica automatizada y el análisis semántico estructurado para el monitoreo inteligente de residuos urbanos. Se construyó un conjunto de datos personalizado que incluye 2247 imágenes anotadas manualmente a partir de fuentes disponibles públicamente (TrashNet y TACO), lo que permite una detección robusta de múltiples clases en seis categorías de residuos. Se entrenaron y evaluaron dos modelos de detección de objetos de última generación, YOLOv8m y YOLOv10m, utilizando una división fija de 70/15/15 para entrenamiento-validación-prueba. Bajo esta configuración, YOLOv8m logró un mAP@50 del 90.5% y un mAP@50-95 del 87.1%, superando ligeramente a YOLOv10m (89.5% y 86.0%, respectivamente). Además, YOLOv8m demostró una eficiencia de inferencia superior, alcanzando 120 FPS en comparación con 105 FPS para YOLOv10m. Para obtener una estimación más confiable de la estabilidad del rendimiento a través de las particiones de datos, se realizó una validación cruzada estratificada de 5 pliegues. YOLOv8m logró una Precisión promedio de 0.9324 y un mAP@50-95 promedio de 0.9315 +/- 0.0575 a través de los pliegues, lo que sugiere un rendimiento generalmente estable a través de las particiones de datos, al tiempo que revela variabilidad asociada con la heterogeneidad del conjunto de datos. Más allá de la detección de objetos, el marco integra MiniGPT-4 para generar descripciones textuales contextuales de los elementos de residuos detectados, mejorando así la interpretabilidad semántica y el compromiso del usuario. Además, se incorpora GPT-5 Vision como un módulo de clasificación semántica auxiliar estructurada y sugerencia de categorías que analiza recortes de objetos y escenas de múltiples clases, produciendo salidas en formato JSON restringido que incluyen etiquetas de categoría, descripciones concisas e indicadores de reciclabilidad. En general, el pipeline propuesto YOLOv8-MiniGPT-4-GPT-5 Vision muestra que combinar una detección precisa en tiempo real con un razonamiento semántico multimodal puede mejorar la interpretabilidad y apoyar un análisis de residuos interactivo y semánticamente enriquecido en escenarios de monitoreo ambiental y de ciudades inteligentes.
Descripción
La gestión de residuos urbanos sigue siendo un desafío significativo para lograr la sostenibilidad ambiental y avanzar en las infraestructuras de ciudades inteligentes. Este estudio propone un marco multimodal de visión-lenguaje que integra la detección de objetos en tiempo real con la interpretación semántica automatizada y el análisis semántico estructurado para el monitoreo inteligente de residuos urbanos. Se construyó un conjunto de datos personalizado que incluye 2247 imágenes anotadas manualmente a partir de fuentes disponibles públicamente (TrashNet y TACO), lo que permite una detección robusta de múltiples clases en seis categorías de residuos. Se entrenaron y evaluaron dos modelos de detección de objetos de última generación, YOLOv8m y YOLOv10m, utilizando una división fija de 70/15/15 para entrenamiento-validación-prueba. Bajo esta configuración, YOLOv8m logró un mAP@50 del 90.5% y un mAP@50-95 del 87.1%, superando ligeramente a YOLOv10m (89.5% y 86.0%, respectivamente). Además, YOLOv8m demostró una eficiencia de inferencia superior, alcanzando 120 FPS en comparación con 105 FPS para YOLOv10m. Para obtener una estimación más confiable de la estabilidad del rendimiento a través de las particiones de datos, se realizó una validación cruzada estratificada de 5 pliegues. YOLOv8m logró una Precisión promedio de 0.9324 y un mAP@50-95 promedio de 0.9315 +/- 0.0575 a través de los pliegues, lo que sugiere un rendimiento generalmente estable a través de las particiones de datos, al tiempo que revela variabilidad asociada con la heterogeneidad del conjunto de datos. Más allá de la detección de objetos, el marco integra MiniGPT-4 para generar descripciones textuales contextuales de los elementos de residuos detectados, mejorando así la interpretabilidad semántica y el compromiso del usuario. Además, se incorpora GPT-5 Vision como un módulo de clasificación semántica auxiliar estructurada y sugerencia de categorías que analiza recortes de objetos y escenas de múltiples clases, produciendo salidas en formato JSON restringido que incluyen etiquetas de categoría, descripciones concisas e indicadores de reciclabilidad. En general, el pipeline propuesto YOLOv8-MiniGPT-4-GPT-5 Vision muestra que combinar una detección precisa en tiempo real con un razonamiento semántico multimodal puede mejorar la interpretabilidad y apoyar un análisis de residuos interactivo y semánticamente enriquecido en escenarios de monitoreo ambiental y de ciudades inteligentes.