Una Visión Multimodal: Marco de Lenguaje para la Detección Inteligente e Interpretación Semántica de Residuos Urbanos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Una Visión Multimodal: Marco de Lenguaje para la Detección Inteligente e Interpretación Semántica de Residuos Urbanos

Autores: Jonuzi, Verda Misimi; Mishkovski, Igor

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Una Visión Multimodal: Marco de Lenguaje para la Detección Inteligente e Interpretación Semántica de Residuos Urbanos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Gestión de residuos urbanos

Marco multimodal de visión-lenguaje

Modelos de detección de objetos

YOLOv8m

YOLOv10m

Interpretación semántica

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La gestión de residuos urbanos sigue siendo un desafío significativo para lograr la sostenibilidad ambiental y avanzar en las infraestructuras de ciudades inteligentes. Este estudio propone un marco multimodal de visión-lenguaje que integra la detección de objetos en tiempo real con la interpretación semántica automatizada y el análisis semántico estructurado para el monitoreo inteligente de residuos urbanos. Se construyó un conjunto de datos personalizado que incluye 2247 imágenes anotadas manualmente a partir de fuentes disponibles públicamente (TrashNet y TACO), lo que permite una detección robusta de múltiples clases en seis categorías de residuos. Se entrenaron y evaluaron dos modelos de detección de objetos de última generación, YOLOv8m y YOLOv10m, utilizando una división fija de 70/15/15 para entrenamiento-validación-prueba. Bajo esta configuración, YOLOv8m logró un mAP@50 del 90.5% y un mAP@50-95 del 87.1%, superando ligeramente a YOLOv10m (89.5% y 86.0%, respectivamente). Además, YOLOv8m demostró una eficiencia de inferencia superior, alcanzando 120 FPS en comparación con 105 FPS para YOLOv10m. Para obtener una estimación más confiable de la estabilidad del rendimiento a través de las particiones de datos, se realizó una validación cruzada estratificada de 5 pliegues. YOLOv8m logró una Precisión promedio de 0.9324 y un mAP@50-95 promedio de 0.9315 +/- 0.0575 a través de los pliegues, lo que sugiere un rendimiento generalmente estable a través de las particiones de datos, al tiempo que revela variabilidad asociada con la heterogeneidad del conjunto de datos. Más allá de la detección de objetos, el marco integra MiniGPT-4 para generar descripciones textuales contextuales de los elementos de residuos detectados, mejorando así la interpretabilidad semántica y el compromiso del usuario. Además, se incorpora GPT-5 Vision como un módulo de clasificación semántica auxiliar estructurada y sugerencia de categorías que analiza recortes de objetos y escenas de múltiples clases, produciendo salidas en formato JSON restringido que incluyen etiquetas de categoría, descripciones concisas e indicadores de reciclabilidad. En general, el pipeline propuesto YOLOv8-MiniGPT-4-GPT-5 Vision muestra que combinar una detección precisa en tiempo real con un razonamiento semántico multimodal puede mejorar la interpretabilidad y apoyar un análisis de residuos interactivo y semánticamente enriquecido en escenarios de monitoreo ambiental y de ciudades inteligentes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro