Aplicación de AIGC basado en prompts derivados de LMM en el monitoreo de grietas en concreto mediante drones de baja altitud
Autores: Pan, Shijun; Fan, Zhun; Yoshida, Keisuke; Qin, Shujia; Kojima, Takashi; Nishiyama, Satoshi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aplicación de AIGC basado en prompts derivados de LMM en el monitoreo de grietas en concreto mediante drones de baja altitud
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Modelos multimodales grandes
Aplicaciones de ingeniería civil
Contenido generado artificialmente
Modelos generativos de texto a imagen
Generación de imágenes basada en drones
Mapeo de distribución de grietas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los últimos años, los grandes modelos multimodales (LMM), como ChatGPT 4o y DeepSeek R1, sistemas de inteligencia artificial capaces de interacción multimodal (por ejemplo, imagen y texto) entre humanos y computadoras, han ganado terreno en aplicaciones de ingeniería industrial y civil. Al mismo tiempo, la insuficiente cantidad de datos de vista de dron en el mundo real (específicamente imágenes de alta resolución a corta distancia) para escenarios de ingeniería civil ha aumentado la importancia del contenido generado artificialmente (AIGC) o datos sintéticos como entradas suplementarias. El AIGC se produce típicamente a través de modelos generativos de texto a imagen (por ejemplo, Stable Diffusion, DALL-E) guiados por indicaciones definidas por el usuario. Este estudio aprovecha los LMM para interpretar parámetros clave para la generación de imágenes basadas en drones (por ejemplo, color, textura, composición de la escena, estilo fotográfico) y aplica ingeniería de indicaciones para sistematizar estos parámetros. Las indicaciones generadas por LMM resultantes se utilizaron para sintetizar datos de entrenamiento para un modelo de segmentación You Only Look Once versión 8 (YOLOv8-seg). Para abordar la necesidad de un mapeo detallado de la distribución de grietas en el monitoreo basado en drones a baja altitud, se evaluó el modelo YOLOv8-seg entrenado en conjuntos de datos de referencia de grietas a corta distancia. Los resultados experimentales confirman que el AIGC impulsado por LMM es un suplemento viable para el monitoreo de grietas en drones a baja altitud, logrando más del 80% de precisión en la clasificación (imágenes con/sin grietas) en un umbral de confianza de 0.5.
Descripción
En los últimos años, los grandes modelos multimodales (LMM), como ChatGPT 4o y DeepSeek R1, sistemas de inteligencia artificial capaces de interacción multimodal (por ejemplo, imagen y texto) entre humanos y computadoras, han ganado terreno en aplicaciones de ingeniería industrial y civil. Al mismo tiempo, la insuficiente cantidad de datos de vista de dron en el mundo real (específicamente imágenes de alta resolución a corta distancia) para escenarios de ingeniería civil ha aumentado la importancia del contenido generado artificialmente (AIGC) o datos sintéticos como entradas suplementarias. El AIGC se produce típicamente a través de modelos generativos de texto a imagen (por ejemplo, Stable Diffusion, DALL-E) guiados por indicaciones definidas por el usuario. Este estudio aprovecha los LMM para interpretar parámetros clave para la generación de imágenes basadas en drones (por ejemplo, color, textura, composición de la escena, estilo fotográfico) y aplica ingeniería de indicaciones para sistematizar estos parámetros. Las indicaciones generadas por LMM resultantes se utilizaron para sintetizar datos de entrenamiento para un modelo de segmentación You Only Look Once versión 8 (YOLOv8-seg). Para abordar la necesidad de un mapeo detallado de la distribución de grietas en el monitoreo basado en drones a baja altitud, se evaluó el modelo YOLOv8-seg entrenado en conjuntos de datos de referencia de grietas a corta distancia. Los resultados experimentales confirman que el AIGC impulsado por LMM es un suplemento viable para el monitoreo de grietas en drones a baja altitud, logrando más del 80% de precisión en la clasificación (imágenes con/sin grietas) en un umbral de confianza de 0.5.