logo móvil
Contáctanos

Multimodal data fusion para datos tabulares y textuales: zero-shot, few-shot y fine-tuning de modelos transformadores pre-entrenados generativos

Autores: Jaradat, Shadi; Elhenawy, Mohammed; Nayak, Richi; Paz, Alexander; Ashqar, Huthaifa I.; Glaser, Sebastien

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Multimodal data fusion para datos tabulares y textuales: zero-shot, few-shot y fine-tuning de modelos transformadores pre-entrenados generativos


Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Análisis de seguridad vial
Fusión de datos multimodal
GPT-4.5
Aprendizaje de pocas muestras
Predicción de la gravedad de los accidentes
Clasificación de la culpa del conductor

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
En el análisis de seguridad vial, investigaciones previas han a menudo se enfocado en datos tabulares o narrativas de choques de forma aislada, descuidando los posibles beneficios de un enfoque híbrido multimodal. Este estudio presenta el marco de Fusión de Datos Multimodal (MDF), que fusiona datos tabulares con narrativas textuales aprovechando Modelos de Lenguaje Avanzados (LLMs) como GPT-2, GPT-3.5 y GPT-4.5, utilizando estrategias de aprendizaje de cero disparos (ZS), pocos disparos (FS) y ajuste fino (FT). Empleamos el aprendizaje de pocos disparos con GPT-4.5 para generar nuevas etiquetas para el análisis de choques de tráfico, como la falla del conductor, acciones del conductor y factores del choque, junto con la etiqueta existente para la gravedad. Nuestra metodología fue probada en datos de choques de la Patrulla de Carreteras del Estado de Missouri, demostrando mejoras significativas en el rendimiento del modelo. GPT-2 (ajustado fino) se utilizó como modelo de referencia, contra el cual se evaluaron modelos más avanzados. El aprendizaje de pocos disparos de GPT-4.5 logró un 98.9% de precisión para la predicción de la gravedad del choque y un 98.1% de precisión para la clasificación de la falla del conductor. En la extracción de factores de choque, GPT-4.5 de pocos disparos logró el puntaje de Jaccard más alto (82.9%), superando a GPT-3.5 y a los modelos de GPT-2 ajustados finamente. De manera similar, en la extracción de acciones del conductor, GPT-4.5 de pocos disparos obtuvo un puntaje de Jaccard de 73.1%, mientras que GPT-2 ajustado finamente le siguió de cerca con un 72.2%, demostrando que el ajuste fino específico de la tarea puede lograr un rendimiento cercano a los modelos de última generación cuando se adapta a datos específicos del dominio. Estos hallazgos resaltan el rendimiento superior del aprendizaje de pocos disparos de GPT-4.5, particularmente en tareas de clasificación y extracción de información, al mismo tiempo que subrayan la efectividad del ajuste fino en conjuntos de datos específicos del dominio para cerrar brechas de rendimiento con modelos más avanzados. El éxito del marco MDF demuestra su potencial para aplicaciones más amplias más allá del análisis de choques de tráfico, especialmente en dominios donde los datos etiquetados son escasos y la modelización predictiva es esencial.

Otros recursos que podrían interesarte

Temas Virtualpro