Aprendizaje multimodal de tres vías con modalidades severamente faltantes
Autores: Wang, Hanrui; Fang, Yu; Wang, Xin; Min, Fan
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Aprendizaje multimodal de tres vías con modalidades severamente faltantes
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modalidades faltantes
Sistemas de aprendizaje multimodal
Procesamiento consciente de la incertidumbre
Decisión de tres vías
Estrategia de imputación
Mejora adaptativa de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las modalidades faltantes siguen siendo un gran obstáculo para el despliegue en el mundo real de los sistemas de aprendizaje multimodal, ya que las entradas incompletas pueden degradar sustancialmente el rendimiento del modelo. Los métodos existentes a menudo sufren de imputación sesgada bajo altas tasas de faltantes y carecen de un procesamiento diferenciado consciente de la incertidumbre. Inspirados en la decisión de tres vías, un marco para manejar la incertidumbre añadiendo una opción de aplazamiento a la aceptación y el rechazo, proponemos el aprendizaje multimodal de tres vías con modalidades severamente faltantes (3WML-SMMs), un nuevo marco que introduce un mecanismo de decisión de tres vías tanto en la imputación de modalidades faltantes como en la regularización de características por primera vez. Específicamente, 3WML-SMM trata la varianza no solo como una medida descriptiva de incertidumbre, sino como una señal de decisión para el procesamiento adaptativo. Basado en esta idea, el marco incorpora (1) una estrategia de imputación de tres vías guiada por la varianza con decisiones de aceptar-aplazar-rechazar para reducir la reconstrucción poco confiable cuando solo hay un número limitado de muestras completas disponibles y (2) un módulo de mejora de características adaptativo por dimensión que realiza una regularización detallada de acuerdo con la incertidumbre de perturbación. Los experimentos en los conjuntos de datos CMU Multimodal Opinion Sentiment Intensity (CMU-MOSI) y Multimodal Internet Movie Database (MM-IMDb) muestran que 3WML-SMM supera consistentemente a las líneas base representativas, incluidos los métodos basados en reconstrucción, los métodos multimodales de entrada completa y los métodos específicos de modalidad faltante bajo configuraciones severas de modalidades faltantes, con mejoras estadísticamente significativas sobre la línea base de aprendizaje multimodal con modalidad severamente faltante (SMIL) (p<0.05). Estos resultados demuestran la efectividad del marco propuesto, incluso en configuraciones extremas donde solo está disponible el 10% de la modalidad de texto.
Descripción
Las modalidades faltantes siguen siendo un gran obstáculo para el despliegue en el mundo real de los sistemas de aprendizaje multimodal, ya que las entradas incompletas pueden degradar sustancialmente el rendimiento del modelo. Los métodos existentes a menudo sufren de imputación sesgada bajo altas tasas de faltantes y carecen de un procesamiento diferenciado consciente de la incertidumbre. Inspirados en la decisión de tres vías, un marco para manejar la incertidumbre añadiendo una opción de aplazamiento a la aceptación y el rechazo, proponemos el aprendizaje multimodal de tres vías con modalidades severamente faltantes (3WML-SMMs), un nuevo marco que introduce un mecanismo de decisión de tres vías tanto en la imputación de modalidades faltantes como en la regularización de características por primera vez. Específicamente, 3WML-SMM trata la varianza no solo como una medida descriptiva de incertidumbre, sino como una señal de decisión para el procesamiento adaptativo. Basado en esta idea, el marco incorpora (1) una estrategia de imputación de tres vías guiada por la varianza con decisiones de aceptar-aplazar-rechazar para reducir la reconstrucción poco confiable cuando solo hay un número limitado de muestras completas disponibles y (2) un módulo de mejora de características adaptativo por dimensión que realiza una regularización detallada de acuerdo con la incertidumbre de perturbación. Los experimentos en los conjuntos de datos CMU Multimodal Opinion Sentiment Intensity (CMU-MOSI) y Multimodal Internet Movie Database (MM-IMDb) muestran que 3WML-SMM supera consistentemente a las líneas base representativas, incluidos los métodos basados en reconstrucción, los métodos multimodales de entrada completa y los métodos específicos de modalidad faltante bajo configuraciones severas de modalidades faltantes, con mejoras estadísticamente significativas sobre la línea base de aprendizaje multimodal con modalidad severamente faltante (SMIL) (p<0.05). Estos resultados demuestran la efectividad del marco propuesto, incluso en configuraciones extremas donde solo está disponible el 10% de la modalidad de texto.