logo móvil
Contáctanos

Aprendizaje multimodal de tres vías con modalidades severamente faltantes

Autores: Wang, Hanrui; Fang, Yu; Wang, Xin; Min, Fan

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Aprendizaje multimodal de tres vías con modalidades severamente faltantes


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modalidades faltantes
Sistemas de aprendizaje multimodal
Procesamiento consciente de la incertidumbre
Decisión de tres vías
Estrategia de imputación
Mejora adaptativa de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las modalidades faltantes siguen siendo un gran obstáculo para el despliegue en el mundo real de los sistemas de aprendizaje multimodal, ya que las entradas incompletas pueden degradar sustancialmente el rendimiento del modelo. Los métodos existentes a menudo sufren de imputación sesgada bajo altas tasas de faltantes y carecen de un procesamiento diferenciado consciente de la incertidumbre. Inspirados en la decisión de tres vías, un marco para manejar la incertidumbre añadiendo una opción de aplazamiento a la aceptación y el rechazo, proponemos el aprendizaje multimodal de tres vías con modalidades severamente faltantes (3WML-SMMs), un nuevo marco que introduce un mecanismo de decisión de tres vías tanto en la imputación de modalidades faltantes como en la regularización de características por primera vez. Específicamente, 3WML-SMM trata la varianza no solo como una medida descriptiva de incertidumbre, sino como una señal de decisión para el procesamiento adaptativo. Basado en esta idea, el marco incorpora (1) una estrategia de imputación de tres vías guiada por la varianza con decisiones de aceptar-aplazar-rechazar para reducir la reconstrucción poco confiable cuando solo hay un número limitado de muestras completas disponibles y (2) un módulo de mejora de características adaptativo por dimensión que realiza una regularización detallada de acuerdo con la incertidumbre de perturbación. Los experimentos en los conjuntos de datos CMU Multimodal Opinion Sentiment Intensity (CMU-MOSI) y Multimodal Internet Movie Database (MM-IMDb) muestran que 3WML-SMM supera consistentemente a las líneas base representativas, incluidos los métodos basados en reconstrucción, los métodos multimodales de entrada completa y los métodos específicos de modalidad faltante bajo configuraciones severas de modalidades faltantes, con mejoras estadísticamente significativas sobre la línea base de aprendizaje multimodal con modalidad severamente faltante (SMIL) (p<0.05). Estos resultados demuestran la efectividad del marco propuesto, incluso en configuraciones extremas donde solo está disponible el 10% de la modalidad de texto.

Otros recursos que podrían interesarte

Temas Virtualpro