EC-MFR: Un marco colaborativo jerárquico de borde-nube para la verificación de hechos multimodal
Autores: Tao, Hao; Chen, Tao
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
EC-MFR: Un marco colaborativo jerárquico de borde-nube para la verificación de hechos multimodal
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Difusión
Desinformación multimodal
Verificación
EC-MFR
Marco jerárquico
Recuperación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La propagación de la desinformación multimodal exige una verificación que sea tanto precisa como rápida, manteniendo el conocimiento actualizado. Los modelos de lenguaje grandes son poderosos pero costosos y lentos, y su conocimiento estático puede quedar rezagado respecto a los eventos. Presentamos EC-MFR, un marco jerárquico que divide el trabajo entre el borde y la nube. El sistema primero descompone opcionalmente la afirmación en unas pocas sub-afirmaciones específicas para guiar la recuperación, recupera evidencia textual y de imagen, y luego la comprime en un pequeño conjunto de ítems de pregunta-respuesta utilizando un modelo de lenguaje multimodal ligero y cuantizado desplegado en el borde. Un verificador compacto en el borde predice una etiqueta con confianza calibrada. Si la confianza es alta, la decisión se devuelve de inmediato. Si la confianza es baja, la afirmación se envía a la nube donde la recuperación puede ampliarse y el razonamiento puede rehacerse por un verificador más fuerte. Este diseño ofrece tres beneficios fundamentales. Hace que el razonamiento sea explícito a través de ítems de pregunta-respuesta, lo que acorta los mensajes y mejora la auditabilidad. Mejora la recuperación de recuerdos a través de un paso de descomposición ligero que produce subconsultas específicas. Finalmente, permite que la mayoría de las afirmaciones fáciles se resuelvan en el borde para reducir costos y latencia, mientras se preserva la precisión en afirmaciones difíciles al permitir que la nube amplíe la evidencia y refine el razonamiento. Los experimentos en MOCHEG y AVERITEC validan el enfoque. Notablemente, EC-MFR logra una precisión altamente competitiva del 54.10% en el conjunto de datos multimodal MOCHEG, y alcanza el 68.80% en AVERITEC bajo configuraciones de recuperación realistas, superando la línea base de solo nube GPT-4o por 6.6 puntos porcentuales. Además, el perfilado a nivel de sistema en hardware de borde demuestra que EC-MFR reduce los costos de procesamiento en un 51.8% y acelera la latencia de inferencia en 2.4x para afirmaciones resueltas en el borde, confirmando un intercambio de precisión-eficiencia altamente favorable en comparación con los sistemas de verificación de hechos multimodales existentes. También formalizamos el enrutamiento y la eficiencia y analizamos la calibración y la recuperación.
Descripción
La propagación de la desinformación multimodal exige una verificación que sea tanto precisa como rápida, manteniendo el conocimiento actualizado. Los modelos de lenguaje grandes son poderosos pero costosos y lentos, y su conocimiento estático puede quedar rezagado respecto a los eventos. Presentamos EC-MFR, un marco jerárquico que divide el trabajo entre el borde y la nube. El sistema primero descompone opcionalmente la afirmación en unas pocas sub-afirmaciones específicas para guiar la recuperación, recupera evidencia textual y de imagen, y luego la comprime en un pequeño conjunto de ítems de pregunta-respuesta utilizando un modelo de lenguaje multimodal ligero y cuantizado desplegado en el borde. Un verificador compacto en el borde predice una etiqueta con confianza calibrada. Si la confianza es alta, la decisión se devuelve de inmediato. Si la confianza es baja, la afirmación se envía a la nube donde la recuperación puede ampliarse y el razonamiento puede rehacerse por un verificador más fuerte. Este diseño ofrece tres beneficios fundamentales. Hace que el razonamiento sea explícito a través de ítems de pregunta-respuesta, lo que acorta los mensajes y mejora la auditabilidad. Mejora la recuperación de recuerdos a través de un paso de descomposición ligero que produce subconsultas específicas. Finalmente, permite que la mayoría de las afirmaciones fáciles se resuelvan en el borde para reducir costos y latencia, mientras se preserva la precisión en afirmaciones difíciles al permitir que la nube amplíe la evidencia y refine el razonamiento. Los experimentos en MOCHEG y AVERITEC validan el enfoque. Notablemente, EC-MFR logra una precisión altamente competitiva del 54.10% en el conjunto de datos multimodal MOCHEG, y alcanza el 68.80% en AVERITEC bajo configuraciones de recuperación realistas, superando la línea base de solo nube GPT-4o por 6.6 puntos porcentuales. Además, el perfilado a nivel de sistema en hardware de borde demuestra que EC-MFR reduce los costos de procesamiento en un 51.8% y acelera la latencia de inferencia en 2.4x para afirmaciones resueltas en el borde, confirmando un intercambio de precisión-eficiencia altamente favorable en comparación con los sistemas de verificación de hechos multimodales existentes. También formalizamos el enrutamiento y la eficiencia y analizamos la calibración y la recuperación.