Priv-IQ: un benchmark y evaluación comparativa de modelos multimodales grandes sobre competencias de privacidad
Autores: Shahriar, Sakib; Dara, Rozita
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Priv-IQ: un benchmark y evaluación comparativa de modelos multimodales grandes sobre competencias de privacidad
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Modelos de lenguaje
Inteligencia artificial
Tareas de privacidad
Benchmark Priv-IQ
Rendimiento de LLM
Competencias
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Los modelos de lenguaje grandes (LLMs) y la inteligencia artificial generativa han demostrado capacidades notables, logrando un rendimiento a nivel humano en tareas inteligentes como exámenes médicos. A pesar de la introducción de extensas evaluaciones y referencias de LLM en disciplinas como la educación, el desarrollo de software y la inteligencia general, una perspectiva centrada en la privacidad sigue siendo poco explorada en la literatura. Introducimos Priv-IQ, una referencia multimodal integral diseñada para medir el rendimiento de LLM en diversas tareas de privacidad. Priv-IQ mide la inteligencia en privacidad al definir ocho competencias, incluyendo privacidad visual, capacidades multilingües y conocimiento de la ley de privacidad. Realizamos un estudio comparativo evaluando siete LLM prominentes, como GPT, Claude y Gemini, en la referencia Priv-IQ. Los resultados indican que aunque GPT-4o tiene un rendimiento relativamente bueno en varias competencias con una puntuación general del 77.7%, hay espacio para mejoras significativas en capacidades como la comprensión multilingüe. Además, presentamos un evaluador basado en LLM para cuantificar el rendimiento del modelo en Priv-IQ. A través de un estudio de caso y un análisis estadístico, demostramos que el rendimiento del evaluador se correlaciona estrechamente con la puntuación humana.
Descripción
Los modelos de lenguaje grandes (LLMs) y la inteligencia artificial generativa han demostrado capacidades notables, logrando un rendimiento a nivel humano en tareas inteligentes como exámenes médicos. A pesar de la introducción de extensas evaluaciones y referencias de LLM en disciplinas como la educación, el desarrollo de software y la inteligencia general, una perspectiva centrada en la privacidad sigue siendo poco explorada en la literatura. Introducimos Priv-IQ, una referencia multimodal integral diseñada para medir el rendimiento de LLM en diversas tareas de privacidad. Priv-IQ mide la inteligencia en privacidad al definir ocho competencias, incluyendo privacidad visual, capacidades multilingües y conocimiento de la ley de privacidad. Realizamos un estudio comparativo evaluando siete LLM prominentes, como GPT, Claude y Gemini, en la referencia Priv-IQ. Los resultados indican que aunque GPT-4o tiene un rendimiento relativamente bueno en varias competencias con una puntuación general del 77.7%, hay espacio para mejoras significativas en capacidades como la comprensión multilingüe. Además, presentamos un evaluador basado en LLM para cuantificar el rendimiento del modelo en Priv-IQ. A través de un estudio de caso y un análisis estadístico, demostramos que el rendimiento del evaluador se correlaciona estrechamente con la puntuación humana.