logo móvil
Contáctanos

Priv-IQ: un benchmark y evaluación comparativa de modelos multimodales grandes sobre competencias de privacidad

Autores: Shahriar, Sakib; Dara, Rozita

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Priv-IQ: un benchmark y evaluación comparativa de modelos multimodales grandes sobre competencias de privacidad


Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Modelos de lenguaje
Inteligencia artificial
Tareas de privacidad
Benchmark Priv-IQ
Rendimiento de LLM
Competencias

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
Los modelos de lenguaje grandes (LLMs) y la inteligencia artificial generativa han demostrado capacidades notables, logrando un rendimiento a nivel humano en tareas inteligentes como exámenes médicos. A pesar de la introducción de extensas evaluaciones y referencias de LLM en disciplinas como la educación, el desarrollo de software y la inteligencia general, una perspectiva centrada en la privacidad sigue siendo poco explorada en la literatura. Introducimos Priv-IQ, una referencia multimodal integral diseñada para medir el rendimiento de LLM en diversas tareas de privacidad. Priv-IQ mide la inteligencia en privacidad al definir ocho competencias, incluyendo privacidad visual, capacidades multilingües y conocimiento de la ley de privacidad. Realizamos un estudio comparativo evaluando siete LLM prominentes, como GPT, Claude y Gemini, en la referencia Priv-IQ. Los resultados indican que aunque GPT-4o tiene un rendimiento relativamente bueno en varias competencias con una puntuación general del 77.7%, hay espacio para mejoras significativas en capacidades como la comprensión multilingüe. Además, presentamos un evaluador basado en LLM para cuantificar el rendimiento del modelo en Priv-IQ. A través de un estudio de caso y un análisis estadístico, demostramos que el rendimiento del evaluador se correlaciona estrechamente con la puntuación humana.

Otros recursos que podrían interesarte

Temas Virtualpro