Priv-IQ: un benchmark y evaluación comparativa de modelos multimodales grandes sobre competencias de privacidad

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Priv-IQ: un benchmark y evaluación comparativa de modelos multimodales grandes sobre competencias de privacidad

Autores: Shahriar, Sakib; Dara, Rozita

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Priv-IQ: un benchmark y evaluación comparativa de modelos multimodales grandes sobre competencias de privacidad

Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Modelos de lenguaje

Inteligencia artificial

Tareas de privacidad

Benchmark Priv-IQ

Rendimiento de LLM

Competencias

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

Los modelos de lenguaje grandes (LLMs) y la inteligencia artificial generativa han demostrado capacidades notables, logrando un rendimiento a nivel humano en tareas inteligentes como exámenes médicos. A pesar de la introducción de extensas evaluaciones y referencias de LLM en disciplinas como la educación, el desarrollo de software y la inteligencia general, una perspectiva centrada en la privacidad sigue siendo poco explorada en la literatura. Introducimos Priv-IQ, una referencia multimodal integral diseñada para medir el rendimiento de LLM en diversas tareas de privacidad. Priv-IQ mide la inteligencia en privacidad al definir ocho competencias, incluyendo privacidad visual, capacidades multilingües y conocimiento de la ley de privacidad. Realizamos un estudio comparativo evaluando siete LLM prominentes, como GPT, Claude y Gemini, en la referencia Priv-IQ. Los resultados indican que aunque GPT-4o tiene un rendimiento relativamente bueno en varias competencias con una puntuación general del 77.7%, hay espacio para mejoras significativas en capacidades como la comprensión multilingüe. Además, presentamos un evaluador basado en LLM para cuantificar el rendimiento del modelo en Priv-IQ. A través de un estudio de caso y un análisis estadístico, demostramos que el rendimiento del evaluador se correlaciona estrechamente con la puntuación humana.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro