logo móvil
Contáctanos

Evaluación de viabilidad de modelos de lenguaje grandes seguros fuera de línea con generación aumentada por recuperación para inferencia solo con CPU

Autores: Tyndall, Erick; Wagner, Torrey; Gayheart, Colleen; Some, Alexandre; Langhals, Brent

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Evaluación de viabilidad de modelos de lenguaje grandes seguros fuera de línea con generación aumentada por recuperación para inferencia solo con CPU


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Avances
Modelos de lenguaje
Generación aumentada por recuperación
Hardware solo de CPU
Respuesta a preguntas
Resumir

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los recientes avances en modelos de lenguaje grandes y generación aumentada por recuperación, un método que mejora los modelos de lenguaje al integrar documentos externos recuperados, han creado oportunidades para implementar IA en entornos seguros y fuera de línea. Este estudio explora la viabilidad de utilizar modelos de lenguaje grandes con pesos abiertos alojados localmente y capacidades de generación aumentada por recuperación en hardware solo de CPU para tareas como respuesta a preguntas y resumido. La evaluación refleja las limitaciones típicas en entornos como oficinas gubernamentales, donde el acceso a internet y la aceleración por GPU pueden estar restringidos. Se probaron cuatro modelos utilizando LocalGPT, un marco de generación aumentada por recuperación enfocado en la privacidad, en dos sistemas de grado de consumo: una laptop y una estación de trabajo. Un libro de texto sobre gestión de proyectos técnicos sirvió como material de referencia. El rendimiento se evaluó utilizando métricas BERTScore y METEOR, junto con latencia y tiempo de respuesta. Todos los modelos demostraron un rendimiento sólido en la respuesta directa a preguntas, proporcionando respuestas precisas a pesar de los recursos computacionales limitados. Sin embargo, las tareas de resumido mostraron una mayor variabilidad, con modelos que a veces producían salidas vagas o incompletas. El análisis también mostró que la cuantización y las diferencias de hardware afectaron el tiempo de respuesta más que la calidad de la salida; este es un compromiso que debe considerarse en los posibles casos de uso. Este estudio no tiene como objetivo clasificar modelos, sino resaltar consideraciones prácticas en la implementación de modelos de lenguaje grandes localmente. Los hallazgos sugieren que las implementaciones seguras solo con CPU son viables para tareas estructuradas como la recuperación de hechos, aunque permanecen limitaciones para aplicaciones más generativas como el resumido. Esta evaluación centrada en la viabilidad proporciona orientación a las organizaciones que buscan utilizar modelos de lenguaje grandes locales bajo restricciones de privacidad y recursos y sienta las bases para futuras investigaciones en sistemas de IA seguros y fuera de línea.

Otros recursos que podrían interesarte

Temas Virtualpro