Ataques de Inyección de Prompts en Modelos de Lenguaje Grande y Sistemas de Agentes de IA: Una Revisión Exhaustiva de Vulnerabilidades, Vectores de Ataque y Mecanismos de Defensa
Autores: Gulyamov, Saidakhror; Gulyamov, Said; Rodionov, Andrey; Khursanov, Rustam; Mekhmonov, Kambariddin; Babaev, Djakhongir; Rakhimjonov, Akmaljon
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Ataques de Inyección de Prompts en Modelos de Lenguaje Grande y Sistemas de Agentes de IA: Una Revisión Exhaustiva de Vulnerabilidades, Vectores de Ataque y Mecanismos de Defensa
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje
Vulnerabilidades de seguridad
Ataques de inyección de prompts
Sistemas de agentes de IA
Protocolo de Contexto del Modelo
Marco de defensa en profundidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los modelos de lenguaje grandes (LLMs) han transformado rápidamente las aplicaciones de inteligencia artificial en diversas industrias, sin embargo, su integración en sistemas de producción ha revelado vulnerabilidades de seguridad críticas, siendo las más importantes los ataques de inyección de comandos. Esta revisión integral sintetiza investigaciones de 2023 a 2025, analizando 45 fuentes clave, informes de seguridad de la industria y exploits documentados en el mundo real. Examinamos la taxonomía de las técnicas de inyección de comandos, incluyendo el jailbreak directo y la inyección indirecta a través de contenido externo. El auge de los sistemas de agentes de IA y el Protocolo de Contexto del Modelo (MCP) ha ampliado drásticamente las superficies de ataque, introduciendo vulnerabilidades como la contaminación de herramientas y el robo de credenciales. Documentamos incidentes críticos, incluyendo la vulnerabilidad de ejecución remota de código CVE-2025-53773 de GitHub Copilot (CVSS 9.6) y la exposición de la clave de licencia de Windows de ChatGPT. La investigación demuestra que solo cinco documentos cuidadosamente elaborados pueden manipular las respuestas de la IA el 90% de las veces a través de la contaminación de Generación Aumentada por Recuperación (RAG). Proponemos PALADIN, un marco de defensa en profundidad que implementa cinco capas de protección. Esta revisión proporciona estrategias de mitigación accionables basadas en el OWASP Top 10 para Aplicaciones LLM 2025, identifica limitaciones fundamentales incluyendo el problema de la naturaleza estocástica y la paradoja de alineación, y propone direcciones de investigación para sistemas de IA arquitectónicamente seguros. Nuestro análisis revela que la inyección de comandos representa una vulnerabilidad arquitectónica fundamental que requiere enfoques de defensa en profundidad en lugar de soluciones singulares.
Descripción
Los modelos de lenguaje grandes (LLMs) han transformado rápidamente las aplicaciones de inteligencia artificial en diversas industrias, sin embargo, su integración en sistemas de producción ha revelado vulnerabilidades de seguridad críticas, siendo las más importantes los ataques de inyección de comandos. Esta revisión integral sintetiza investigaciones de 2023 a 2025, analizando 45 fuentes clave, informes de seguridad de la industria y exploits documentados en el mundo real. Examinamos la taxonomía de las técnicas de inyección de comandos, incluyendo el jailbreak directo y la inyección indirecta a través de contenido externo. El auge de los sistemas de agentes de IA y el Protocolo de Contexto del Modelo (MCP) ha ampliado drásticamente las superficies de ataque, introduciendo vulnerabilidades como la contaminación de herramientas y el robo de credenciales. Documentamos incidentes críticos, incluyendo la vulnerabilidad de ejecución remota de código CVE-2025-53773 de GitHub Copilot (CVSS 9.6) y la exposición de la clave de licencia de Windows de ChatGPT. La investigación demuestra que solo cinco documentos cuidadosamente elaborados pueden manipular las respuestas de la IA el 90% de las veces a través de la contaminación de Generación Aumentada por Recuperación (RAG). Proponemos PALADIN, un marco de defensa en profundidad que implementa cinco capas de protección. Esta revisión proporciona estrategias de mitigación accionables basadas en el OWASP Top 10 para Aplicaciones LLM 2025, identifica limitaciones fundamentales incluyendo el problema de la naturaleza estocástica y la paradoja de alineación, y propone direcciones de investigación para sistemas de IA arquitectónicamente seguros. Nuestro análisis revela que la inyección de comandos representa una vulnerabilidad arquitectónica fundamental que requiere enfoques de defensa en profundidad en lugar de soluciones singulares.