Detección Híbrida Consciente del Contexto de Cross-Site Scripting Basado en DOM a través de Modelado Semántico en Tiempo de Ejecución
Autores: Iavich, Maksim; Botchorishvili, Daviti; Lopata, Audrius
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Detección Híbrida Consciente del Contexto de Cross-Site Scripting Basado en DOM a través de Modelado Semántico en Tiempo de Ejecución
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Inyección de scripts en sitios cruzados basada en DOM
Vulnerabilidad
Aprendizaje automático
Marco de detección
Análisis semántico en tiempo de ejecución
Compensación entre precisión y eficiencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La inyección de scripts en el lado del documento (DOM XSS) sigue siendo una vulnerabilidad crítica en las aplicaciones web debido a su manifestación exclusiva dentro de los contextos de ejecución del lado del cliente, lo que hace que las defensas tradicionales del lado del servidor sean ineficaces. Los enfoques existentes de aprendizaje automático logran una alta recuperación, pero sufren de una precisión críticamente baja en escenarios específicos de DOM. Los clasificadores centrados en la carga útil frecuentemente mal clasifican inyecciones sintácticamente sospechosas pero semánticamente benignas, causando altas tasas de falsos positivos. Este documento presenta un marco de detección híbrido consciente del contexto que integra el seguimiento dinámico de contaminación con el análisis semántico del DOM en tiempo de ejecución y la clasificación de aprendizaje automático ligera. La arquitectura propuesta extrae un vector de características de 42 dimensiones que combina 22 características léxicas de carga útil con 20 características de ejecución contextual que capturan la semántica de los sumideros, el tipo de elemento, la capacidad de ejecución de atributos y las propiedades del estado del DOM. Se emplea un clasificador de Bosque Aleatorio para permitir inferencias de baja latencia y demuestra potencial para implementación en tiempo real. Al modelar la explotabilidad como una función del contexto de ejecución en lugar de solo la sintaxis de la carga útil, el marco reduce significativamente los falsos positivos mientras mantiene una alta capacidad de detección. La evaluación experimental demuestra que la integración de características contextuales mejora sustancialmente la precisión en comparación con las líneas base solo de carga útil, logrando un favorable equilibrio entre precisión y eficiencia. La principal contribución radica en elevar el contexto semántico en tiempo de ejecución a un espacio de características de primera clase para la detección de DOM XSS, representando un cambio de la clasificación centrada en el texto hacia un modelado de seguridad consciente de la ejecución en entornos web del lado del cliente.
Descripción
La inyección de scripts en el lado del documento (DOM XSS) sigue siendo una vulnerabilidad crítica en las aplicaciones web debido a su manifestación exclusiva dentro de los contextos de ejecución del lado del cliente, lo que hace que las defensas tradicionales del lado del servidor sean ineficaces. Los enfoques existentes de aprendizaje automático logran una alta recuperación, pero sufren de una precisión críticamente baja en escenarios específicos de DOM. Los clasificadores centrados en la carga útil frecuentemente mal clasifican inyecciones sintácticamente sospechosas pero semánticamente benignas, causando altas tasas de falsos positivos. Este documento presenta un marco de detección híbrido consciente del contexto que integra el seguimiento dinámico de contaminación con el análisis semántico del DOM en tiempo de ejecución y la clasificación de aprendizaje automático ligera. La arquitectura propuesta extrae un vector de características de 42 dimensiones que combina 22 características léxicas de carga útil con 20 características de ejecución contextual que capturan la semántica de los sumideros, el tipo de elemento, la capacidad de ejecución de atributos y las propiedades del estado del DOM. Se emplea un clasificador de Bosque Aleatorio para permitir inferencias de baja latencia y demuestra potencial para implementación en tiempo real. Al modelar la explotabilidad como una función del contexto de ejecución en lugar de solo la sintaxis de la carga útil, el marco reduce significativamente los falsos positivos mientras mantiene una alta capacidad de detección. La evaluación experimental demuestra que la integración de características contextuales mejora sustancialmente la precisión en comparación con las líneas base solo de carga útil, logrando un favorable equilibrio entre precisión y eficiencia. La principal contribución radica en elevar el contexto semántico en tiempo de ejecución a un espacio de características de primera clase para la detección de DOM XSS, representando un cambio de la clasificación centrada en el texto hacia un modelado de seguridad consciente de la ejecución en entornos web del lado del cliente.