Análisis simbólico y depuración guiada por LLM de modelos de gemelos digitales con ASP Chef y DTDL
Autores: Alviano, Mario; Guarasci, Paola
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Análisis simbólico y depuración guiada por LLM de modelos de gemelos digitales con ASP Chef y DTDL
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Lenguaje de definición de gemelos digitales
Chef asp
Mapeo estructurado de dtdl a asp
Detección de errores
Clases de restricciones
Capa simbólica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
DTDL (Lenguaje de Definición de Gemelos Digitales) no proporciona ningún mecanismo para el razonamiento lógico o la verificación de restricciones sobre modelos de gemelos digitales. Integramos DTDL con ASP Chef, una plataforma de Programación de Conjuntos de Respuestas (ASP) basada en la web, a través de un mapeo estructurado de DTDL a ASP y tres operaciones dedicadas: @DTDL/Parse para la generación de hechos, @DTDL/Analysis para métricas estructurales y @DTDL/Debug para la validación simbólica con reparación guiada por LLM. La decisión clave de diseño es que la detección de errores es simbólica y determinista dentro del conjunto implementado de clases de restricciones; un modelo de lenguaje se invoca solo después de que la capa de ASP ha producido un diagnóstico concreto y fundamentado, manteniendo el límite de corrección con la capa simbólica. Las garantías de solidez y completitud están limitadas a estas clases de restricciones; una prueba formal se deja como trabajo futuro. Ilustramos el marco en dos casos de uso agrícola y reportamos una evaluación de prueba de concepto sobre 99 diagnósticos que abarcan 21 clases de errores en cuatro dominios. Se utilizan tres métricas binarias: json_valid y entity_recall se calculan mecánicamente; la calidad de la solución (judge_correct) es evaluada por un juez LLM independiente (Claude Sonnet 4.6). El flujo de trabajo completo fundamentado logra un 90% de judge_correct y un 86% de json_valid; una línea base de ablación justa -mismo LLM y mensaje del sistema, pero tipo de error y nombre de entidad en lenguaje natural sin diagnósticos estructurados- logra un 77% y un 75%, respectivamente. La diferencia es consistente entre tres jueces independientes y estadísticamente significativa (McNemar p<0.01), pero la fiabilidad inter-juez de judge_correct es limitada (rango de 0.00 a 0.44), por lo que los resultados deben interpretarse como evidencia direccional en lugar de estimaciones precisas del efecto. Excluyendo la clase dominante isolated_interface (n=28, puntuación máxima), la estimación conservadora es del 87% frente al 79% en los 71 diagnósticos restantes. Estos resultados constituyen una prueba de concepto preliminar limitada a un pequeño número de modelos, unos pocos dominios de aplicación y una única configuración de LLM; los resultados no se generalizan más allá de este entorno específico. La métrica judge_correct es evaluada por LLM-como-juez y no presenta un acuerdo perfecto entre anotadores.
Descripción
DTDL (Lenguaje de Definición de Gemelos Digitales) no proporciona ningún mecanismo para el razonamiento lógico o la verificación de restricciones sobre modelos de gemelos digitales. Integramos DTDL con ASP Chef, una plataforma de Programación de Conjuntos de Respuestas (ASP) basada en la web, a través de un mapeo estructurado de DTDL a ASP y tres operaciones dedicadas: @DTDL/Parse para la generación de hechos, @DTDL/Analysis para métricas estructurales y @DTDL/Debug para la validación simbólica con reparación guiada por LLM. La decisión clave de diseño es que la detección de errores es simbólica y determinista dentro del conjunto implementado de clases de restricciones; un modelo de lenguaje se invoca solo después de que la capa de ASP ha producido un diagnóstico concreto y fundamentado, manteniendo el límite de corrección con la capa simbólica. Las garantías de solidez y completitud están limitadas a estas clases de restricciones; una prueba formal se deja como trabajo futuro. Ilustramos el marco en dos casos de uso agrícola y reportamos una evaluación de prueba de concepto sobre 99 diagnósticos que abarcan 21 clases de errores en cuatro dominios. Se utilizan tres métricas binarias: json_valid y entity_recall se calculan mecánicamente; la calidad de la solución (judge_correct) es evaluada por un juez LLM independiente (Claude Sonnet 4.6). El flujo de trabajo completo fundamentado logra un 90% de judge_correct y un 86% de json_valid; una línea base de ablación justa -mismo LLM y mensaje del sistema, pero tipo de error y nombre de entidad en lenguaje natural sin diagnósticos estructurados- logra un 77% y un 75%, respectivamente. La diferencia es consistente entre tres jueces independientes y estadísticamente significativa (McNemar p<0.01), pero la fiabilidad inter-juez de judge_correct es limitada (rango de 0.00 a 0.44), por lo que los resultados deben interpretarse como evidencia direccional en lugar de estimaciones precisas del efecto. Excluyendo la clase dominante isolated_interface (n=28, puntuación máxima), la estimación conservadora es del 87% frente al 79% en los 71 diagnósticos restantes. Estos resultados constituyen una prueba de concepto preliminar limitada a un pequeño número de modelos, unos pocos dominios de aplicación y una única configuración de LLM; los resultados no se generalizan más allá de este entorno específico. La métrica judge_correct es evaluada por LLM-como-juez y no presenta un acuerdo perfecto entre anotadores.