Mejorando la Detección de Texto Causal Usando Conjuntos de Aprendizaje Automático Ponderados por Incertidumbre
Autores: K B, Sivachandra; Mohan, Neethu; Kar, Mithun Kumar; O K, Sikha; S, Sachin Kumar
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Mejorando la Detección de Texto Causal Usando Conjuntos de Aprendizaje Automático Ponderados por Incertidumbre
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Inferencia causal
Datos de texto
Incertidumbre
Arquitectura de ensamblaje
Incrustaciones
Clasificadores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La inferencia causal en datos textuales ha sido un objetivo exigente en el campo del procesamiento del lenguaje natural, principalmente debido a la ambigüedad intrínseca y la sensibilidad al contexto inherentes a los datos, lo que induce incertidumbre. Disminuir esta incertidumbre es esencial para identificar conexiones causales fiables y avanzar en la consistencia predictiva. En esta investigación, introducimos una arquitectura de conjunto consciente de la incertidumbre que combina múltiples esquemas de incrustación de texto con clasificadores tanto lineales como no lineales para mejorar la detección causal de texto. Se emplearon incrustaciones tanto escasas como a nivel neuronal, y luego se combinaron con un enfoque de ponderación de conjunto basado en dos técnicas de estimación de incertidumbre, a saber, la basada en entropía y la basada en la divergencia KL. A diferencia de los métodos de conjunto convencionales con estrategias de votación uniformes o fijas, nuestro enfoque asigna pesos inversamente proporcionales a la incertidumbre del clasificador, asegurando que los modelos confiables ejerzan una mayor influencia en las decisiones finales. Nuestros resultados muestran que TF-IDF, a través de su efectivo esquema de ponderación de frecuencia de palabras, supera consistentemente a otras técnicas de incrustación, logrando un mejor rendimiento en clasificadores tanto lineales como no lineales en ambos conjuntos de datos (News Corpus y grupo CausalLM-Adjetivo). Los resultados experimentales muestran que nuestro enfoque de conjunto consciente de la incertidumbre mejora tanto la calibración como las predicciones de confianza. La ponderación basada en entropía mejora la confianza en el caso de clasificadores lineales con valores de precisión, F1-score, entropía y confianza en la predicción de 94.3%, 94.0%, 0.382 y 0.774, respectivamente, mientras que en el caso de clasificadores no lineales, la ponderación basada en la divergencia KL adquiere un mejor rendimiento con una precisión del 97.6%, un F1-score del 97.2%, un valor medio de KL de alrededor de 0.055 y un LogLoss de 0.221.
Descripción
La inferencia causal en datos textuales ha sido un objetivo exigente en el campo del procesamiento del lenguaje natural, principalmente debido a la ambigüedad intrínseca y la sensibilidad al contexto inherentes a los datos, lo que induce incertidumbre. Disminuir esta incertidumbre es esencial para identificar conexiones causales fiables y avanzar en la consistencia predictiva. En esta investigación, introducimos una arquitectura de conjunto consciente de la incertidumbre que combina múltiples esquemas de incrustación de texto con clasificadores tanto lineales como no lineales para mejorar la detección causal de texto. Se emplearon incrustaciones tanto escasas como a nivel neuronal, y luego se combinaron con un enfoque de ponderación de conjunto basado en dos técnicas de estimación de incertidumbre, a saber, la basada en entropía y la basada en la divergencia KL. A diferencia de los métodos de conjunto convencionales con estrategias de votación uniformes o fijas, nuestro enfoque asigna pesos inversamente proporcionales a la incertidumbre del clasificador, asegurando que los modelos confiables ejerzan una mayor influencia en las decisiones finales. Nuestros resultados muestran que TF-IDF, a través de su efectivo esquema de ponderación de frecuencia de palabras, supera consistentemente a otras técnicas de incrustación, logrando un mejor rendimiento en clasificadores tanto lineales como no lineales en ambos conjuntos de datos (News Corpus y grupo CausalLM-Adjetivo). Los resultados experimentales muestran que nuestro enfoque de conjunto consciente de la incertidumbre mejora tanto la calibración como las predicciones de confianza. La ponderación basada en entropía mejora la confianza en el caso de clasificadores lineales con valores de precisión, F1-score, entropía y confianza en la predicción de 94.3%, 94.0%, 0.382 y 0.774, respectivamente, mientras que en el caso de clasificadores no lineales, la ponderación basada en la divergencia KL adquiere un mejor rendimiento con una precisión del 97.6%, un F1-score del 97.2%, un valor medio de KL de alrededor de 0.055 y un LogLoss de 0.221.