Más allá de la Entropía Cruzada: Pérdida de Teoría de la Información Mínima Descontada (DLITE) y el Impacto de las Funciones de Pérdida en el Reconocimiento de Entidades Nombradas Impulsado por IA
Autores: Pascua, Sonia; Pan, Michael; Ke, Weimao
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Más allá de la Entropía Cruzada: Pérdida de Teoría de la Información Mínima Descontada (DLITE) y el Impacto de las Funciones de Pérdida en el Reconocimiento de Entidades Nombradas Impulsado por IA
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Funciones de pérdida
Comportamiento del modelo
Reconocimiento de entidades nombradas
Pérdida dlite
Basado en transformadores
Comportamiento de optimización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las funciones de pérdida juegan un papel significativo en la configuración del comportamiento del modelo en el aprendizaje automático, sin embargo, sus implicaciones de diseño siguen siendo poco exploradas en tareas de procesamiento de lenguaje natural como el Reconocimiento de Entidades Nombradas (NER). Este estudio investiga el rendimiento y el comportamiento de optimización de cinco funciones de pérdida: L1, L2, Entropía Cruzada (CE), Divergencia KL (KL) y la función de pérdida propuesta DLITE (Teoría de la Información Mínima Descontada de la Entropía) dentro de modelos NER basados en transformadores. DLITE introduce un enfoque de penalización acotado y de descuento de entropía, priorizando el recuerdo y la estabilidad del entrenamiento, especialmente en condiciones de datos ruidosos o desbalanceados. Realizamos evaluaciones empíricas en tres conjuntos de datos de referencia de NER: NER Básico, CoNLL-2003 y el Corpus Amplio de Twitter. Mientras que CE y KL lograron las puntuaciones F1 ponderadas más altas en conjuntos de datos limpios, la función de pérdida DLITE demostró ventajas distintas en el recuerdo macro, el equilibrio entre precisión y recuerdo, y la estabilidad de convergencia, particularmente en entornos ruidosos. Nuestros hallazgos sugieren que la elección de la función de pérdida debe alinearse con las prioridades específicas de la aplicación, como minimizar los falsos negativos o gestionar la incertidumbre. DLITE añade una nueva dimensión al diseño del modelo al permitir predicciones más medidas, convirtiéndola en una alternativa valiosa en implementaciones de PLN en situaciones críticas o del mundo real.
Descripción
Las funciones de pérdida juegan un papel significativo en la configuración del comportamiento del modelo en el aprendizaje automático, sin embargo, sus implicaciones de diseño siguen siendo poco exploradas en tareas de procesamiento de lenguaje natural como el Reconocimiento de Entidades Nombradas (NER). Este estudio investiga el rendimiento y el comportamiento de optimización de cinco funciones de pérdida: L1, L2, Entropía Cruzada (CE), Divergencia KL (KL) y la función de pérdida propuesta DLITE (Teoría de la Información Mínima Descontada de la Entropía) dentro de modelos NER basados en transformadores. DLITE introduce un enfoque de penalización acotado y de descuento de entropía, priorizando el recuerdo y la estabilidad del entrenamiento, especialmente en condiciones de datos ruidosos o desbalanceados. Realizamos evaluaciones empíricas en tres conjuntos de datos de referencia de NER: NER Básico, CoNLL-2003 y el Corpus Amplio de Twitter. Mientras que CE y KL lograron las puntuaciones F1 ponderadas más altas en conjuntos de datos limpios, la función de pérdida DLITE demostró ventajas distintas en el recuerdo macro, el equilibrio entre precisión y recuerdo, y la estabilidad de convergencia, particularmente en entornos ruidosos. Nuestros hallazgos sugieren que la elección de la función de pérdida debe alinearse con las prioridades específicas de la aplicación, como minimizar los falsos negativos o gestionar la incertidumbre. DLITE añade una nueva dimensión al diseño del modelo al permitir predicciones más medidas, convirtiéndola en una alternativa valiosa en implementaciones de PLN en situaciones críticas o del mundo real.