Manejo de desequilibrio de clase y superposición de clase en aplicaciones de aprendizaje automático para la predicción de trabajo no declarado
Autores: Alogogianni, Eleni; Virvou, Maria
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Manejo de desequilibrio de clase y superposición de clase en aplicaciones de aprendizaje automático para la predicción de trabajo no declarado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Trabajo no declarado
Inspectorías de trabajo
Evasión fiscal
Técnicas de aprendizaje automático
Desequilibrio de clases
Técnicas de ingeniería de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
El trabajo no declarado es un asunto socioeconómico compuesto que afecta gravemente al bienestar de los trabajadores, las empresas legítimas y el estado al generar competencia desleal en el mercado laboral y causar considerables pérdidas de ingresos estatales por evasión fiscal. Los inspectorados laborales tienen la tarea de abordar eficazmente este problema, pero generalmente carecen de recursos adecuados y herramientas apropiadas, aunque poseen grandes volúmenes de datos de inspección pasados que, si se procesan adecuadamente a través de técnicas innovadoras de aprendizaje automático, pueden proporcionar información comprensible sobre la extensión y los patrones predominantes del trabajo no declarado y herramientas eficientes para abordarlo. Tales conjuntos de datos suelen ser desequilibrados en cuanto al trabajo no declarado y contienen descubrimientos de inspección superpuestos, dos problemas que dificultan el proceso de aprendizaje. Esta investigación señala los problemas de desequilibrio de clase y superposición de clase en este ámbito y aplica combinaciones de técnicas de ingeniería de datos para abordarlos utilizando un conjunto de datos de 16.7 K inspecciones laborales reales. Se emplean tres algoritmos de clasificación asociativa, y se construyen y evalúan múltiples clasificadores por su capacidad predictiva e interpretativa. El estudio indica los beneficios generales para las autoridades de inspección al integrar métodos de aprendizaje automático en la focalización del trabajo no declarado y demuestra una mejora considerable en el rendimiento de predicción al seguir enfoques de ingeniería de datos para abordar los problemas de desequilibrio de clase y superposición de clase.
Descripción
El trabajo no declarado es un asunto socioeconómico compuesto que afecta gravemente al bienestar de los trabajadores, las empresas legítimas y el estado al generar competencia desleal en el mercado laboral y causar considerables pérdidas de ingresos estatales por evasión fiscal. Los inspectorados laborales tienen la tarea de abordar eficazmente este problema, pero generalmente carecen de recursos adecuados y herramientas apropiadas, aunque poseen grandes volúmenes de datos de inspección pasados que, si se procesan adecuadamente a través de técnicas innovadoras de aprendizaje automático, pueden proporcionar información comprensible sobre la extensión y los patrones predominantes del trabajo no declarado y herramientas eficientes para abordarlo. Tales conjuntos de datos suelen ser desequilibrados en cuanto al trabajo no declarado y contienen descubrimientos de inspección superpuestos, dos problemas que dificultan el proceso de aprendizaje. Esta investigación señala los problemas de desequilibrio de clase y superposición de clase en este ámbito y aplica combinaciones de técnicas de ingeniería de datos para abordarlos utilizando un conjunto de datos de 16.7 K inspecciones laborales reales. Se emplean tres algoritmos de clasificación asociativa, y se construyen y evalúan múltiples clasificadores por su capacidad predictiva e interpretativa. El estudio indica los beneficios generales para las autoridades de inspección al integrar métodos de aprendizaje automático en la focalización del trabajo no declarado y demuestra una mejora considerable en el rendimiento de predicción al seguir enfoques de ingeniería de datos para abordar los problemas de desequilibrio de clase y superposición de clase.