Desenfocar el sesgo en griego: Estrategias de aprendizaje en contexto para la identificación y mitigación del sesgo de género en documentos legales y anuncios de empleo
Autores: Doumanas, Dimitrios; Soularidis, Andreas; Zafeiropoulos, Nikolaos; Chatzistamatis, Stamatis; Tsekouras, George E.; El Saer, Andreas; Nathanailidis, Chrisaphis; Kotis, Konstantinos
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Desenfocar el sesgo en griego: Estrategias de aprendizaje en contexto para la identificación y mitigación del sesgo de género en documentos legales y anuncios de empleo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Sesgo de género
Textos legales
Textos profesionales
Lengua griega
Identificación de sesgos
Mitigación de sesgos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El sesgo de género incrustado en textos legales y profesionales perpetúa la desigualdad sistémica, sin embargo, la investigación sobre la identificación y mitigación del sesgo sigue estando en gran medida confinada al inglés. Los idiomas morfológicamente ricos como el griego, donde el género gramatical permea sustantivos, adjetivos, pronombres y participios, presentan desafíos únicos que los enfoques existentes no logran abordar. Este artículo elabora una metodología sistemática centrada principalmente en identificar y mitigar el sesgo de género en anuncios de empleo y documentos legales en griego. Para lograr esa tarea, definimos una taxonomía de nueve reglas de sesgo de género adaptadas a las propiedades lingüísticas del griego y construimos conjuntos de datos anotados específicos del dominio que comprenden 90 ejemplos de pocos disparos curados por expertos en ambos dominios textuales. Utilizando estos recursos, empleamos ingeniería de prompts estructurados en XML con aprendizaje en contexto (ICL) y comparamos sistemáticamente tres clases de modelos: (i) modelos de lenguaje grande comerciales (LLMs), a saber, Claude Sonnet 4.5 y GPT-5.2, (ii) dos modelos de lenguaje pequeño de peso abierto (SLMs), Mistral Small (24B) y Ministral (14B), y (iii) Llama Krikri (8B), un modelo de lenguaje nativo griego construido sobre Llama 3.1 y ajustado con corpora griegos de alta calidad. Para cada texto de entrada, el sistema identifica expresiones sesgadas, las mapea a reglas de sesgo específicas, proporciona explicaciones y genera una versión inclusiva completamente corregida. Nuestros experimentos revelan disparidades de rendimiento sustanciales entre escalas de modelos y especialización lingüística, con LLMs demostrando un razonamiento contextual superior y SLMs exhibiendo sobrecorrección sistemática y errores gramaticales en la morfología griega. Además, introducimos una regla meta crítica que aborda el acuerdo de género con entidades nombradas para prevenir correcciones espurias en textos legales que hacen referencia a individuos identificados. Los hallazgos destacan la importancia de la escala del modelo, la adaptación específica del idioma y las estrategias de prompting cuidadosamente diseñadas para la mitigación del sesgo en idiomas subrepresentados.
Descripción
El sesgo de género incrustado en textos legales y profesionales perpetúa la desigualdad sistémica, sin embargo, la investigación sobre la identificación y mitigación del sesgo sigue estando en gran medida confinada al inglés. Los idiomas morfológicamente ricos como el griego, donde el género gramatical permea sustantivos, adjetivos, pronombres y participios, presentan desafíos únicos que los enfoques existentes no logran abordar. Este artículo elabora una metodología sistemática centrada principalmente en identificar y mitigar el sesgo de género en anuncios de empleo y documentos legales en griego. Para lograr esa tarea, definimos una taxonomía de nueve reglas de sesgo de género adaptadas a las propiedades lingüísticas del griego y construimos conjuntos de datos anotados específicos del dominio que comprenden 90 ejemplos de pocos disparos curados por expertos en ambos dominios textuales. Utilizando estos recursos, empleamos ingeniería de prompts estructurados en XML con aprendizaje en contexto (ICL) y comparamos sistemáticamente tres clases de modelos: (i) modelos de lenguaje grande comerciales (LLMs), a saber, Claude Sonnet 4.5 y GPT-5.2, (ii) dos modelos de lenguaje pequeño de peso abierto (SLMs), Mistral Small (24B) y Ministral (14B), y (iii) Llama Krikri (8B), un modelo de lenguaje nativo griego construido sobre Llama 3.1 y ajustado con corpora griegos de alta calidad. Para cada texto de entrada, el sistema identifica expresiones sesgadas, las mapea a reglas de sesgo específicas, proporciona explicaciones y genera una versión inclusiva completamente corregida. Nuestros experimentos revelan disparidades de rendimiento sustanciales entre escalas de modelos y especialización lingüística, con LLMs demostrando un razonamiento contextual superior y SLMs exhibiendo sobrecorrección sistemática y errores gramaticales en la morfología griega. Además, introducimos una regla meta crítica que aborda el acuerdo de género con entidades nombradas para prevenir correcciones espurias en textos legales que hacen referencia a individuos identificados. Los hallazgos destacan la importancia de la escala del modelo, la adaptación específica del idioma y las estrategias de prompting cuidadosamente diseñadas para la mitigación del sesgo en idiomas subrepresentados.