Evaluando la legibilidad de los libros de texto rusos utilizando modelos de lenguaje grandes
Autores: Paraschiv, Andrei; Dascalu, Mihai; Solnyshkina, Marina
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Evaluando la legibilidad de los libros de texto rusos utilizando modelos de lenguaje grandes
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Estudio
Modelos de Lenguaje Grande
GPT-4o
Libros de texto rusos
Evaluación de legibilidad
Simplificación de texto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este estudio tiene como objetivo evaluar la capacidad de los Modelos de Lenguaje Grande (LLMs), particularmente GPT-4o, para evaluar y modificar el nivel de complejidad de los libros de texto escolares rusos. Sentamos las bases para desarrollar métodos escalables y conscientes del contexto para la evaluación de la legibilidad y la simplificación de textos en materiales educativos rusos, áreas en las que las fórmulas tradicionales a menudo no son suficientes. Utilizando un corpus de 154 libros de texto que cubren diversas materias y niveles de grado, evaluamos hasta qué punto los LLMs predicen con precisión el nivel de comprensión apropiado de un texto y qué tan bien simplifican los textos mediante una reducción de grado específica. Nuestro marco de evaluación emplea GPT-4o como un agente de múltiples roles en tres experimentos distintos. Primero, le pedimos al modelo que estime la edad de comprensión objetivo para cada segmento e identifique cinco características lingüísticas o conceptuales clave que sustentan su evaluación. En segundo lugar, simulamos la comprensión del estudiante instruyendo al modelo para que razone paso a paso si el texto es comprensible para un estudiante hipotético del grado dado. En tercer lugar, examinamos la capacidad del modelo para simplificar fragmentos seleccionados reduciendo su complejidad en tres niveles de grado. Además, medimos la perplejidad del modelo y las probabilidades de tokens de salida para sondear la confianza y coherencia de la predicción. Los resultados indican que, si bien los LLMs muestran un considerable potencial en la evaluación de la complejidad (es decir, un MAE de 1 nivel de grado), tienden a sobreestimar la dificultad del texto y enfrentan desafíos para lograr niveles de simplificación precisos. Las evaluaciones de facilidad de comprensión generalmente se alinean con las expectativas humanas, aunque los textos con contenido abstracto, técnico o poético (por ejemplo, Física, Historia y Literatura rusa) presentan desafíos. Nuestro estudio concluye que los LLMs pueden complementar sustancialmente las métricas tradicionales de legibilidad y ayudar a los docentes a desarrollar materiales educativos rusos adecuados.
Descripción
Este estudio tiene como objetivo evaluar la capacidad de los Modelos de Lenguaje Grande (LLMs), particularmente GPT-4o, para evaluar y modificar el nivel de complejidad de los libros de texto escolares rusos. Sentamos las bases para desarrollar métodos escalables y conscientes del contexto para la evaluación de la legibilidad y la simplificación de textos en materiales educativos rusos, áreas en las que las fórmulas tradicionales a menudo no son suficientes. Utilizando un corpus de 154 libros de texto que cubren diversas materias y niveles de grado, evaluamos hasta qué punto los LLMs predicen con precisión el nivel de comprensión apropiado de un texto y qué tan bien simplifican los textos mediante una reducción de grado específica. Nuestro marco de evaluación emplea GPT-4o como un agente de múltiples roles en tres experimentos distintos. Primero, le pedimos al modelo que estime la edad de comprensión objetivo para cada segmento e identifique cinco características lingüísticas o conceptuales clave que sustentan su evaluación. En segundo lugar, simulamos la comprensión del estudiante instruyendo al modelo para que razone paso a paso si el texto es comprensible para un estudiante hipotético del grado dado. En tercer lugar, examinamos la capacidad del modelo para simplificar fragmentos seleccionados reduciendo su complejidad en tres niveles de grado. Además, medimos la perplejidad del modelo y las probabilidades de tokens de salida para sondear la confianza y coherencia de la predicción. Los resultados indican que, si bien los LLMs muestran un considerable potencial en la evaluación de la complejidad (es decir, un MAE de 1 nivel de grado), tienden a sobreestimar la dificultad del texto y enfrentan desafíos para lograr niveles de simplificación precisos. Las evaluaciones de facilidad de comprensión generalmente se alinean con las expectativas humanas, aunque los textos con contenido abstracto, técnico o poético (por ejemplo, Física, Historia y Literatura rusa) presentan desafíos. Nuestro estudio concluye que los LLMs pueden complementar sustancialmente las métricas tradicionales de legibilidad y ayudar a los docentes a desarrollar materiales educativos rusos adecuados.