logo móvil
Contáctanos

Muéstrame todos los errores de escritura: un corrector de errores gramaticales en dos fases para el rumano

Autores: Tudose, Mihai-Cristian; Ruseti, Stefan; Dascalu, Mihai

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Muéstrame todos los errores de escritura: un corrector de errores gramaticales en dos fases para el rumano


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Corrección de errores gramaticales
Idioma rumano
Conjunto de datos
Soluciones GEC
Enfoque en dos fases
Rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Hoy en día, la corrección de errores gramaticales (GEC) tiene un papel significativo en la escritura, ya que incluso los hablantes nativos a menudo enfrentan desafíos con la escritura competente. Esta investigación se centra en desarrollar una metodología para corregir errores gramaticales en el idioma rumano, un idioma con menos recursos para el cual actualmente no existen soluciones GEC actualizadas. Nuestras principales contribuciones incluyen un conjunto de datos sintético de código abierto de 345,403 oraciones rumanas, un conjunto de datos curado manualmente de 3054 comentarios en redes sociales, un enfoque GEC en dos fases y una comparación con varios modelos rumanos, incluidos RoMistral y RoLama3, así como LanguageTool, GPT-4o mini y GPT-4o. Consideramos un conjunto de datos sintético para ajustar nuestros modelos, mientras que nos basamos en dos conjuntos de datos de la vida real con errores humanos genuinos (es decir, CNA y RoComments) para evaluar el rendimiento. La creación de un conjunto de datos artificial fue necesaria debido a la escasez de conjuntos de datos de errores de la vida real, mientras que la introducción de RoComments, un nuevo conjunto de datos genuino, se argumenta por la necesidad de cubrir errores entre hablantes nativos encontrados en comentarios en redes sociales. También introducimos un enfoque en dos fases, donde primero identificamos la ubicación de los tokens erróneos en la oración; a continuación, los tokens erróneos son reemplazados por un modelo de codificador-decodificador. Nuestro enfoque logró un F0.5 de 0.57 en CNA y 0.64 en RoComments, superando por un margen considerable a LanguageTool, así como a una versión de extremo a extremo basada en Flan-T5 y mT0 en la mayoría de las configuraciones. Si bien nuestro método en dos fases no superó a GPT-4o, posiblemente debido a su menor tamaño y exposición al idioma, obtuvo resultados comparables con GPT-4o mini y logró un rendimiento superior al de todos los LLM rumanos.

Otros recursos que podrían interesarte

Temas Virtualpro