Muéstrame todos los errores de escritura: un corrector de errores gramaticales en dos fases para el rumano
Autores: Tudose, Mihai-Cristian; Ruseti, Stefan; Dascalu, Mihai
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Muéstrame todos los errores de escritura: un corrector de errores gramaticales en dos fases para el rumano
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Corrección de errores gramaticales
Idioma rumano
Conjunto de datos
Soluciones GEC
Enfoque en dos fases
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Hoy en día, la corrección de errores gramaticales (GEC) tiene un papel significativo en la escritura, ya que incluso los hablantes nativos a menudo enfrentan desafíos con la escritura competente. Esta investigación se centra en desarrollar una metodología para corregir errores gramaticales en el idioma rumano, un idioma con menos recursos para el cual actualmente no existen soluciones GEC actualizadas. Nuestras principales contribuciones incluyen un conjunto de datos sintético de código abierto de 345,403 oraciones rumanas, un conjunto de datos curado manualmente de 3054 comentarios en redes sociales, un enfoque GEC en dos fases y una comparación con varios modelos rumanos, incluidos RoMistral y RoLama3, así como LanguageTool, GPT-4o mini y GPT-4o. Consideramos un conjunto de datos sintético para ajustar nuestros modelos, mientras que nos basamos en dos conjuntos de datos de la vida real con errores humanos genuinos (es decir, CNA y RoComments) para evaluar el rendimiento. La creación de un conjunto de datos artificial fue necesaria debido a la escasez de conjuntos de datos de errores de la vida real, mientras que la introducción de RoComments, un nuevo conjunto de datos genuino, se argumenta por la necesidad de cubrir errores entre hablantes nativos encontrados en comentarios en redes sociales. También introducimos un enfoque en dos fases, donde primero identificamos la ubicación de los tokens erróneos en la oración; a continuación, los tokens erróneos son reemplazados por un modelo de codificador-decodificador. Nuestro enfoque logró un F0.5 de 0.57 en CNA y 0.64 en RoComments, superando por un margen considerable a LanguageTool, así como a una versión de extremo a extremo basada en Flan-T5 y mT0 en la mayoría de las configuraciones. Si bien nuestro método en dos fases no superó a GPT-4o, posiblemente debido a su menor tamaño y exposición al idioma, obtuvo resultados comparables con GPT-4o mini y logró un rendimiento superior al de todos los LLM rumanos.
Descripción
Hoy en día, la corrección de errores gramaticales (GEC) tiene un papel significativo en la escritura, ya que incluso los hablantes nativos a menudo enfrentan desafíos con la escritura competente. Esta investigación se centra en desarrollar una metodología para corregir errores gramaticales en el idioma rumano, un idioma con menos recursos para el cual actualmente no existen soluciones GEC actualizadas. Nuestras principales contribuciones incluyen un conjunto de datos sintético de código abierto de 345,403 oraciones rumanas, un conjunto de datos curado manualmente de 3054 comentarios en redes sociales, un enfoque GEC en dos fases y una comparación con varios modelos rumanos, incluidos RoMistral y RoLama3, así como LanguageTool, GPT-4o mini y GPT-4o. Consideramos un conjunto de datos sintético para ajustar nuestros modelos, mientras que nos basamos en dos conjuntos de datos de la vida real con errores humanos genuinos (es decir, CNA y RoComments) para evaluar el rendimiento. La creación de un conjunto de datos artificial fue necesaria debido a la escasez de conjuntos de datos de errores de la vida real, mientras que la introducción de RoComments, un nuevo conjunto de datos genuino, se argumenta por la necesidad de cubrir errores entre hablantes nativos encontrados en comentarios en redes sociales. También introducimos un enfoque en dos fases, donde primero identificamos la ubicación de los tokens erróneos en la oración; a continuación, los tokens erróneos son reemplazados por un modelo de codificador-decodificador. Nuestro enfoque logró un F0.5 de 0.57 en CNA y 0.64 en RoComments, superando por un margen considerable a LanguageTool, así como a una versión de extremo a extremo basada en Flan-T5 y mT0 en la mayoría de las configuraciones. Si bien nuestro método en dos fases no superó a GPT-4o, posiblemente debido a su menor tamaño y exposición al idioma, obtuvo resultados comparables con GPT-4o mini y logró un rendimiento superior al de todos los LLM rumanos.