Muéstrame todos los errores de escritura: un corrector de errores gramaticales en dos fases para el rumano

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Muéstrame todos los errores de escritura: un corrector de errores gramaticales en dos fases para el rumano

Autores: Tudose, Mihai-Cristian; Ruseti, Stefan; Dascalu, Mihai

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Muéstrame todos los errores de escritura: un corrector de errores gramaticales en dos fases para el rumano

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Corrección de errores gramaticales

Idioma rumano

Conjunto de datos

Soluciones GEC

Enfoque en dos fases

Rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Hoy en día, la corrección de errores gramaticales (GEC) tiene un papel significativo en la escritura, ya que incluso los hablantes nativos a menudo enfrentan desafíos con la escritura competente. Esta investigación se centra en desarrollar una metodología para corregir errores gramaticales en el idioma rumano, un idioma con menos recursos para el cual actualmente no existen soluciones GEC actualizadas. Nuestras principales contribuciones incluyen un conjunto de datos sintético de código abierto de 345,403 oraciones rumanas, un conjunto de datos curado manualmente de 3054 comentarios en redes sociales, un enfoque GEC en dos fases y una comparación con varios modelos rumanos, incluidos RoMistral y RoLama3, así como LanguageTool, GPT-4o mini y GPT-4o. Consideramos un conjunto de datos sintético para ajustar nuestros modelos, mientras que nos basamos en dos conjuntos de datos de la vida real con errores humanos genuinos (es decir, CNA y RoComments) para evaluar el rendimiento. La creación de un conjunto de datos artificial fue necesaria debido a la escasez de conjuntos de datos de errores de la vida real, mientras que la introducción de RoComments, un nuevo conjunto de datos genuino, se argumenta por la necesidad de cubrir errores entre hablantes nativos encontrados en comentarios en redes sociales. También introducimos un enfoque en dos fases, donde primero identificamos la ubicación de los tokens erróneos en la oración; a continuación, los tokens erróneos son reemplazados por un modelo de codificador-decodificador. Nuestro enfoque logró un F0.5 de 0.57 en CNA y 0.64 en RoComments, superando por un margen considerable a LanguageTool, así como a una versión de extremo a extremo basada en Flan-T5 y mT0 en la mayoría de las configuraciones. Si bien nuestro método en dos fases no superó a GPT-4o, posiblemente debido a su menor tamaño y exposición al idioma, obtuvo resultados comparables con GPT-4o mini y logró un rendimiento superior al de todos los LLM rumanos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro