logo móvil
Contáctanos

Pmdrspell: método dinámico de verificación de ortografía china residual guiado por conocimientos fonológicos y morfológicos

Autores: Chang, Guanguang; Zhang, Yangsen; Yu, Youren; Song, Jiayuan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Pmdrspell: método dinámico de verificación de ortografía china residual guiado por conocimientos fonológicos y morfológicos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Errores
Caracteres chinos
Modelos principales
Fonológicos
Morfológicos
Información multimodal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 43

Citaciones: Sin citaciones


Descripción
Dado que los errores en la corrección ortográfica china (CSC) implican caracteres chinos confusos fonética o morfológicamente, los modelos principales han realizado numerosos intentos para fusionar el conocimiento fonológico y morfológico. Observamos que en las oraciones erróneas donde la gran mayoría de los caracteres chinos están escritos correctamente, los modelos principales pueden aumentar involuntariamente la dificultad de predecir estos caracteres correctos al integrar el conocimiento multi-modal en todos los caracteres. Además, estos modelos a menudo pasan por alto la relación potencial entre las modalidades fonológicas y morfológicas de un carácter chino al utilizar información multi-modal. En este artículo, proponemos un modelo de extremo a extremo llamado PMDRSpell, que modela caracteres chinos erróneos en oraciones utilizando su conocimiento multi-modal y reduce el uso de información multi-modal para caracteres chinos correctos. Además, descubre la relación entre las características fonológicas y morfológicas basadas en las características de los fonogramas, mejorando la similitud entre caracteres chinos similares. Específicamente, se emplea primero la detección a gran escala y jerárquica para localizar y enmascarar las ubicaciones de error dentro de las oraciones, utilizando la información de incrustación original como características residuales. A continuación, se extrae la información de correlación en las modalidades fonológicas y morfológicas de los caracteres erróneos para construir nuevas características representativas, que luego se utilizan para actualizar la información del carácter chino erróneo dentro de las características residuales. Finalmente, las oraciones enmascaradas se predicen utilizando el modelo MLM y se clasifican para generar oraciones correctas combinando las características residuales con la información multi-modal actualizada. Nuestro modelo reduce efectivamente la interferencia de los caracteres chinos correctos durante el proceso de inspección y aprovecha la información multi-modal para corregir con precisión los caracteres chinos incorrectos. En nuestros experimentos de comparación con los modelos más avanzados recientes, PMDRSpell supera la línea base óptima en términos de puntajes F1 corregidos por error para Sighan14 y Sighan15 en 1,2 y 1,0 puntos porcentuales, respectivamente.

Otros recursos que podrían interesarte

Temas Virtualpro