FontFusionGAN: refinamiento de fuentes manuscritas mediante fusión de fuentes
Autores: Kumar, Avinash; Kang, Kyeolhee; Muhammad, Ammar ul Hassan; Choi, Jaeyoung
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
FontFusionGAN: refinamiento de fuentes manuscritas mediante fusión de fuentes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Fuentes manuscritas
Claridad
FontFusionGAN
Fuentes impresas
Red generativa adversaria
Legibilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Las fuentes manuscritas poseen cualidades expresivas únicas; sin embargo, su claridad a menudo se ve afectada debido a la escritura inconsistente. Este estudio presenta FontFusionGAN (FFGAN), un método novedoso que mejora las fuentes manuscritas al mezclarlas con fuentes impresas. El enfoque propuesto aprovecha una red generativa adversaria (GAN) para sintetizar fuentes que combinan las características deseables de los estilos de fuentes manuscritas e impresas. Entrenar una GAN en un conjunto de datos completo de fuentes manuscritas e impresas le permite producir muestras de fuentes legibles y visualmente atractivas. La metodología se aplicó a un conjunto de datos de fuentes manuscritas, mostrando mejoras sustanciales en la legibilidad de las fuentes originales, manteniendo su esencia estética única. A diferencia del entorno GAN original donde se utiliza un solo vector de ruido para generar una imagen de muestra, seleccionamos aleatoriamente dos vectores de ruido, y, de una distribución gaussiana para entrenar el generador. Simultáneamente, introducimos una imagen real en el codificador de fusión para una reconstrucción exacta. Esta técnica garantizó el aprendizaje de la mezcla de estilos durante el entrenamiento. Durante la inferencia, proporcionamos al codificador dos imágenes de fuentes, una manuscrita y la otra impresa, para obtener sus respectivos vectores latentes. Posteriormente, el vector latente de la imagen de fuente manuscrita se inyectó en las primeras cinco capas del generador, mientras que el vector latente de la imagen de fuente impresa se inyectó en las últimas dos capas para obtener una imagen de fuente manuscrita refinada. El método propuesto tiene el potencial de mejorar la legibilidad de las fuentes manuscritas, ofreciendo beneficios en diversas aplicaciones, como la composición de documentos, la escritura de cartas y la asistencia a personas con dificultades de lectura y escritura.
Descripción
Las fuentes manuscritas poseen cualidades expresivas únicas; sin embargo, su claridad a menudo se ve afectada debido a la escritura inconsistente. Este estudio presenta FontFusionGAN (FFGAN), un método novedoso que mejora las fuentes manuscritas al mezclarlas con fuentes impresas. El enfoque propuesto aprovecha una red generativa adversaria (GAN) para sintetizar fuentes que combinan las características deseables de los estilos de fuentes manuscritas e impresas. Entrenar una GAN en un conjunto de datos completo de fuentes manuscritas e impresas le permite producir muestras de fuentes legibles y visualmente atractivas. La metodología se aplicó a un conjunto de datos de fuentes manuscritas, mostrando mejoras sustanciales en la legibilidad de las fuentes originales, manteniendo su esencia estética única. A diferencia del entorno GAN original donde se utiliza un solo vector de ruido para generar una imagen de muestra, seleccionamos aleatoriamente dos vectores de ruido, y, de una distribución gaussiana para entrenar el generador. Simultáneamente, introducimos una imagen real en el codificador de fusión para una reconstrucción exacta. Esta técnica garantizó el aprendizaje de la mezcla de estilos durante el entrenamiento. Durante la inferencia, proporcionamos al codificador dos imágenes de fuentes, una manuscrita y la otra impresa, para obtener sus respectivos vectores latentes. Posteriormente, el vector latente de la imagen de fuente manuscrita se inyectó en las primeras cinco capas del generador, mientras que el vector latente de la imagen de fuente impresa se inyectó en las últimas dos capas para obtener una imagen de fuente manuscrita refinada. El método propuesto tiene el potencial de mejorar la legibilidad de las fuentes manuscritas, ofreciendo beneficios en diversas aplicaciones, como la composición de documentos, la escritura de cartas y la asistencia a personas con dificultades de lectura y escritura.