Optimizando el rendimiento de OCR para videos de programación: el papel de la superresolución de imágenes y los modelos de lenguaje grandes
Autores: Alahmadi, Mohammad D.; Alshangiti, Moayad
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Optimizando el rendimiento de OCR para videos de programación: el papel de la superresolución de imágenes y los modelos de lenguaje grandes
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Evolución
Tutoriales de programación en video
Métodos de extracción de código
Motores OCR
Modelos de lenguaje grandes
Superresolución de imágenes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
La rápida evolución de los tutoriales de programación en video como un recurso educativo clave ha resaltado la necesidad de métodos efectivos de extracción de código. Estos tutoriales, que varían ampliamente en calidad de video, presentan un desafío para transcribir con precisión el código fuente incrustado, crucial para el aprendizaje y el desarrollo de software. Este estudio investiga el impacto de la calidad del video en el rendimiento de los motores de reconocimiento óptico de caracteres (OCR) y el potencial de los grandes modelos de lenguaje (LLMs) para mejorar la precisión en la extracción de código. Nuestro análisis empírico exhaustivo utiliza un conjunto de datos rico en screencasts de programación, que implica la transcripción manual del código fuente y la aplicación tanto de motores OCR tradicionales, como Tesseract y Google Vision, como de LLMs avanzados, incluidos GPT-4V y Gemini. Investigamos la eficacia de las técnicas de super-resolución de imagen (SR), a saber, super-resolución profunda mejorada (EDSR) y super-resolución profunda multi-escala (MDSR), para mejorar la calidad de los fotogramas de video de baja resolución. Los hallazgos revelan mejoras significativas en la precisión del OCR con el uso de SR, especialmente en resoluciones más bajas como 360p. Los LLMs demuestran un rendimiento superior en todas las calidades de video, lo que indica su robustez y capacidades avanzadas en diversos escenarios. Esta investigación contribuye al campo de la ingeniería de software al ofrecer un punto de referencia para la extracción de código de tutoriales en video y al demostrar el impacto sustancial de las técnicas de SR y LLMs en mejorar la legibilidad y reutilización del código de estos recursos educativos.
Descripción
La rápida evolución de los tutoriales de programación en video como un recurso educativo clave ha resaltado la necesidad de métodos efectivos de extracción de código. Estos tutoriales, que varían ampliamente en calidad de video, presentan un desafío para transcribir con precisión el código fuente incrustado, crucial para el aprendizaje y el desarrollo de software. Este estudio investiga el impacto de la calidad del video en el rendimiento de los motores de reconocimiento óptico de caracteres (OCR) y el potencial de los grandes modelos de lenguaje (LLMs) para mejorar la precisión en la extracción de código. Nuestro análisis empírico exhaustivo utiliza un conjunto de datos rico en screencasts de programación, que implica la transcripción manual del código fuente y la aplicación tanto de motores OCR tradicionales, como Tesseract y Google Vision, como de LLMs avanzados, incluidos GPT-4V y Gemini. Investigamos la eficacia de las técnicas de super-resolución de imagen (SR), a saber, super-resolución profunda mejorada (EDSR) y super-resolución profunda multi-escala (MDSR), para mejorar la calidad de los fotogramas de video de baja resolución. Los hallazgos revelan mejoras significativas en la precisión del OCR con el uso de SR, especialmente en resoluciones más bajas como 360p. Los LLMs demuestran un rendimiento superior en todas las calidades de video, lo que indica su robustez y capacidades avanzadas en diversos escenarios. Esta investigación contribuye al campo de la ingeniería de software al ofrecer un punto de referencia para la extracción de código de tutoriales en video y al demostrar el impacto sustancial de las técnicas de SR y LLMs en mejorar la legibilidad y reutilización del código de estos recursos educativos.