logo móvil
Contáctanos

Optimizando el rendimiento de OCR para videos de programación: el papel de la superresolución de imágenes y los modelos de lenguaje grandes

Autores: Alahmadi, Mohammad D.; Alshangiti, Moayad

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Optimizando el rendimiento de OCR para videos de programación: el papel de la superresolución de imágenes y los modelos de lenguaje grandes


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Evolución
Tutoriales de programación en video
Métodos de extracción de código
Motores OCR
Modelos de lenguaje grandes
Superresolución de imágenes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
La rápida evolución de los tutoriales de programación en video como un recurso educativo clave ha resaltado la necesidad de métodos efectivos de extracción de código. Estos tutoriales, que varían ampliamente en calidad de video, presentan un desafío para transcribir con precisión el código fuente incrustado, crucial para el aprendizaje y el desarrollo de software. Este estudio investiga el impacto de la calidad del video en el rendimiento de los motores de reconocimiento óptico de caracteres (OCR) y el potencial de los grandes modelos de lenguaje (LLMs) para mejorar la precisión en la extracción de código. Nuestro análisis empírico exhaustivo utiliza un conjunto de datos rico en screencasts de programación, que implica la transcripción manual del código fuente y la aplicación tanto de motores OCR tradicionales, como Tesseract y Google Vision, como de LLMs avanzados, incluidos GPT-4V y Gemini. Investigamos la eficacia de las técnicas de super-resolución de imagen (SR), a saber, super-resolución profunda mejorada (EDSR) y super-resolución profunda multi-escala (MDSR), para mejorar la calidad de los fotogramas de video de baja resolución. Los hallazgos revelan mejoras significativas en la precisión del OCR con el uso de SR, especialmente en resoluciones más bajas como 360p. Los LLMs demuestran un rendimiento superior en todas las calidades de video, lo que indica su robustez y capacidades avanzadas en diversos escenarios. Esta investigación contribuye al campo de la ingeniería de software al ofrecer un punto de referencia para la extracción de código de tutoriales en video y al demostrar el impacto sustancial de las técnicas de SR y LLMs en mejorar la legibilidad y reutilización del código de estos recursos educativos.

Otros recursos que podrían interesarte

Temas Virtualpro