Optimizando el rendimiento de OCR para videos de programación: el papel de la superresolución de imágenes y los modelos de lenguaje grandes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Optimizando el rendimiento de OCR para videos de programación: el papel de la superresolución de imágenes y los modelos de lenguaje grandes

Autores: Alahmadi, Mohammad D.; Alshangiti, Moayad

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Optimizando el rendimiento de OCR para videos de programación: el papel de la superresolución de imágenes y los modelos de lenguaje grandes

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Evolución

Tutoriales de programación en video

Métodos de extracción de código

Motores OCR

Modelos de lenguaje grandes

Superresolución de imágenes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

La rápida evolución de los tutoriales de programación en video como un recurso educativo clave ha resaltado la necesidad de métodos efectivos de extracción de código. Estos tutoriales, que varían ampliamente en calidad de video, presentan un desafío para transcribir con precisión el código fuente incrustado, crucial para el aprendizaje y el desarrollo de software. Este estudio investiga el impacto de la calidad del video en el rendimiento de los motores de reconocimiento óptico de caracteres (OCR) y el potencial de los grandes modelos de lenguaje (LLMs) para mejorar la precisión en la extracción de código. Nuestro análisis empírico exhaustivo utiliza un conjunto de datos rico en screencasts de programación, que implica la transcripción manual del código fuente y la aplicación tanto de motores OCR tradicionales, como Tesseract y Google Vision, como de LLMs avanzados, incluidos GPT-4V y Gemini. Investigamos la eficacia de las técnicas de super-resolución de imagen (SR), a saber, super-resolución profunda mejorada (EDSR) y super-resolución profunda multi-escala (MDSR), para mejorar la calidad de los fotogramas de video de baja resolución. Los hallazgos revelan mejoras significativas en la precisión del OCR con el uso de SR, especialmente en resoluciones más bajas como 360p. Los LLMs demuestran un rendimiento superior en todas las calidades de video, lo que indica su robustez y capacidades avanzadas en diversos escenarios. Esta investigación contribuye al campo de la ingeniería de software al ofrecer un punto de referencia para la extracción de código de tutoriales en video y al demostrar el impacto sustancial de las técnicas de SR y LLMs en mejorar la legibilidad y reutilización del código de estos recursos educativos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro