Hacia una estimación robusta de la pose humana bajo degradaciones de imagen del mundo real y escenarios de restauración
Autores: Elshami, Nada E.; Salah, Ahmad; Abdellatif, Amr; Mohsen, Heba
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Hacia una estimación robusta de la pose humana bajo degradaciones de imagen del mundo real y escenarios de restauración
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Estimación de poses
Degradación de imágenes
Modelos de HPE
Reconocimiento de puntos de referencia
Restauración de imágenes
Mejora de imágenes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los modelos de estimación de pose humana (HPE) tienen diversas aplicaciones y representan una rama de estudio de vanguardia, cuyos sistemas como MediaPipe (MP), OpenPose (OP) y AlphaPose (ALP) muestran un éxito notable. Sin embargo, una de estas áreas que está insuficientemente investigada es el impacto de la degradación de imágenes en la precisión de los modelos HPE. La degradación de imágenes se refiere a imágenes cuya calidad visual ha sido intencionadamente degradada mediante técnicas como ajustes de brillo (que pueden llevar a un aumento o disminución en los niveles de intensidad), rotaciones geométricas o reducción de resolución. El estudio de cómo estos tipos de degradación impactan la funcionalidad de rendimiento de los modelos HPE es un dominio poco investigado que es prácticamente inexplorado. Además, los métodos actuales sobre la eficacia de las técnicas de restauración de imágenes existentes no han sido evaluados rigurosamente y mejorar imágenes degradadas a una alta calidad no ha sido bien examinado en relación con la mejora de los modelos HPE. En este estudio, demostramos explícitamente una disminución en la precisión del modelo HPE cuando la calidad de la imagen se degrada. Nuestras mediciones cualitativas y cuantitativas identifican una amplia diferencia en el rendimiento al identificar puntos de referencia a medida que las imágenes sufren cambios en el brillo, la rotación o reducciones en la resolución. Además, hemos probado una variedad de métodos de mejora de imágenes existentes en un intento de aumentar su capacidad para restaurar imágenes de baja calidad, apoyando así la funcionalidad mejorada de HPE. Curiosamente, para imágenes rotadas, el uso de Pillow de OpenCV mejora drásticamente la precisión del reconocimiento de puntos de referencia, casi restaurándola a los niveles que vemos en imágenes de alta calidad. Sin embargo, en casos de variación de brillo y en imágenes de baja calidad, los métodos de mejora existentes no logran los avances anticipados, destacando una gran dirección de estudio que merece una mayor investigación y llama a una investigación adicional. En este sentido, proponemos un sistema amplio para clasificar sistemáticamente los diferentes tipos de degradación de imágenes y para seleccionar algoritmos apropiados para la restauración de imágenes, en un esfuerzo por restaurar la calidad de la imagen. Un hallazgo clave es que en un estudio relacionado de métodos actuales, el modelo Tuned RotNet logra una precisión del 92.04%, superando significativamente al modelo base y superando al modelo oficial RotNet en la predicción del grado de rotación de las imágenes, donde la precisión de los clasificadores RotNet oficial y Tuned RotNet fue del 61.59% y 92.04%, respectivamente. Además, en un esfuerzo por facilitar la investigación futura y hacerla más accesible para otros estudios, proporcionamos un nuevo conjunto de datos de imágenes de referencia y las correspondientes imágenes degeneradas, abordando una notable brecha en estudios comparativos controlados, ya que actualmente hay una falta de comparativos controlados.
Descripción
Los modelos de estimación de pose humana (HPE) tienen diversas aplicaciones y representan una rama de estudio de vanguardia, cuyos sistemas como MediaPipe (MP), OpenPose (OP) y AlphaPose (ALP) muestran un éxito notable. Sin embargo, una de estas áreas que está insuficientemente investigada es el impacto de la degradación de imágenes en la precisión de los modelos HPE. La degradación de imágenes se refiere a imágenes cuya calidad visual ha sido intencionadamente degradada mediante técnicas como ajustes de brillo (que pueden llevar a un aumento o disminución en los niveles de intensidad), rotaciones geométricas o reducción de resolución. El estudio de cómo estos tipos de degradación impactan la funcionalidad de rendimiento de los modelos HPE es un dominio poco investigado que es prácticamente inexplorado. Además, los métodos actuales sobre la eficacia de las técnicas de restauración de imágenes existentes no han sido evaluados rigurosamente y mejorar imágenes degradadas a una alta calidad no ha sido bien examinado en relación con la mejora de los modelos HPE. En este estudio, demostramos explícitamente una disminución en la precisión del modelo HPE cuando la calidad de la imagen se degrada. Nuestras mediciones cualitativas y cuantitativas identifican una amplia diferencia en el rendimiento al identificar puntos de referencia a medida que las imágenes sufren cambios en el brillo, la rotación o reducciones en la resolución. Además, hemos probado una variedad de métodos de mejora de imágenes existentes en un intento de aumentar su capacidad para restaurar imágenes de baja calidad, apoyando así la funcionalidad mejorada de HPE. Curiosamente, para imágenes rotadas, el uso de Pillow de OpenCV mejora drásticamente la precisión del reconocimiento de puntos de referencia, casi restaurándola a los niveles que vemos en imágenes de alta calidad. Sin embargo, en casos de variación de brillo y en imágenes de baja calidad, los métodos de mejora existentes no logran los avances anticipados, destacando una gran dirección de estudio que merece una mayor investigación y llama a una investigación adicional. En este sentido, proponemos un sistema amplio para clasificar sistemáticamente los diferentes tipos de degradación de imágenes y para seleccionar algoritmos apropiados para la restauración de imágenes, en un esfuerzo por restaurar la calidad de la imagen. Un hallazgo clave es que en un estudio relacionado de métodos actuales, el modelo Tuned RotNet logra una precisión del 92.04%, superando significativamente al modelo base y superando al modelo oficial RotNet en la predicción del grado de rotación de las imágenes, donde la precisión de los clasificadores RotNet oficial y Tuned RotNet fue del 61.59% y 92.04%, respectivamente. Además, en un esfuerzo por facilitar la investigación futura y hacerla más accesible para otros estudios, proporcionamos un nuevo conjunto de datos de imágenes de referencia y las correspondientes imágenes degeneradas, abordando una notable brecha en estudios comparativos controlados, ya que actualmente hay una falta de comparativos controlados.