Modelo rl-ssi: adaptando un enfoque de aprendizaje supervisado a un enfoque semisupervisado para el reconocimiento de acciones humanas
Autores: dos Santos, Lucas Lisboa; Winkler, Ingrid; Nascimento, Erick Giovani Sperandio
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Modelo rl-ssi: adaptando un enfoque de aprendizaje supervisado a un enfoque semisupervisado para el reconocimiento de acciones humanas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Tarea de reconocimiento de acciones
Datos etiquetados
Aprendizaje Semi-Supervisado y Reforzamiento Iterativo
RL-SSI
Conjunto de datos JIGSAWS
Conjunto de datos Breakfast
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Generalmente, la tarea de reconocimiento de acciones requiere una gran cantidad de datos etiquetados, lo que representa un esfuerzo de anotación humano que consume mucho tiempo. Para mitigar la dependencia de los datos etiquetados, este estudio propone el Aprendizaje Semi-Supervisado e Iterativo de Refuerzo (RL-SSI), que adapta un enfoque supervisado que utiliza el 100% de los datos etiquetados a un enfoque semi-supervisado e iterativo que utiliza el aprendizaje por refuerzo para el reconocimiento de acciones humanas en videos. Los conjuntos de datos JIGSAWS y Breakfast se utilizaron para evaluar el modelo RL-SSI, ya que se utilizan comúnmente en la tarea de segmentación de acciones. Lo mismo se aplica a las métricas de rendimiento utilizadas en este trabajo: F-Score (F1) y Edit Score, que se aplican comúnmente a tales tareas. En las pruebas de JIGSAWS, observamos que el RL-SSI superó a las técnicas previamente desarrolladas de vanguardia en todas las medidas cuantitativas, utilizando solo el 65% de los datos etiquetados. Al analizar las pruebas de Breakfast, comparamos la efectividad de RL-SSI con los resultados de la técnica auto-supervisada llamada SSTDA. Descubrimos que RL-SSI superó a SSTDA con una precisión del 66.44% frente al 65.8%, pero RL-SSI fue superado por la medida de segmentación F1@10, que presentó una precisión del 67.33% frente al 69.3% de SSTDA. A pesar de esto, nuestro experimento solo utilizó el 55.8% de los datos etiquetados, mientras que SSTDA utilizó el 65%. Concluimos que nuestro enfoque superó a los métodos equivalentes de aprendizaje supervisado y es comparable a SSTDA, cuando se evalúa en múltiples conjuntos de datos de reconocimiento de acciones humanas, demostrando ser un método innovador importante para construir soluciones con éxito para reducir la cantidad de datos completamente etiquetados, aprovechando el trabajo de especialistas humanos en la tarea de etiquetado de datos de videos y sus respectivos fotogramas, para el reconocimiento de acciones humanas, reduciendo así los recursos necesarios para lograrlo.
Descripción
Generalmente, la tarea de reconocimiento de acciones requiere una gran cantidad de datos etiquetados, lo que representa un esfuerzo de anotación humano que consume mucho tiempo. Para mitigar la dependencia de los datos etiquetados, este estudio propone el Aprendizaje Semi-Supervisado e Iterativo de Refuerzo (RL-SSI), que adapta un enfoque supervisado que utiliza el 100% de los datos etiquetados a un enfoque semi-supervisado e iterativo que utiliza el aprendizaje por refuerzo para el reconocimiento de acciones humanas en videos. Los conjuntos de datos JIGSAWS y Breakfast se utilizaron para evaluar el modelo RL-SSI, ya que se utilizan comúnmente en la tarea de segmentación de acciones. Lo mismo se aplica a las métricas de rendimiento utilizadas en este trabajo: F-Score (F1) y Edit Score, que se aplican comúnmente a tales tareas. En las pruebas de JIGSAWS, observamos que el RL-SSI superó a las técnicas previamente desarrolladas de vanguardia en todas las medidas cuantitativas, utilizando solo el 65% de los datos etiquetados. Al analizar las pruebas de Breakfast, comparamos la efectividad de RL-SSI con los resultados de la técnica auto-supervisada llamada SSTDA. Descubrimos que RL-SSI superó a SSTDA con una precisión del 66.44% frente al 65.8%, pero RL-SSI fue superado por la medida de segmentación F1@10, que presentó una precisión del 67.33% frente al 69.3% de SSTDA. A pesar de esto, nuestro experimento solo utilizó el 55.8% de los datos etiquetados, mientras que SSTDA utilizó el 65%. Concluimos que nuestro enfoque superó a los métodos equivalentes de aprendizaje supervisado y es comparable a SSTDA, cuando se evalúa en múltiples conjuntos de datos de reconocimiento de acciones humanas, demostrando ser un método innovador importante para construir soluciones con éxito para reducir la cantidad de datos completamente etiquetados, aprovechando el trabajo de especialistas humanos en la tarea de etiquetado de datos de videos y sus respectivos fotogramas, para el reconocimiento de acciones humanas, reduciendo así los recursos necesarios para lograrlo.